OpsWorker
ProduitClients
Ressources
Entreprise
S'inscrireRéserver une démo
← More Stories

Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Cas Client : Picsart

Transformer les signaux opérationnels en améliorations d'infrastructure continues.

Partager :
Picsart
Picsart
PicsartLa plus grande plateforme créative propulsée par l'AI au monde pour l'édition photo, vidéo et le design graphique. Avec plus de 130 millions d'utilisateurs actifs mensuels, elle est un outil complet pour créer des contenus pour les réseaux sociaux, l'art numérique et les supports marketing.
picsart.com
1 000+ employés
Miami, FL (siège)
Explore the OpsWorker Platform
Konstantin Lalafaryan

Konstantin Lalafaryan

Directeur des systèmes d'information (DSI)

PicsartPicsart

Les plateformes cloud modernes génèrent d'énormes quantités de données opérationnelles, mais le vrai défi est de transformer ces signaux en améliorations concrètes. OpsWorker nous a aidés à convertir les observations opérationnelles directement en corrections au niveau du code, permettant à nos équipes de renforcer continuellement la plateforme.

Résultats clés

Des améliorations mesurables dans l'ensemble des opérations de plateforme.

90 %

réduction du bruit d'alertes à faible valeur

100 %

des alertes prioritaires converties en actions d'investigation

60 %

réduction des corrections manuelles d'infrastructure

30 %

réduction des ressources K8s sur-provisionnées

Picsart opère une large plateforme cloud-native qui alimente des outils créatifs utilisés par des millions d'utilisateurs à travers le monde. La plateforme est composée de centaines de microservices tournant sur Kubernetes et gérés par des équipes d'ingénierie de plateforme responsables de la fiabilité, de la scalabilité et des standards opérationnels.

Pour soutenir la productivité des développeurs et la gouvernance de la plateforme, Picsart s'appuie sur des workflows basés sur Git avec GitLab et utilise Backstage comme portail développeur centralisé et catalogue de services.

À mesure que la plateforme a grandi, la complexité opérationnelle a également augmenté. Des centaines d'alertes étaient générées quotidiennement dans les environnements de pré-production, rendant de plus en plus difficile la distinction entre les vrais problèmes et le bruit à faible valeur. Dans le même temps, les équipes de plateforme passaient un temps considérable à effectuer des corrections de configuration répétitives et à appliquer les standards de plateforme sur les dépôts.

Pour relever ces défis, Picsart a choisi OpsWorker, une plateforme AI SRE conçue pour transformer les signaux opérationnels en améliorations d'infrastructure automatisées.

Principaux cas d'usage chez Picsart

Comment OpsWorker génère de la valeur dans l'organisation d'ingénierie.

Convertir les alertes en correctifs d'infrastructure

Les alertes deviennent des déclencheurs d'améliorations système permanentes, mettant fin aux solutions provisoires.

  • Correction des règles d'alerte mal configurées
  • Ajustement intelligent des seuils d'alerte
  • Amélioration de la configuration de résilience des services
  • Résolution des problèmes liés aux dépendances
Explorer ce cas d'usage

Optimisation des ressources Kubernetes

Identifier les opportunités d'optimisation de la configuration des ressources Kubernetes en fonction du comportement historique.

  • Ajustement des limites CPU et mémoire
  • Configuration du Horizontal Pod Autoscaling (HPA)
  • Introduction du Vertical Pod Autoscaling (VPA)
  • Analyse des pics de trafic et des patterns de charge
Explorer ce cas d'usage

Dérive des standards de plateforme

Analyser en continu la configuration des services et la comparer avec les pratiques de plateforme établies.

  • Proposer des PRs pour s'aligner avec les templates Backstage
  • Maintenir des standards cohérents entre les équipes
  • Éliminer les audits manuels des dépôts
  • Automatiser l'application de la conformité
Explorer ce cas d'usage

Le défi : quand les alertes deviennent du bruit

Comme beaucoup de plateformes cloud-natives en forte croissance, Picsart s'appuyait fortement sur les systèmes de monitoring et d'alertes pour maintenir la visibilité opérationnelle.

Cependant, avec le temps, l'environnement de pré-production a commencé à générer des centaines d'alertes quotidiennement. Beaucoup de ces alertes étaient déclenchées par des problèmes de configuration, un mauvais alignement des seuils ou des conditions de service temporaires pendant les tests.

Cela a créé un défi opérationnel classique : la fatigue des alertes. Lorsque la plupart des alertes ne sont pas actionnables, les ingénieurs cessent progressivement d'y prêter attention. Les alertes perdent leur crédibilité en tant que signaux, et les équipes commencent à ignorer de larges portions de la sortie de monitoring.

Cela crée plusieurs risques :

  • •Des alertes importantes peuvent être manquées
  • •Les problèmes de pré-production restent non résolus
  • •Les problèmes de configuration se propagent en production
  • •Les ingénieurs de plateforme passent du temps à trier manuellement des problèmes opérationnels répétitifs

Opportunités manquées :

De nombreuses alertes représentaient de petites améliorations nécessaires, telles que :

  • •l'ajustement des seuils d'alerte
  • •la correction de la configuration des services
  • •l'amélioration des paramètres de résilience
  • •la mise à jour des politiques de scaling

La mise en œuvre de ces améliorations nécessitait que les ingénieurs investiguent manuellement le problème, déterminent le correctif et créent des pull requests sur les dépôts. Ce processus créait une surcharge opérationnelle significative pour les équipes de plateforme.

Georgy Khachatryan

Georgy Khachatryan

Responsable SRE

PicsartPicsart

Le changement le plus précieux a été la discipline opérationnelle. Les alertes ne sont plus quelque chose que nous ignorons. Elles déclenchent désormais des investigations et des améliorations capturées sous forme de pull requests, intégrant les améliorations de fiabilité dans notre workflow d'ingénierie.

La solution : convertir les alertes en améliorations d'infrastructure

Picsart a intégré OpsWorker dans ses workflows opérationnels et de développement pour transformer la façon dont les améliorations de fiabilité de la plateforme sont découvertes et mises en œuvre.

OpsWorker se connecte aux environnements Kubernetes, aux systèmes de monitoring, aux dépôts Git et aux portails développeurs pour analyser en continu les signaux opérationnels et proposer des améliorations.

Le workflow opérationnel central introduit par OpsWorker est simple mais puissant :

Alerte
Investigation AI
Cause racine
Pull Request
Amélioration système

Lorsqu'une alerte se produit, OpsWorker investigue automatiquement les signaux sous-jacents, en corrélant la télémétrie, l'état de l'infrastructure et les dépendances de services. Si le système identifie un problème de configuration ou une opportunité d'amélioration, il génère une pull request contenant le correctif recommandé.

Les ingénieurs peuvent revoir et fusionner le changement via leurs workflows Git existants.

Pour maintenir la gouvernance et le contrôle, les équipes de plateforme définissent quels namespaces autorisent la génération automatique de pull requests et lesquels nécessitent des suggestions d'approbation manuelle.

Au lieu d'ignorer les alertes, le système les convertit en améliorations actionnables qui renforcent la plateforme dans le temps.

Cas d'usage 2 : Optimisation des ressources Kubernetes

À mesure que la plateforme de Picsart s'est développée, la gestion de l'efficacité des ressources Kubernetes est devenue de plus en plus complexe.

Différents services avaient des caractéristiques d'exécution, des patterns de trafic et des exigences de scaling variables. Avec le temps, cela a conduit à une allocation de ressources incohérente entre les workloads.

Certains services étaient considérablement sur-provisionnés, consommant plus de CPU et de mémoire que nécessaire, tandis que d'autres manquaient d'une configuration de scaling appropriée. Cela créait à la fois des inefficacités d'infrastructure et des risques potentiels de fiabilité lors des pics de trafic.

L'optimisation manuelle des ressources Kubernetes sur des centaines de services s'est avérée difficile pour les équipes de plateforme. Cela nécessitait d'analyser la télémétrie historique, de comprendre le comportement des workloads et d'ajuster les configurations de scaling sur de nombreux dépôts.

OpsWorker analyse en continu :

  • l'utilisation historique des ressources
  • les patterns de workloads et les pics de trafic
  • le comportement d'exécution
  • les patterns de dépendances de services

Recommandations générées :

  • ajustement des limites CPU et mémoire
  • configuration du Horizontal Pod Autoscaling (HPA)
  • introduction du Vertical Pod Autoscaling (VPA)

Ces améliorations sont livrées sous forme de pull requests, permettant aux ingénieurs de plateforme de revoir et fusionner les changements d'optimisation des ressources directement via les workflows Git.

Cette approche permet à la configuration des ressources Kubernetes d'évoluer en continu sur la base de données opérationnelles réelles.

Cas d'usage 3 : Dérive des standards de plateforme

À mesure que le nombre de services augmentait, une dérive des standards de plateforme est apparue dans les dépôts.

Sans mécanismes d'application automatisés, les services ont progressivement divergé des pratiques de plateforme recommandées. Des différences sont apparues dans des domaines tels que :

  • la structure de configuration
  • les politiques de scaling
  • les paramètres de résilience
  • la configuration des dépendances de services

Maintenir des standards de plateforme cohérents sur des centaines de dépôts est devenu de plus en plus difficile pour les équipes d'ingénierie de plateforme.

OpsWorker analyse en continu la configuration des services et la compare avec les pratiques de plateforme définies dans Backstage et les directives d'ingénierie internes.

Lorsque des déviations sont détectées, le système propose des pull requests pour aligner les services avec les configurations recommandées.

Cela permet aux équipes de plateforme de maintenir des standards cohérents sur l'ensemble de la plateforme sans nécessiter d'audits manuels de centaines de dépôts.

Amélioration continue de la fiabilité

En intégrant l'intelligence opérationnelle directement dans les workflows de développement, Picsart a introduit un nouveau modèle pour maintenir la fiabilité de la plateforme.

Signaux opérationnels
Investigation AI
Pull Request générée
Plateforme plus robuste

Au lieu de traiter les alertes comme des signaux temporaires nécessitant une intervention manuelle, la plateforme convertit désormais les observations opérationnelles en améliorations de code révisables.

Cela crée une boucle d'amélioration continue où la plateforme devient plus résiliente dans le temps, entièrement pilotée par de vraies données opérationnelles.

« Avec OpsWorker, Picsart a transformé les signaux opérationnels en un mécanisme évolutif pour améliorer continuellement la fiabilité de la plateforme, l'efficacité et la productivité d'ingénierie. »
Prêt à démarrer ?

Façonnez l'avenir du
SRE piloté par l'AI

Transformez les signaux opérationnels en améliorations continues de la fiabilité. Rejoignez dès aujourd'hui les équipes d'ingénierie avant-gardistes.

Réserver une démoGet Similar Results — Contact Us

Obtenez votre essai gratuit

Entreprise
À proposContactez-nousSécuritéConfidentialitéConditions
Ressources
GlossaireBlogActualités produitAgentic Ops Weekly
Ressources produit
DocumentationIntégrations
Outils AI
KubectlAI

Automatiser la fiabilité pour les équipes d'ingénierie modernes.

Sécurité de niveau enterprise pour protéger vos données. L'agent OpsWorker ne transfère aucune donnée personnelle (PII) ni donnée sensible, et vous permet de contrôler quelles données sont téléchargées.

OpsWorker © 2026. Tous droits réservés