Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité
Transformer les signaux opérationnels en améliorations d'infrastructure continues.


Les plateformes cloud modernes génèrent d'énormes quantités de données opérationnelles, mais le vrai défi est de transformer ces signaux en améliorations concrètes. OpsWorker nous a aidés à convertir les observations opérationnelles directement en corrections au niveau du code, permettant à nos équipes de renforcer continuellement la plateforme.
Résultats clés
Des améliorations mesurables dans l'ensemble des opérations de plateforme.
réduction du bruit d'alertes à faible valeur
des alertes prioritaires converties en actions d'investigation
réduction des corrections manuelles d'infrastructure
réduction des ressources K8s sur-provisionnées
Picsart opère une large plateforme cloud-native qui alimente des outils créatifs utilisés par des millions d'utilisateurs à travers le monde. La plateforme est composée de centaines de microservices tournant sur Kubernetes et gérés par des équipes d'ingénierie de plateforme responsables de la fiabilité, de la scalabilité et des standards opérationnels.
Pour soutenir la productivité des développeurs et la gouvernance de la plateforme, Picsart s'appuie sur des workflows basés sur Git avec GitLab et utilise Backstage comme portail développeur centralisé et catalogue de services.
À mesure que la plateforme a grandi, la complexité opérationnelle a également augmenté. Des centaines d'alertes étaient générées quotidiennement dans les environnements de pré-production, rendant de plus en plus difficile la distinction entre les vrais problèmes et le bruit à faible valeur. Dans le même temps, les équipes de plateforme passaient un temps considérable à effectuer des corrections de configuration répétitives et à appliquer les standards de plateforme sur les dépôts.
Pour relever ces défis, Picsart a choisi OpsWorker, une plateforme AI SRE conçue pour transformer les signaux opérationnels en améliorations d'infrastructure automatisées.
Principaux cas d'usage chez Picsart
Comment OpsWorker génère de la valeur dans l'organisation d'ingénierie.
Convertir les alertes en correctifs d'infrastructure
Les alertes deviennent des déclencheurs d'améliorations système permanentes, mettant fin aux solutions provisoires.
- Correction des règles d'alerte mal configurées
- Ajustement intelligent des seuils d'alerte
- Amélioration de la configuration de résilience des services
- Résolution des problèmes liés aux dépendances
Optimisation des ressources Kubernetes
Identifier les opportunités d'optimisation de la configuration des ressources Kubernetes en fonction du comportement historique.
- Ajustement des limites CPU et mémoire
- Configuration du Horizontal Pod Autoscaling (HPA)
- Introduction du Vertical Pod Autoscaling (VPA)
- Analyse des pics de trafic et des patterns de charge
Dérive des standards de plateforme
Analyser en continu la configuration des services et la comparer avec les pratiques de plateforme établies.
- Proposer des PRs pour s'aligner avec les templates Backstage
- Maintenir des standards cohérents entre les équipes
- Éliminer les audits manuels des dépôts
- Automatiser l'application de la conformité
Le défi : quand les alertes deviennent du bruit
Comme beaucoup de plateformes cloud-natives en forte croissance, Picsart s'appuyait fortement sur les systèmes de monitoring et d'alertes pour maintenir la visibilité opérationnelle.
Cependant, avec le temps, l'environnement de pré-production a commencé à générer des centaines d'alertes quotidiennement. Beaucoup de ces alertes étaient déclenchées par des problèmes de configuration, un mauvais alignement des seuils ou des conditions de service temporaires pendant les tests.
Cela a créé un défi opérationnel classique : la fatigue des alertes. Lorsque la plupart des alertes ne sont pas actionnables, les ingénieurs cessent progressivement d'y prêter attention. Les alertes perdent leur crédibilité en tant que signaux, et les équipes commencent à ignorer de larges portions de la sortie de monitoring.
Cela crée plusieurs risques :
- •Des alertes importantes peuvent être manquées
- •Les problèmes de pré-production restent non résolus
- •Les problèmes de configuration se propagent en production
- •Les ingénieurs de plateforme passent du temps à trier manuellement des problèmes opérationnels répétitifs
Opportunités manquées :
De nombreuses alertes représentaient de petites améliorations nécessaires, telles que :
- •l'ajustement des seuils d'alerte
- •la correction de la configuration des services
- •l'amélioration des paramètres de résilience
- •la mise à jour des politiques de scaling
La mise en œuvre de ces améliorations nécessitait que les ingénieurs investiguent manuellement le problème, déterminent le correctif et créent des pull requests sur les dépôts. Ce processus créait une surcharge opérationnelle significative pour les équipes de plateforme.

Le changement le plus précieux a été la discipline opérationnelle. Les alertes ne sont plus quelque chose que nous ignorons. Elles déclenchent désormais des investigations et des améliorations capturées sous forme de pull requests, intégrant les améliorations de fiabilité dans notre workflow d'ingénierie.
La solution : convertir les alertes en améliorations d'infrastructure
Picsart a intégré OpsWorker dans ses workflows opérationnels et de développement pour transformer la façon dont les améliorations de fiabilité de la plateforme sont découvertes et mises en œuvre.
OpsWorker se connecte aux environnements Kubernetes, aux systèmes de monitoring, aux dépôts Git et aux portails développeurs pour analyser en continu les signaux opérationnels et proposer des améliorations.
Le workflow opérationnel central introduit par OpsWorker est simple mais puissant :
Lorsqu'une alerte se produit, OpsWorker investigue automatiquement les signaux sous-jacents, en corrélant la télémétrie, l'état de l'infrastructure et les dépendances de services. Si le système identifie un problème de configuration ou une opportunité d'amélioration, il génère une pull request contenant le correctif recommandé.
Les ingénieurs peuvent revoir et fusionner le changement via leurs workflows Git existants.
Pour maintenir la gouvernance et le contrôle, les équipes de plateforme définissent quels namespaces autorisent la génération automatique de pull requests et lesquels nécessitent des suggestions d'approbation manuelle.
Au lieu d'ignorer les alertes, le système les convertit en améliorations actionnables qui renforcent la plateforme dans le temps.
Cas d'usage 2 : Optimisation des ressources Kubernetes
À mesure que la plateforme de Picsart s'est développée, la gestion de l'efficacité des ressources Kubernetes est devenue de plus en plus complexe.
Différents services avaient des caractéristiques d'exécution, des patterns de trafic et des exigences de scaling variables. Avec le temps, cela a conduit à une allocation de ressources incohérente entre les workloads.
Certains services étaient considérablement sur-provisionnés, consommant plus de CPU et de mémoire que nécessaire, tandis que d'autres manquaient d'une configuration de scaling appropriée. Cela créait à la fois des inefficacités d'infrastructure et des risques potentiels de fiabilité lors des pics de trafic.
L'optimisation manuelle des ressources Kubernetes sur des centaines de services s'est avérée difficile pour les équipes de plateforme. Cela nécessitait d'analyser la télémétrie historique, de comprendre le comportement des workloads et d'ajuster les configurations de scaling sur de nombreux dépôts.
OpsWorker analyse en continu :
- l'utilisation historique des ressources
- les patterns de workloads et les pics de trafic
- le comportement d'exécution
- les patterns de dépendances de services
Recommandations générées :
- ajustement des limites CPU et mémoire
- configuration du Horizontal Pod Autoscaling (HPA)
- introduction du Vertical Pod Autoscaling (VPA)
Ces améliorations sont livrées sous forme de pull requests, permettant aux ingénieurs de plateforme de revoir et fusionner les changements d'optimisation des ressources directement via les workflows Git.
Cette approche permet à la configuration des ressources Kubernetes d'évoluer en continu sur la base de données opérationnelles réelles.
Cas d'usage 3 : Dérive des standards de plateforme
À mesure que le nombre de services augmentait, une dérive des standards de plateforme est apparue dans les dépôts.
Sans mécanismes d'application automatisés, les services ont progressivement divergé des pratiques de plateforme recommandées. Des différences sont apparues dans des domaines tels que :
- la structure de configuration
- les politiques de scaling
- les paramètres de résilience
- la configuration des dépendances de services
Maintenir des standards de plateforme cohérents sur des centaines de dépôts est devenu de plus en plus difficile pour les équipes d'ingénierie de plateforme.
OpsWorker analyse en continu la configuration des services et la compare avec les pratiques de plateforme définies dans Backstage et les directives d'ingénierie internes.
Lorsque des déviations sont détectées, le système propose des pull requests pour aligner les services avec les configurations recommandées.
Cela permet aux équipes de plateforme de maintenir des standards cohérents sur l'ensemble de la plateforme sans nécessiter d'audits manuels de centaines de dépôts.
Amélioration continue de la fiabilité
En intégrant l'intelligence opérationnelle directement dans les workflows de développement, Picsart a introduit un nouveau modèle pour maintenir la fiabilité de la plateforme.
Au lieu de traiter les alertes comme des signaux temporaires nécessitant une intervention manuelle, la plateforme convertit désormais les observations opérationnelles en améliorations de code révisables.
Cela crée une boucle d'amélioration continue où la plateforme devient plus résiliente dans le temps, entièrement pilotée par de vraies données opérationnelles.
« Avec OpsWorker, Picsart a transformé les signaux opérationnels en un mécanisme évolutif pour améliorer continuellement la fiabilité de la plateforme, l'efficacité et la productivité d'ingénierie. »
Façonnez l'avenir du
SRE piloté par l'AI
Transformez les signaux opérationnels en améliorations continues de la fiabilité. Rejoignez dès aujourd'hui les équipes d'ingénierie avant-gardistes.