Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Cas Client : Picsart

Transformer les signaux opérationnels en améliorations d'infrastructure continues.

PicsartLa plus grande plateforme créative propulsée par l'AI au monde pour l'édition photo, vidéo et le design graphique. Avec plus de 130 millions d'utilisateurs actifs mensuels, elle est un outil complet pour créer des contenus pour les réseaux sociaux, l'art numérique et les supports marketing.

picsart.com

1 000+ employés

Miami, FL (siège)

Explore the OpsWorker Platform

Konstantin Lalafaryan

Directeur des systèmes d'information (DSI)

Picsart

Les plateformes cloud modernes génèrent d'énormes quantités de données opérationnelles, mais le vrai défi est de transformer ces signaux en améliorations concrètes. OpsWorker nous a aidés à convertir les observations opérationnelles directement en corrections au niveau du code, permettant à nos équipes de renforcer continuellement la plateforme.

90 %

réduction du bruit d'alertes à faible valeur

100 %

des alertes prioritaires converties en actions d'investigation

60 %

réduction des corrections manuelles d'infrastructure

30 %

réduction des ressources K8s sur-provisionnées

Picsart opère une large plateforme cloud-native qui alimente des outils créatifs utilisés par des millions d'utilisateurs à travers le monde. La plateforme est composée de centaines de microservices tournant sur Kubernetes et gérés par des équipes d'ingénierie de plateforme responsables de la fiabilité, de la scalabilité et des standards opérationnels.

Pour soutenir la productivité des développeurs et la gouvernance de la plateforme, Picsart s'appuie sur des workflows basés sur Git avec GitLab et utilise Backstage comme portail développeur centralisé et catalogue de services.

À mesure que la plateforme a grandi, la complexité opérationnelle a également augmenté. Des centaines d'alertes étaient générées quotidiennement dans les environnements de pré-production, rendant de plus en plus difficile la distinction entre les vrais problèmes et le bruit à faible valeur. Dans le même temps, les équipes de plateforme passaient un temps considérable à effectuer des corrections de configuration répétitives et à appliquer les standards de plateforme sur les dépôts.

Pour relever ces défis, Picsart a choisi OpsWorker, une plateforme AI SRE conçue pour transformer les signaux opérationnels en améliorations d'infrastructure automatisées.

Convertir les alertes en correctifs d'infrastructure

Les alertes deviennent des déclencheurs d'améliorations système permanentes, mettant fin aux solutions provisoires.

Correction des règles d'alerte mal configurées
Ajustement intelligent des seuils d'alerte
Amélioration de la configuration de résilience des services
Résolution des problèmes liés aux dépendances

Explorer ce cas d'usage

Optimisation des ressources Kubernetes

Identifier les opportunités d'optimisation de la configuration des ressources Kubernetes en fonction du comportement historique.

Ajustement des limites CPU et mémoire
Configuration du Horizontal Pod Autoscaling (HPA)
Introduction du Vertical Pod Autoscaling (VPA)
Analyse des pics de trafic et des patterns de charge

Explorer ce cas d'usage

Dérive des standards de plateforme

Analyser en continu la configuration des services et la comparer avec les pratiques de plateforme établies.

Proposer des PRs pour s'aligner avec les templates Backstage
Maintenir des standards cohérents entre les équipes
Éliminer les audits manuels des dépôts
Automatiser l'application de la conformité

Explorer ce cas d'usage

Comme beaucoup de plateformes cloud-natives en forte croissance, Picsart s'appuyait fortement sur les systèmes de monitoring et d'alertes pour maintenir la visibilité opérationnelle.

Cependant, avec le temps, l'environnement de pré-production a commencé à générer des centaines d'alertes quotidiennement. Beaucoup de ces alertes étaient déclenchées par des problèmes de configuration, un mauvais alignement des seuils ou des conditions de service temporaires pendant les tests.

Cela a créé un défi opérationnel classique : la fatigue des alertes. Lorsque la plupart des alertes ne sont pas actionnables, les ingénieurs cessent progressivement d'y prêter attention. Les alertes perdent leur crédibilité en tant que signaux, et les équipes commencent à ignorer de larges portions de la sortie de monitoring.

•Des alertes importantes peuvent être manquées
•Les problèmes de pré-production restent non résolus
•Les problèmes de configuration se propagent en production
•Les ingénieurs de plateforme passent du temps à trier manuellement des problèmes opérationnels répétitifs

De nombreuses alertes représentaient de petites améliorations nécessaires, telles que :

•l'ajustement des seuils d'alerte
•la correction de la configuration des services
•l'amélioration des paramètres de résilience
•la mise à jour des politiques de scaling

La mise en œuvre de ces améliorations nécessitait que les ingénieurs investiguent manuellement le problème, déterminent le correctif et créent des pull requests sur les dépôts. Ce processus créait une surcharge opérationnelle significative pour les équipes de plateforme.

La solution : convertir les alertes en améliorations d'infrastructure

Picsart a intégré OpsWorker dans ses workflows opérationnels et de développement pour transformer la façon dont les améliorations de fiabilité de la plateforme sont découvertes et mises en œuvre.

OpsWorker se connecte aux environnements Kubernetes, aux systèmes de monitoring, aux dépôts Git et aux portails développeurs pour analyser en continu les signaux opérationnels et proposer des améliorations.

Le workflow opérationnel central introduit par OpsWorker est simple mais puissant :

Alerte

Investigation AI

Cause racine

Pull Request

Amélioration système

Lorsqu'une alerte se produit, OpsWorker investigue automatiquement les signaux sous-jacents, en corrélant la télémétrie, l'état de l'infrastructure et les dépendances de services. Si le système identifie un problème de configuration ou une opportunité d'amélioration, il génère une pull request contenant le correctif recommandé.

Les ingénieurs peuvent revoir et fusionner le changement via leurs workflows Git existants.

Pour maintenir la gouvernance et le contrôle, les équipes de plateforme définissent quels namespaces autorisent la génération automatique de pull requests et lesquels nécessitent des suggestions d'approbation manuelle.

Au lieu d'ignorer les alertes, le système les convertit en améliorations actionnables qui renforcent la plateforme dans le temps.

Cas d'usage 2 : Optimisation des ressources Kubernetes

À mesure que la plateforme de Picsart s'est développée, la gestion de l'efficacité des ressources Kubernetes est devenue de plus en plus complexe.

Différents services avaient des caractéristiques d'exécution, des patterns de trafic et des exigences de scaling variables. Avec le temps, cela a conduit à une allocation de ressources incohérente entre les workloads.

Certains services étaient considérablement sur-provisionnés, consommant plus de CPU et de mémoire que nécessaire, tandis que d'autres manquaient d'une configuration de scaling appropriée. Cela créait à la fois des inefficacités d'infrastructure et des risques potentiels de fiabilité lors des pics de trafic.

L'optimisation manuelle des ressources Kubernetes sur des centaines de services s'est avérée difficile pour les équipes de plateforme. Cela nécessitait d'analyser la télémétrie historique, de comprendre le comportement des workloads et d'ajuster les configurations de scaling sur de nombreux dépôts.

OpsWorker analyse en continu :

l'utilisation historique des ressources
les patterns de workloads et les pics de trafic
le comportement d'exécution
les patterns de dépendances de services

Recommandations générées :

ajustement des limites CPU et mémoire
configuration du Horizontal Pod Autoscaling (HPA)
introduction du Vertical Pod Autoscaling (VPA)

Ces améliorations sont livrées sous forme de pull requests, permettant aux ingénieurs de plateforme de revoir et fusionner les changements d'optimisation des ressources directement via les workflows Git.

Cette approche permet à la configuration des ressources Kubernetes d'évoluer en continu sur la base de données opérationnelles réelles.

Cas d'usage 3 : Dérive des standards de plateforme

À mesure que le nombre de services augmentait, une dérive des standards de plateforme est apparue dans les dépôts.

Sans mécanismes d'application automatisés, les services ont progressivement divergé des pratiques de plateforme recommandées. Des différences sont apparues dans des domaines tels que :

la structure de configuration
les politiques de scaling
les paramètres de résilience
la configuration des dépendances de services

Maintenir des standards de plateforme cohérents sur des centaines de dépôts est devenu de plus en plus difficile pour les équipes d'ingénierie de plateforme.

OpsWorker analyse en continu la configuration des services et la compare avec les pratiques de plateforme définies dans Backstage et les directives d'ingénierie internes.

Lorsque des déviations sont détectées, le système propose des pull requests pour aligner les services avec les configurations recommandées.

Cela permet aux équipes de plateforme de maintenir des standards cohérents sur l'ensemble de la plateforme sans nécessiter d'audits manuels de centaines de dépôts.

Signaux opérationnels

Investigation AI

Pull Request générée

Plateforme plus robuste

Au lieu de traiter les alertes comme des signaux temporaires nécessitant une intervention manuelle, la plateforme convertit désormais les observations opérationnelles en améliorations de code révisables.

Cela crée une boucle d'amélioration continue où la plateforme devient plus résiliente dans le temps, entièrement pilotée par de vraies données opérationnelles.

« Avec OpsWorker, Picsart a transformé les signaux opérationnels en un mécanisme évolutif pour améliorer continuellement la fiabilité de la plateforme, l'efficacité et la productivité d'ingénierie. »

Prêt à démarrer ?

Façonnez l'avenir du
SRE piloté par l'AI

Transformez les signaux opérationnels en améliorations continues de la fiabilité. Rejoignez dès aujourd'hui les équipes d'ingénierie avant-gardistes.

Réserver une démo Get Similar Results — Contact Us

Obtenez votre essai gratuit

La solution : convertir les alertes en améliorations d'infrastructure

Le workflow opérationnel central introduit par OpsWorker est simple mais puissant :

Cas d'usage 2 : Optimisation des ressources Kubernetes

À mesure que la plateforme de Picsart s'est développée, la gestion de l'efficacité des ressources Kubernetes est devenue de plus en plus complexe.

OpsWorker analyse en continu :

l'utilisation historique des ressources
les patterns de workloads et les pics de trafic
le comportement d'exécution
les patterns de dépendances de services

Recommandations générées :

ajustement des limites CPU et mémoire
configuration du Horizontal Pod Autoscaling (HPA)
introduction du Vertical Pod Autoscaling (VPA)

Cette approche permet à la configuration des ressources Kubernetes d'évoluer en continu sur la base de données opérationnelles réelles.

Cas d'usage 3 : Dérive des standards de plateforme

À mesure que le nombre de services augmentait, une dérive des standards de plateforme est apparue dans les dépôts.

Sans mécanismes d'application automatisés, les services ont progressivement divergé des pratiques de plateforme recommandées. Des différences sont apparues dans des domaines tels que :

la structure de configuration
les politiques de scaling
les paramètres de résilience
la configuration des dépendances de services

Maintenir des standards de plateforme cohérents sur des centaines de dépôts est devenu de plus en plus difficile pour les équipes d'ingénierie de plateforme.

OpsWorker analyse en continu la configuration des services et la compare avec les pratiques de plateforme définies dans Backstage et les directives d'ingénierie internes.

Lorsque des déviations sont détectées, le système propose des pull requests pour aligner les services avec les configurations recommandées.

Cela permet aux équipes de plateforme de maintenir des standards cohérents sur l'ensemble de la plateforme sans nécessiter d'audits manuels de centaines de dépôts.

Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Résultats clés

Principaux cas d'usage chez Picsart

Convertir les alertes en correctifs d'infrastructure

Optimisation des ressources Kubernetes

Dérive des standards de plateforme

Le défi : quand les alertes deviennent du bruit

Cela crée plusieurs risques :

Opportunités manquées :

La solution : convertir les alertes en améliorations d'infrastructure

Cas d'usage 2 : Optimisation des ressources Kubernetes

OpsWorker analyse en continu :

Recommandations générées :

Cas d'usage 3 : Dérive des standards de plateforme

Amélioration continue de la fiabilité

Façonnez l'avenir du
SRE piloté par l'AI

Obtenez votre essai gratuit

Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Résultats clés

Principaux cas d'usage chez Picsart

Convertir les alertes en correctifs d'infrastructure

Optimisation des ressources Kubernetes

Dérive des standards de plateforme

Le défi : quand les alertes deviennent du bruit

Cela crée plusieurs risques :

Opportunités manquées :

La solution : convertir les alertes en améliorations d'infrastructure

Cas d'usage 2 : Optimisation des ressources Kubernetes

OpsWorker analyse en continu :

Recommandations générées :

Cas d'usage 3 : Dérive des standards de plateforme

Amélioration continue de la fiabilité

Façonnez l'avenir du
SRE piloté par l'AI

Obtenez votre essai gratuit

Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Résultats clés

Principaux cas d'usage chez Picsart

Convertir les alertes en correctifs d'infrastructure

Optimisation des ressources Kubernetes

Dérive des standards de plateforme

Le défi : quand les alertes deviennent du bruit

Cela crée plusieurs risques :

Opportunités manquées :

La solution : convertir les alertes en améliorations d'infrastructure

Cas d'usage 2 : Optimisation des ressources Kubernetes

OpsWorker analyse en continu :

Recommandations générées :

Cas d'usage 3 : Dérive des standards de plateforme

Amélioration continue de la fiabilité

Façonnez l'avenir duSRE piloté par l'AI

Obtenez votre essai gratuit

Comment Picsart a transformé le bruit d'alertes en pré-production en Améliorations automatisées de la fiabilité

Résultats clés

Principaux cas d'usage chez Picsart

Convertir les alertes en correctifs d'infrastructure

Optimisation des ressources Kubernetes

Dérive des standards de plateforme

Le défi : quand les alertes deviennent du bruit

Cela crée plusieurs risques :

Opportunités manquées :

La solution : convertir les alertes en améliorations d'infrastructure

Cas d'usage 2 : Optimisation des ressources Kubernetes

OpsWorker analyse en continu :

Recommandations générées :

Cas d'usage 3 : Dérive des standards de plateforme

Amélioration continue de la fiabilité

Façonnez l'avenir duSRE piloté par l'AI

Obtenez votre essai gratuit

Façonnez l'avenir du
SRE piloté par l'AI

Façonnez l'avenir du
SRE piloté par l'AI