Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kundenstory: Picsart

Operative Signale in kontinuierliche Infrastrukturverbesserungen umwandeln.

PicsartWeltgrößte AI-gestützte Creative-Plattform für Fotobearbeitung, Videobearbeitung und Grafikdesign. Mit über 130+ Millionen monatlich aktiven Nutzern dient sie als umfassendes Tool für die Erstellung von Social-Media-Inhalten, digitaler Kunst und Marketingmaterialien.

picsart.com

1.000+ Mitarbeiter

Miami, FL (Hauptsitz)

Explore the OpsWorker Platform

Konstantin Lalafaryan

Chief Information Officer (CIO)

Picsart

Moderne Cloud-Plattformen erzeugen enorme Mengen an Betriebsdaten, aber die eigentliche Herausforderung besteht darin, diese Signale in Verbesserungen umzuwandeln. OpsWorker hat uns geholfen, operative Erkenntnisse direkt in Code-Level-Fixes zu überführen und unseren Teams zu ermöglichen, die Plattform kontinuierlich zu stärken.

90%

Reduzierung von Alert-Rauschen mit niedrigem Wert

100%

der priorisierten Alerts werden in Untersuchungsmaßnahmen umgewandelt

60%

Reduzierung manueller Infrastruktur-Fixes

30%

Reduzierung übermäßig bereitgestellter K8s-Ressourcen

Picsart betreibt eine große cloud-native Plattform, die kreative Tools für Millionen von Nutzern weltweit bereitstellt. Die Plattform besteht aus Hunderten von Microservices, die auf Kubernetes laufen und von Plattform-Engineering-Teams verwaltet werden, die für Zuverlässigkeit, Skalierbarkeit und betriebliche Standards zuständig sind.

Um die Entwicklerproduktivität und die Plattform-Governance zu unterstützen, verlässt sich Picsart auf Git-basierte Workflows mit GitLab und verwendet Backstage als zentrales Entwicklerportal und Service-Katalog.

Mit dem Wachstum der Plattform stieg auch die operative Komplexität. In Pre-Production-Umgebungen wurden täglich Hunderte von Alerts generiert, was es zunehmend schwierig machte, zwischen echten Problemen und wertlosem Rauschen zu unterscheiden. Gleichzeitig verbrachten Plattform-Teams erhebliche Zeit damit, repetitive Konfigurationsfixes durchzuführen und Plattformstandards über Repositories hinweg durchzusetzen.

Um diese Herausforderungen zu bewältigen, hat Picsart mit OpsWorker, einer AI SRE-Plattform, die operative Signale in automatisierte Infrastrukturverbesserungen umwandelt, eine Partnerschaft eingegangen.

Alerts in Infrastruktur-Fixes umwandeln

Alerts werden zu Auslösern für dauerhafte Systemverbesserungen und beenden temporäre Notlösungen.

Falsch konfigurierte Alert-Regeln korrigieren
Alert-Schwellenwerte intelligent anpassen
Service-Resilienz-Konfiguration verbessern
Abhängigkeitsbezogene Probleme lösen

Diesen Anwendungsfall erkunden

Kubernetes-Ressourcenoptimierung

Möglichkeiten zur Optimierung der Kubernetes-Ressourcenkonfiguration auf Basis historischer Verhaltensweisen identifizieren.

CPU- und Speicherlimits anpassen
Horizontal Pod Autoscaling (HPA) konfigurieren
Vertical Pod Autoscaling (VPA) einführen
Traffic-Spikes und Workload-Muster analysieren

Diesen Anwendungsfall erkunden

Plattformstandardisierungs-Drift

Service-Konfiguration kontinuierlich analysieren und mit etablierten Plattformpraktiken vergleichen.

PRs vorschlagen, um Backstage-Templates anzugleichen
Konsistente Standards teamübergreifend aufrechterhalten
Manuelle Repository-Audits eliminieren
Compliance-Durchsetzung automatisieren

Diesen Anwendungsfall erkunden

Wie viele schnell skalierende cloud-native Plattformen verlässt sich Picsart stark auf Monitoring- und Alerting-Systeme, um operative Transparenz aufrechtzuerhalten.

Mit der Zeit begann die Pre-Production-Umgebung täglich Hunderte von Alerts zu generieren. Viele dieser Alerts wurden durch Konfigurationsprobleme, Schwellenwert-Fehlausrichtungen oder temporäre Service-Bedingungen beim Testen ausgelöst.

Das schuf eine klassische operative Herausforderung: Alert-Fatigue. Wenn die meisten Alerts nicht handlungsrelevant sind, hören Ingenieure allmählich auf, ihnen Aufmerksamkeit zu schenken. Alerts verlieren ihre Glaubwürdigkeit als Signale, und Teams beginnen, große Teile der Monitoring-Ausgabe zu ignorieren.

•Wichtige Alerts werden möglicherweise übersehen
•Pre-Production-Probleme bleiben ungelöst
•Konfigurationsprobleme propagieren sich in die Produktion
•Plattform-Ingenieure verbringen Zeit damit, repetitive operative Probleme manuell zu triagieren

Viele Alerts stellten kleine, aber notwendige Verbesserungen dar, wie etwa:

•Alert-Schwellenwerte anpassen
•Service-Konfiguration korrigieren
•Resilienz-Einstellungen verbessern
•Skalierungsrichtlinien aktualisieren

Die Umsetzung dieser Verbesserungen erforderte, dass Ingenieure das Problem manuell untersuchten, den Fix ermittelten und Pull Requests über Repositories hinweg erstellten. Dieser Prozess schuf erheblichen operativen Aufwand für Plattform-Teams.

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Picsart integrierte OpsWorker in seine operativen und Entwicklungs-Workflows, um die Art und Weise zu transformieren, wie Plattform-Zuverlässigkeitsverbesserungen entdeckt und implementiert werden.

OpsWorker verbindet sich mit Kubernetes-Umgebungen, Monitoring-Systemen, Git-Repositories und Entwicklerportalen, um operative Signale kontinuierlich zu analysieren und Verbesserungen vorzuschlagen.

Der durch OpsWorker eingeführte operative Kern-Workflow ist einfach, aber wirkungsvoll:

Alert

AI-Untersuchung

Grundursache

Pull Request

Systemverbesserung

Wenn ein Alert auftritt, untersucht OpsWorker automatisch die zugrunde liegenden Signale, korreliert Telemetrie, Infrastrukturzustand und Service-Abhängigkeiten. Wenn das System ein Konfigurationsproblem oder eine Verbesserungsmöglichkeit identifiziert, generiert es einen Pull Request mit dem empfohlenen Fix.

Ingenieure können die Änderung über ihre bestehenden Git-Workflows überprüfen und zusammenführen.

Um Governance und Kontrolle aufrechtzuerhalten, definieren Plattform-Teams, welche Namespaces automatische Pull-Request-Generierung erlauben und welche manuelle Genehmigungsvorschläge erfordern.

Anstatt Alerts zu ignorieren, wandelt das System sie in handlungsrelevante Verbesserungen um, die die Plattform im Laufe der Zeit stärken.

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

Mit der Expansion von Picsarts Plattform wurde die Verwaltung der Kubernetes-Ressourceneffizienz zunehmend komplexer.

Verschiedene Services hatten unterschiedliche Laufzeitcharakteristika, Traffic-Muster und Skalierungsanforderungen. Mit der Zeit führte dies zu inkonsistenter Ressourcenzuweisung über Workloads hinweg.

Einige Services waren erheblich überprovisioniert und verbrauchten mehr CPU und Speicher als erforderlich, während anderen die entsprechende Skalierungskonfiguration fehlte. Das schuf sowohl Infrastrukturineffizienzen als auch potenzielle Zuverlässigkeitsrisiken bei Traffic-Spikes.

Die manuelle Optimierung von Kubernetes-Ressourcen über Hunderte von Services erwies sich für Plattform-Teams als schwierig. Es erforderte die Analyse historischer Telemetrie, das Verstehen des Workload-Verhaltens und die Anpassung von Skalierungskonfigurationen über viele Repositories hinweg.

OpsWorker analysiert kontinuierlich:

historische Ressourcennutzung
Workload-Muster und Traffic-Spikes
Laufzeitverhalten
Service-Abhängigkeitsmuster

Generierte Empfehlungen:

CPU- und Speicherlimits anpassen
Horizontal Pod Autoscaling (HPA) konfigurieren
Vertical Pod Autoscaling (VPA) einführen

Diese Verbesserungen werden als Pull Requests geliefert, sodass Plattform-Ingenieure Ressourcenoptimierungsänderungen direkt über Git-Workflows überprüfen und zusammenführen können.

Dieser Ansatz ermöglicht es, die Kubernetes-Ressourcenkonfiguration auf Basis realer Betriebsdaten kontinuierlich weiterzuentwickeln.

Anwendungsfall 3: Plattformstandardisierungs-Drift

Mit wachsender Anzahl von Services begann Plattformstandardisierungs-Drift in Repositories aufzutreten.

Ohne automatisierte Durchsetzungsmechanismen wichen Services allmählich von empfohlenen Plattformpraktiken ab. Unterschiede traten in solchen Bereichen auf wie:

Konfigurationsstruktur
Skalierungsrichtlinien
Resilienz-Einstellungen
Service-Abhängigkeitskonfiguration

Die Aufrechterhaltung konsistenter Plattformstandards über Hunderte von Repositories wurde für Plattform-Engineering-Teams zunehmend schwieriger.

OpsWorker analysiert kontinuierlich die Service-Konfiguration und vergleicht sie mit Plattformpraktiken, die in Backstage und internen Engineering-Richtlinien definiert sind.

Wenn Abweichungen erkannt werden, schlägt das System Pull Requests vor, um Services an empfohlene Konfigurationen anzugleichen.

Das ermöglicht es Plattform-Teams, konsistente Standards über die gesamte Plattform hinweg aufrechtzuerhalten, ohne manuelle Audits von Hunderten von Repositories durchführen zu müssen.

Operative Signale

AI-Untersuchung

Pull Request generiert

Stärkere Plattform

Anstatt Alerts als temporäre Signale zu behandeln, die manuelles Eingreifen erfordern, wandelt die Plattform jetzt operative Erkenntnisse in überprüfbare Code-Verbesserungen um.

Das schafft eine kontinuierliche Verbesserungsschleife, bei der die Plattform im Laufe der Zeit widerstandsfähiger wird, vollständig getrieben durch reale Betriebsdaten.

"Mit OpsWorker hat Picsart operative Signale in einen skalierbaren Mechanismus zur kontinuierlichen Verbesserung der Plattformzuverlässigkeit, Effizienz und Engineering-Produktivität transformiert."

Bereit zu starten?

Gestalten Sie die Zukunft von
AI-gesteuertem SRE

Wandeln Sie operative Signale in kontinuierliche Zuverlässigkeitsverbesserungen um. Treten Sie zukunftsorientierten Engineering-Teams bei.

Demo buchen Get Similar Results — Contact Us

Kostenlose Testversion holen

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Picsart integrierte OpsWorker in seine operativen und Entwicklungs-Workflows, um die Art und Weise zu transformieren, wie Plattform-Zuverlässigkeitsverbesserungen entdeckt und implementiert werden.

OpsWorker verbindet sich mit Kubernetes-Umgebungen, Monitoring-Systemen, Git-Repositories und Entwicklerportalen, um operative Signale kontinuierlich zu analysieren und Verbesserungen vorzuschlagen.

Der durch OpsWorker eingeführte operative Kern-Workflow ist einfach, aber wirkungsvoll:

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

Mit der Expansion von Picsarts Plattform wurde die Verwaltung der Kubernetes-Ressourceneffizienz zunehmend komplexer.

OpsWorker analysiert kontinuierlich:

historische Ressourcennutzung
Workload-Muster und Traffic-Spikes
Laufzeitverhalten
Service-Abhängigkeitsmuster

Generierte Empfehlungen:

CPU- und Speicherlimits anpassen
Horizontal Pod Autoscaling (HPA) konfigurieren
Vertical Pod Autoscaling (VPA) einführen

Diese Verbesserungen werden als Pull Requests geliefert, sodass Plattform-Ingenieure Ressourcenoptimierungsänderungen direkt über Git-Workflows überprüfen und zusammenführen können.

Dieser Ansatz ermöglicht es, die Kubernetes-Ressourcenkonfiguration auf Basis realer Betriebsdaten kontinuierlich weiterzuentwickeln.

Anwendungsfall 3: Plattformstandardisierungs-Drift

Mit wachsender Anzahl von Services begann Plattformstandardisierungs-Drift in Repositories aufzutreten.

Ohne automatisierte Durchsetzungsmechanismen wichen Services allmählich von empfohlenen Plattformpraktiken ab. Unterschiede traten in solchen Bereichen auf wie:

Konfigurationsstruktur
Skalierungsrichtlinien
Resilienz-Einstellungen
Service-Abhängigkeitskonfiguration

Die Aufrechterhaltung konsistenter Plattformstandards über Hunderte von Repositories wurde für Plattform-Engineering-Teams zunehmend schwieriger.

OpsWorker analysiert kontinuierlich die Service-Konfiguration und vergleicht sie mit Plattformpraktiken, die in Backstage und internen Engineering-Richtlinien definiert sind.

Wenn Abweichungen erkannt werden, schlägt das System Pull Requests vor, um Services an empfohlene Konfigurationen anzugleichen.

Das ermöglicht es Plattform-Teams, konsistente Standards über die gesamte Plattform hinweg aufrechtzuerhalten, ohne manuelle Audits von Hunderten von Repositories durchführen zu müssen.

Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kernergebnisse

Wichtige Anwendungsfälle bei Picsart

Alerts in Infrastruktur-Fixes umwandeln

Kubernetes-Ressourcenoptimierung

Plattformstandardisierungs-Drift

Die Herausforderung: Wenn Alerts zu Rauschen werden

Das schafft mehrere Risiken:

Verpasste Gelegenheiten:

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

OpsWorker analysiert kontinuierlich:

Generierte Empfehlungen:

Anwendungsfall 3: Plattformstandardisierungs-Drift

Kontinuierliche Zuverlässigkeitsverbesserung

Gestalten Sie die Zukunft von
AI-gesteuertem SRE

Kostenlose Testversion holen

Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kernergebnisse

Wichtige Anwendungsfälle bei Picsart

Alerts in Infrastruktur-Fixes umwandeln

Kubernetes-Ressourcenoptimierung

Plattformstandardisierungs-Drift

Die Herausforderung: Wenn Alerts zu Rauschen werden

Das schafft mehrere Risiken:

Verpasste Gelegenheiten:

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

OpsWorker analysiert kontinuierlich:

Generierte Empfehlungen:

Anwendungsfall 3: Plattformstandardisierungs-Drift

Kontinuierliche Zuverlässigkeitsverbesserung

Gestalten Sie die Zukunft von
AI-gesteuertem SRE

Kostenlose Testversion holen

Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kernergebnisse

Wichtige Anwendungsfälle bei Picsart

Alerts in Infrastruktur-Fixes umwandeln

Kubernetes-Ressourcenoptimierung

Plattformstandardisierungs-Drift

Die Herausforderung: Wenn Alerts zu Rauschen werden

Das schafft mehrere Risiken:

Verpasste Gelegenheiten:

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

OpsWorker analysiert kontinuierlich:

Generierte Empfehlungen:

Anwendungsfall 3: Plattformstandardisierungs-Drift

Kontinuierliche Zuverlässigkeitsverbesserung

Gestalten Sie die Zukunft vonAI-gesteuertem SRE

Kostenlose Testversion holen

Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kernergebnisse

Wichtige Anwendungsfälle bei Picsart

Alerts in Infrastruktur-Fixes umwandeln

Kubernetes-Ressourcenoptimierung

Plattformstandardisierungs-Drift

Die Herausforderung: Wenn Alerts zu Rauschen werden

Das schafft mehrere Risiken:

Verpasste Gelegenheiten:

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

OpsWorker analysiert kontinuierlich:

Generierte Empfehlungen:

Anwendungsfall 3: Plattformstandardisierungs-Drift

Kontinuierliche Zuverlässigkeitsverbesserung

Gestalten Sie die Zukunft vonAI-gesteuertem SRE

Kostenlose Testversion holen

Gestalten Sie die Zukunft von
AI-gesteuertem SRE

Gestalten Sie die Zukunft von
AI-gesteuertem SRE