Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat
Operative Signale in kontinuierliche Infrastrukturverbesserungen umwandeln.


Moderne Cloud-Plattformen erzeugen enorme Mengen an Betriebsdaten, aber die eigentliche Herausforderung besteht darin, diese Signale in Verbesserungen umzuwandeln. OpsWorker hat uns geholfen, operative Erkenntnisse direkt in Code-Level-Fixes zu überführen und unseren Teams zu ermöglichen, die Plattform kontinuierlich zu stärken.
Kernergebnisse
Messbare Verbesserungen im Plattformbetrieb.
Reduzierung von Alert-Rauschen mit niedrigem Wert
der priorisierten Alerts werden in Untersuchungsmaßnahmen umgewandelt
Reduzierung manueller Infrastruktur-Fixes
Reduzierung übermäßig bereitgestellter K8s-Ressourcen
Picsart betreibt eine große cloud-native Plattform, die kreative Tools für Millionen von Nutzern weltweit bereitstellt. Die Plattform besteht aus Hunderten von Microservices, die auf Kubernetes laufen und von Plattform-Engineering-Teams verwaltet werden, die für Zuverlässigkeit, Skalierbarkeit und betriebliche Standards zuständig sind.
Um die Entwicklerproduktivität und die Plattform-Governance zu unterstützen, verlässt sich Picsart auf Git-basierte Workflows mit GitLab und verwendet Backstage als zentrales Entwicklerportal und Service-Katalog.
Mit dem Wachstum der Plattform stieg auch die operative Komplexität. In Pre-Production-Umgebungen wurden täglich Hunderte von Alerts generiert, was es zunehmend schwierig machte, zwischen echten Problemen und wertlosem Rauschen zu unterscheiden. Gleichzeitig verbrachten Plattform-Teams erhebliche Zeit damit, repetitive Konfigurationsfixes durchzuführen und Plattformstandards über Repositories hinweg durchzusetzen.
Um diese Herausforderungen zu bewältigen, hat Picsart mit OpsWorker, einer AI SRE-Plattform, die operative Signale in automatisierte Infrastrukturverbesserungen umwandelt, eine Partnerschaft eingegangen.
Wichtige Anwendungsfälle bei Picsart
Wie OpsWorker Mehrwert in der gesamten Engineering-Organisation schafft.
Alerts in Infrastruktur-Fixes umwandeln
Alerts werden zu Auslösern für dauerhafte Systemverbesserungen und beenden temporäre Notlösungen.
- Falsch konfigurierte Alert-Regeln korrigieren
- Alert-Schwellenwerte intelligent anpassen
- Service-Resilienz-Konfiguration verbessern
- Abhängigkeitsbezogene Probleme lösen
Kubernetes-Ressourcenoptimierung
Möglichkeiten zur Optimierung der Kubernetes-Ressourcenkonfiguration auf Basis historischer Verhaltensweisen identifizieren.
- CPU- und Speicherlimits anpassen
- Horizontal Pod Autoscaling (HPA) konfigurieren
- Vertical Pod Autoscaling (VPA) einführen
- Traffic-Spikes und Workload-Muster analysieren
Plattformstandardisierungs-Drift
Service-Konfiguration kontinuierlich analysieren und mit etablierten Plattformpraktiken vergleichen.
- PRs vorschlagen, um Backstage-Templates anzugleichen
- Konsistente Standards teamübergreifend aufrechterhalten
- Manuelle Repository-Audits eliminieren
- Compliance-Durchsetzung automatisieren
Die Herausforderung: Wenn Alerts zu Rauschen werden
Wie viele schnell skalierende cloud-native Plattformen verlässt sich Picsart stark auf Monitoring- und Alerting-Systeme, um operative Transparenz aufrechtzuerhalten.
Mit der Zeit begann die Pre-Production-Umgebung täglich Hunderte von Alerts zu generieren. Viele dieser Alerts wurden durch Konfigurationsprobleme, Schwellenwert-Fehlausrichtungen oder temporäre Service-Bedingungen beim Testen ausgelöst.
Das schuf eine klassische operative Herausforderung: Alert-Fatigue. Wenn die meisten Alerts nicht handlungsrelevant sind, hören Ingenieure allmählich auf, ihnen Aufmerksamkeit zu schenken. Alerts verlieren ihre Glaubwürdigkeit als Signale, und Teams beginnen, große Teile der Monitoring-Ausgabe zu ignorieren.
Das schafft mehrere Risiken:
- •Wichtige Alerts werden möglicherweise übersehen
- •Pre-Production-Probleme bleiben ungelöst
- •Konfigurationsprobleme propagieren sich in die Produktion
- •Plattform-Ingenieure verbringen Zeit damit, repetitive operative Probleme manuell zu triagieren
Verpasste Gelegenheiten:
Viele Alerts stellten kleine, aber notwendige Verbesserungen dar, wie etwa:
- •Alert-Schwellenwerte anpassen
- •Service-Konfiguration korrigieren
- •Resilienz-Einstellungen verbessern
- •Skalierungsrichtlinien aktualisieren
Die Umsetzung dieser Verbesserungen erforderte, dass Ingenieure das Problem manuell untersuchten, den Fix ermittelten und Pull Requests über Repositories hinweg erstellten. Dieser Prozess schuf erheblichen operativen Aufwand für Plattform-Teams.

Die wertvollste Veränderung war operative Disziplin. Alerts sind keine Dinge mehr, die wir ignorieren. Sie lösen jetzt Untersuchungen und Verbesserungen aus, die als Pull Requests erfasst werden und Zuverlässigkeitsverbesserungen zu einem Teil unseres Engineering-Workflows machen.
Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln
Picsart integrierte OpsWorker in seine operativen und Entwicklungs-Workflows, um die Art und Weise zu transformieren, wie Plattform-Zuverlässigkeitsverbesserungen entdeckt und implementiert werden.
OpsWorker verbindet sich mit Kubernetes-Umgebungen, Monitoring-Systemen, Git-Repositories und Entwicklerportalen, um operative Signale kontinuierlich zu analysieren und Verbesserungen vorzuschlagen.
Der durch OpsWorker eingeführte operative Kern-Workflow ist einfach, aber wirkungsvoll:
Wenn ein Alert auftritt, untersucht OpsWorker automatisch die zugrunde liegenden Signale, korreliert Telemetrie, Infrastrukturzustand und Service-Abhängigkeiten. Wenn das System ein Konfigurationsproblem oder eine Verbesserungsmöglichkeit identifiziert, generiert es einen Pull Request mit dem empfohlenen Fix.
Ingenieure können die Änderung über ihre bestehenden Git-Workflows überprüfen und zusammenführen.
Um Governance und Kontrolle aufrechtzuerhalten, definieren Plattform-Teams, welche Namespaces automatische Pull-Request-Generierung erlauben und welche manuelle Genehmigungsvorschläge erfordern.
Anstatt Alerts zu ignorieren, wandelt das System sie in handlungsrelevante Verbesserungen um, die die Plattform im Laufe der Zeit stärken.
Anwendungsfall 2: Kubernetes-Ressourcenoptimierung
Mit der Expansion von Picsarts Plattform wurde die Verwaltung der Kubernetes-Ressourceneffizienz zunehmend komplexer.
Verschiedene Services hatten unterschiedliche Laufzeitcharakteristika, Traffic-Muster und Skalierungsanforderungen. Mit der Zeit führte dies zu inkonsistenter Ressourcenzuweisung über Workloads hinweg.
Einige Services waren erheblich überprovisioniert und verbrauchten mehr CPU und Speicher als erforderlich, während anderen die entsprechende Skalierungskonfiguration fehlte. Das schuf sowohl Infrastrukturineffizienzen als auch potenzielle Zuverlässigkeitsrisiken bei Traffic-Spikes.
Die manuelle Optimierung von Kubernetes-Ressourcen über Hunderte von Services erwies sich für Plattform-Teams als schwierig. Es erforderte die Analyse historischer Telemetrie, das Verstehen des Workload-Verhaltens und die Anpassung von Skalierungskonfigurationen über viele Repositories hinweg.
OpsWorker analysiert kontinuierlich:
- historische Ressourcennutzung
- Workload-Muster und Traffic-Spikes
- Laufzeitverhalten
- Service-Abhängigkeitsmuster
Generierte Empfehlungen:
- CPU- und Speicherlimits anpassen
- Horizontal Pod Autoscaling (HPA) konfigurieren
- Vertical Pod Autoscaling (VPA) einführen
Diese Verbesserungen werden als Pull Requests geliefert, sodass Plattform-Ingenieure Ressourcenoptimierungsänderungen direkt über Git-Workflows überprüfen und zusammenführen können.
Dieser Ansatz ermöglicht es, die Kubernetes-Ressourcenkonfiguration auf Basis realer Betriebsdaten kontinuierlich weiterzuentwickeln.
Anwendungsfall 3: Plattformstandardisierungs-Drift
Mit wachsender Anzahl von Services begann Plattformstandardisierungs-Drift in Repositories aufzutreten.
Ohne automatisierte Durchsetzungsmechanismen wichen Services allmählich von empfohlenen Plattformpraktiken ab. Unterschiede traten in solchen Bereichen auf wie:
- Konfigurationsstruktur
- Skalierungsrichtlinien
- Resilienz-Einstellungen
- Service-Abhängigkeitskonfiguration
Die Aufrechterhaltung konsistenter Plattformstandards über Hunderte von Repositories wurde für Plattform-Engineering-Teams zunehmend schwieriger.
OpsWorker analysiert kontinuierlich die Service-Konfiguration und vergleicht sie mit Plattformpraktiken, die in Backstage und internen Engineering-Richtlinien definiert sind.
Wenn Abweichungen erkannt werden, schlägt das System Pull Requests vor, um Services an empfohlene Konfigurationen anzugleichen.
Das ermöglicht es Plattform-Teams, konsistente Standards über die gesamte Plattform hinweg aufrechtzuerhalten, ohne manuelle Audits von Hunderten von Repositories durchführen zu müssen.
Kontinuierliche Zuverlässigkeitsverbesserung
Durch die Integration von operativer Intelligenz direkt in Entwicklungs-Workflows hat Picsart ein neues Modell zur Aufrechterhaltung der Plattformzuverlässigkeit eingeführt.
Anstatt Alerts als temporäre Signale zu behandeln, die manuelles Eingreifen erfordern, wandelt die Plattform jetzt operative Erkenntnisse in überprüfbare Code-Verbesserungen um.
Das schafft eine kontinuierliche Verbesserungsschleife, bei der die Plattform im Laufe der Zeit widerstandsfähiger wird, vollständig getrieben durch reale Betriebsdaten.
"Mit OpsWorker hat Picsart operative Signale in einen skalierbaren Mechanismus zur kontinuierlichen Verbesserung der Plattformzuverlässigkeit, Effizienz und Engineering-Produktivität transformiert."
Gestalten Sie die Zukunft von
AI-gesteuertem SRE
Wandeln Sie operative Signale in kontinuierliche Zuverlässigkeitsverbesserungen um. Treten Sie zukunftsorientierten Engineering-Teams bei.