OpsWorker
ProduktKunden
Ressourcen
Unternehmen
RegistrierenDemo buchen
← More Stories

Wie Picsart Alert-Rauschen in der Pre-Production in automatisierte Zuverlässigkeitsverbesserungen umgewandelt hat

Kundenstory: Picsart

Operative Signale in kontinuierliche Infrastrukturverbesserungen umwandeln.

Teilen:
Picsart
Picsart
PicsartWeltgrößte AI-gestützte Creative-Plattform für Fotobearbeitung, Videobearbeitung und Grafikdesign. Mit über 130+ Millionen monatlich aktiven Nutzern dient sie als umfassendes Tool für die Erstellung von Social-Media-Inhalten, digitaler Kunst und Marketingmaterialien.
picsart.com
1.000+ Mitarbeiter
Miami, FL (Hauptsitz)
Explore the OpsWorker Platform
Konstantin Lalafaryan

Konstantin Lalafaryan

Chief Information Officer (CIO)

PicsartPicsart

Moderne Cloud-Plattformen erzeugen enorme Mengen an Betriebsdaten, aber die eigentliche Herausforderung besteht darin, diese Signale in Verbesserungen umzuwandeln. OpsWorker hat uns geholfen, operative Erkenntnisse direkt in Code-Level-Fixes zu überführen und unseren Teams zu ermöglichen, die Plattform kontinuierlich zu stärken.

Kernergebnisse

Messbare Verbesserungen im Plattformbetrieb.

90%

Reduzierung von Alert-Rauschen mit niedrigem Wert

100%

der priorisierten Alerts werden in Untersuchungsmaßnahmen umgewandelt

60%

Reduzierung manueller Infrastruktur-Fixes

30%

Reduzierung übermäßig bereitgestellter K8s-Ressourcen

Picsart betreibt eine große cloud-native Plattform, die kreative Tools für Millionen von Nutzern weltweit bereitstellt. Die Plattform besteht aus Hunderten von Microservices, die auf Kubernetes laufen und von Plattform-Engineering-Teams verwaltet werden, die für Zuverlässigkeit, Skalierbarkeit und betriebliche Standards zuständig sind.

Um die Entwicklerproduktivität und die Plattform-Governance zu unterstützen, verlässt sich Picsart auf Git-basierte Workflows mit GitLab und verwendet Backstage als zentrales Entwicklerportal und Service-Katalog.

Mit dem Wachstum der Plattform stieg auch die operative Komplexität. In Pre-Production-Umgebungen wurden täglich Hunderte von Alerts generiert, was es zunehmend schwierig machte, zwischen echten Problemen und wertlosem Rauschen zu unterscheiden. Gleichzeitig verbrachten Plattform-Teams erhebliche Zeit damit, repetitive Konfigurationsfixes durchzuführen und Plattformstandards über Repositories hinweg durchzusetzen.

Um diese Herausforderungen zu bewältigen, hat Picsart mit OpsWorker, einer AI SRE-Plattform, die operative Signale in automatisierte Infrastrukturverbesserungen umwandelt, eine Partnerschaft eingegangen.

Wichtige Anwendungsfälle bei Picsart

Wie OpsWorker Mehrwert in der gesamten Engineering-Organisation schafft.

Alerts in Infrastruktur-Fixes umwandeln

Alerts werden zu Auslösern für dauerhafte Systemverbesserungen und beenden temporäre Notlösungen.

  • Falsch konfigurierte Alert-Regeln korrigieren
  • Alert-Schwellenwerte intelligent anpassen
  • Service-Resilienz-Konfiguration verbessern
  • Abhängigkeitsbezogene Probleme lösen
Diesen Anwendungsfall erkunden

Kubernetes-Ressourcenoptimierung

Möglichkeiten zur Optimierung der Kubernetes-Ressourcenkonfiguration auf Basis historischer Verhaltensweisen identifizieren.

  • CPU- und Speicherlimits anpassen
  • Horizontal Pod Autoscaling (HPA) konfigurieren
  • Vertical Pod Autoscaling (VPA) einführen
  • Traffic-Spikes und Workload-Muster analysieren
Diesen Anwendungsfall erkunden

Plattformstandardisierungs-Drift

Service-Konfiguration kontinuierlich analysieren und mit etablierten Plattformpraktiken vergleichen.

  • PRs vorschlagen, um Backstage-Templates anzugleichen
  • Konsistente Standards teamübergreifend aufrechterhalten
  • Manuelle Repository-Audits eliminieren
  • Compliance-Durchsetzung automatisieren
Diesen Anwendungsfall erkunden

Die Herausforderung: Wenn Alerts zu Rauschen werden

Wie viele schnell skalierende cloud-native Plattformen verlässt sich Picsart stark auf Monitoring- und Alerting-Systeme, um operative Transparenz aufrechtzuerhalten.

Mit der Zeit begann die Pre-Production-Umgebung täglich Hunderte von Alerts zu generieren. Viele dieser Alerts wurden durch Konfigurationsprobleme, Schwellenwert-Fehlausrichtungen oder temporäre Service-Bedingungen beim Testen ausgelöst.

Das schuf eine klassische operative Herausforderung: Alert-Fatigue. Wenn die meisten Alerts nicht handlungsrelevant sind, hören Ingenieure allmählich auf, ihnen Aufmerksamkeit zu schenken. Alerts verlieren ihre Glaubwürdigkeit als Signale, und Teams beginnen, große Teile der Monitoring-Ausgabe zu ignorieren.

Das schafft mehrere Risiken:

  • •Wichtige Alerts werden möglicherweise übersehen
  • •Pre-Production-Probleme bleiben ungelöst
  • •Konfigurationsprobleme propagieren sich in die Produktion
  • •Plattform-Ingenieure verbringen Zeit damit, repetitive operative Probleme manuell zu triagieren

Verpasste Gelegenheiten:

Viele Alerts stellten kleine, aber notwendige Verbesserungen dar, wie etwa:

  • •Alert-Schwellenwerte anpassen
  • •Service-Konfiguration korrigieren
  • •Resilienz-Einstellungen verbessern
  • •Skalierungsrichtlinien aktualisieren

Die Umsetzung dieser Verbesserungen erforderte, dass Ingenieure das Problem manuell untersuchten, den Fix ermittelten und Pull Requests über Repositories hinweg erstellten. Dieser Prozess schuf erheblichen operativen Aufwand für Plattform-Teams.

Georgy Khachatryan

Georgy Khachatryan

Head of SRE

PicsartPicsart

Die wertvollste Veränderung war operative Disziplin. Alerts sind keine Dinge mehr, die wir ignorieren. Sie lösen jetzt Untersuchungen und Verbesserungen aus, die als Pull Requests erfasst werden und Zuverlässigkeitsverbesserungen zu einem Teil unseres Engineering-Workflows machen.

Die Lösung: Alerts in Infrastrukturverbesserungen umwandeln

Picsart integrierte OpsWorker in seine operativen und Entwicklungs-Workflows, um die Art und Weise zu transformieren, wie Plattform-Zuverlässigkeitsverbesserungen entdeckt und implementiert werden.

OpsWorker verbindet sich mit Kubernetes-Umgebungen, Monitoring-Systemen, Git-Repositories und Entwicklerportalen, um operative Signale kontinuierlich zu analysieren und Verbesserungen vorzuschlagen.

Der durch OpsWorker eingeführte operative Kern-Workflow ist einfach, aber wirkungsvoll:

Alert
AI-Untersuchung
Grundursache
Pull Request
Systemverbesserung

Wenn ein Alert auftritt, untersucht OpsWorker automatisch die zugrunde liegenden Signale, korreliert Telemetrie, Infrastrukturzustand und Service-Abhängigkeiten. Wenn das System ein Konfigurationsproblem oder eine Verbesserungsmöglichkeit identifiziert, generiert es einen Pull Request mit dem empfohlenen Fix.

Ingenieure können die Änderung über ihre bestehenden Git-Workflows überprüfen und zusammenführen.

Um Governance und Kontrolle aufrechtzuerhalten, definieren Plattform-Teams, welche Namespaces automatische Pull-Request-Generierung erlauben und welche manuelle Genehmigungsvorschläge erfordern.

Anstatt Alerts zu ignorieren, wandelt das System sie in handlungsrelevante Verbesserungen um, die die Plattform im Laufe der Zeit stärken.

Anwendungsfall 2: Kubernetes-Ressourcenoptimierung

Mit der Expansion von Picsarts Plattform wurde die Verwaltung der Kubernetes-Ressourceneffizienz zunehmend komplexer.

Verschiedene Services hatten unterschiedliche Laufzeitcharakteristika, Traffic-Muster und Skalierungsanforderungen. Mit der Zeit führte dies zu inkonsistenter Ressourcenzuweisung über Workloads hinweg.

Einige Services waren erheblich überprovisioniert und verbrauchten mehr CPU und Speicher als erforderlich, während anderen die entsprechende Skalierungskonfiguration fehlte. Das schuf sowohl Infrastrukturineffizienzen als auch potenzielle Zuverlässigkeitsrisiken bei Traffic-Spikes.

Die manuelle Optimierung von Kubernetes-Ressourcen über Hunderte von Services erwies sich für Plattform-Teams als schwierig. Es erforderte die Analyse historischer Telemetrie, das Verstehen des Workload-Verhaltens und die Anpassung von Skalierungskonfigurationen über viele Repositories hinweg.

OpsWorker analysiert kontinuierlich:

  • historische Ressourcennutzung
  • Workload-Muster und Traffic-Spikes
  • Laufzeitverhalten
  • Service-Abhängigkeitsmuster

Generierte Empfehlungen:

  • CPU- und Speicherlimits anpassen
  • Horizontal Pod Autoscaling (HPA) konfigurieren
  • Vertical Pod Autoscaling (VPA) einführen

Diese Verbesserungen werden als Pull Requests geliefert, sodass Plattform-Ingenieure Ressourcenoptimierungsänderungen direkt über Git-Workflows überprüfen und zusammenführen können.

Dieser Ansatz ermöglicht es, die Kubernetes-Ressourcenkonfiguration auf Basis realer Betriebsdaten kontinuierlich weiterzuentwickeln.

Anwendungsfall 3: Plattformstandardisierungs-Drift

Mit wachsender Anzahl von Services begann Plattformstandardisierungs-Drift in Repositories aufzutreten.

Ohne automatisierte Durchsetzungsmechanismen wichen Services allmählich von empfohlenen Plattformpraktiken ab. Unterschiede traten in solchen Bereichen auf wie:

  • Konfigurationsstruktur
  • Skalierungsrichtlinien
  • Resilienz-Einstellungen
  • Service-Abhängigkeitskonfiguration

Die Aufrechterhaltung konsistenter Plattformstandards über Hunderte von Repositories wurde für Plattform-Engineering-Teams zunehmend schwieriger.

OpsWorker analysiert kontinuierlich die Service-Konfiguration und vergleicht sie mit Plattformpraktiken, die in Backstage und internen Engineering-Richtlinien definiert sind.

Wenn Abweichungen erkannt werden, schlägt das System Pull Requests vor, um Services an empfohlene Konfigurationen anzugleichen.

Das ermöglicht es Plattform-Teams, konsistente Standards über die gesamte Plattform hinweg aufrechtzuerhalten, ohne manuelle Audits von Hunderten von Repositories durchführen zu müssen.

Kontinuierliche Zuverlässigkeitsverbesserung

Durch die Integration von operativer Intelligenz direkt in Entwicklungs-Workflows hat Picsart ein neues Modell zur Aufrechterhaltung der Plattformzuverlässigkeit eingeführt.

Operative Signale
AI-Untersuchung
Pull Request generiert
Stärkere Plattform

Anstatt Alerts als temporäre Signale zu behandeln, die manuelles Eingreifen erfordern, wandelt die Plattform jetzt operative Erkenntnisse in überprüfbare Code-Verbesserungen um.

Das schafft eine kontinuierliche Verbesserungsschleife, bei der die Plattform im Laufe der Zeit widerstandsfähiger wird, vollständig getrieben durch reale Betriebsdaten.

"Mit OpsWorker hat Picsart operative Signale in einen skalierbaren Mechanismus zur kontinuierlichen Verbesserung der Plattformzuverlässigkeit, Effizienz und Engineering-Produktivität transformiert."
Bereit zu starten?

Gestalten Sie die Zukunft von
AI-gesteuertem SRE

Wandeln Sie operative Signale in kontinuierliche Zuverlässigkeitsverbesserungen um. Treten Sie zukunftsorientierten Engineering-Teams bei.

Demo buchenGet Similar Results — Contact Us

Kostenlose Testversion holen

Unternehmen
Über unsKontaktSicherheitDatenschutzNutzungsbedingungen
Ressourcen
GlossarBlogProduktneuigkeitenAgentic Ops Weekly
Produktressourcen
DocsIntegrationen
AI-Tools
KubectlAI

Zuverlässigkeit für moderne Engineering-Teams automatisieren.

Vertrauenswürdige Sicherheit auf Enterprise-Niveau zum Schutz Ihrer Daten. Der OpsWorker-Agent überträgt keine personenbezogenen oder sensiblen Daten und ermöglicht es Ihnen zu kontrollieren, welche Daten hochgeladen werden.

OpsWorker © 2026. Alle Rechte vorbehalten.