Wie EasyDMARC die Incident-Untersuchung und Entwicklerproduktivität mit AI SRE beschleunigt hat
Operative Signale in schnellere Engineering-Entscheidungen umwandeln.


Operative Komplexität wächst schnell, wenn Plattformen skalieren. Unser Ziel war es, Ingenieuren schnellere Einblicke in das Geschehen im System zu geben, damit sie sich auf das Lösen von Problemen konzentrieren können, anstatt danach zu suchen. OpsWorker hat uns geholfen, die Untersuchungszeit dramatisch zu reduzieren und die Entwicklerproduktivität zu verbessern.
Kernergebnisse
Messbare Verbesserungen im Engineering-Betrieb.
schnellere Problemuntersuchung für Entwickler
schnellere Grundursachen-Identifikation bei Incidents
signifikante Reduzierung manueller Log- und Dashboard-Analyse
verbesserte Früherkennung von Problemen in Staging-Umgebungen
EasyDMARC stellt eine cloudbasierte Plattform bereit, die Organisationen dabei hilft, ihre Domains vor E-Mail-Spoofing und Phishing-Angriffen mithilfe von DMARC-Authentifizierung und E-Mail-Sicherheitsmonitoring zu schützen.
Die Plattform verarbeitet große Mengen an E-Mail-Authentifizierungsdaten und betreibt eine verteilte Cloud-Infrastruktur, die Kunden weltweit unterstützt. Mit der Expansion der Plattform und zunehmendem Kundeneinsatz wurde die Aufrechterhaltung von Zuverlässigkeit und operativer Transparenz über Services hinweg zunehmend komplexer.
EasyDMARC betreibt eine moderne cloud-native Architektur mit mehreren Services und unterstützenden Infrastrukturkomponenten, die zuverlässig zusammenarbeiten müssen. Engineering-Teams verlassen sich auf Monitoring-Systeme, Logs und Telemetrie, um Probleme und Performance-Issues über die Plattform hinweg zu identifizieren und zu beheben.
Mit wachsender Anzahl von Services und operativen Signalen mussten Entwickler oft mehrere Dashboards, Logs und Monitoring-Tools navigieren, um Incidents und Performance-Probleme zu verstehen.
Um operative Transparenz zu verbessern und Untersuchungszeit zu reduzieren, integrierte EasyDMARC OpsWorker, eine AI SRE-Plattform, die Telemetrie, Infrastruktursignale und operative Events korreliert, um Troubleshooting und Systemverständnis zu beschleunigen.
Wichtige Anwendungsfälle bei EasyDMARC
Wie OpsWorker Mehrwert in der gesamten Engineering-Organisation schafft.
Problemuntersuchung für Entwickler beschleunigen
OpsWorker korreliert Logs, Metriken und Infrastruktur-Events, um Entwicklern zu helfen, Probleme deutlich schneller zu identifizieren, ohne manuell durch mehrere Monitoring-Tools zu suchen.
- Einheitliche Ansicht über Logs, Metriken und Events
- Schnellere Problemlokalisierung
- Reduzierte manuelle Tool-Navigation
- Fokus auf Lösung statt Suche
Früherkennung von Problemen in Staging-Umgebungen
Tägliche Analyse von Staging-Umgebungen hebt Alerts und Abweichungen hervor und hilft Teams, Probleme zu erkennen, bevor sie die Produktion erreichen.
- Täglicher operativer Digest für Staging
- Alert- und Anomalie-Zusammenfassung
- Früherkennung von Release-Problemen
- Proaktive Qualitätssicherung
Schnellere Incident-Diagnose und Grundursachen-Identifikation
Bei Produktionsincidents hilft OpsWorker Ingenieuren, die betroffene Domain, Komponente oder Abhängigkeit, die für das Problem verantwortlich ist, schnell zu lokalisieren.
- AI-gestützte Signalkorrelation
- Systemübergreifende Abhängigkeitsanalyse
- Schnellere Incident-Isolierung
- Beschleunigte Behebung
Anwendungsfall 1: Problemuntersuchung für Entwickler beschleunigen
Die Herausforderung: Komplexe Systeme erfordern komplexe Untersuchungen
Mit der Weiterentwicklung von EasyDMARCs Plattform verließen sich Entwickler zunehmend auf mehrere Tools, um operative Probleme zu untersuchen.
Wenn Probleme auftraten, mussten Ingenieure typischerweise folgendes überprüfen:
- Monitoring-Dashboards
- Anwendungslogs
- Infrastrukturmetriken
- Deployment-Events
- Aktuelle Konfigurationsänderungen
Das Verstehen der Grundursache eines Problems erforderte die Navigation durch mehrere Systeme und die manuelle Korrelation mehrerer Datenquellen.
Dieser Prozess verbrauchte wertvolle Engineering-Zeit und verlangsamte das Troubleshooting.
Entwickler mussten oft erhebliche Zeit damit verbringen, den Ort des Problems zu bestimmen, bevor sie mit der Lösung beginnen konnten.
Die Lösung: AI-gestützte Untersuchung
EasyDMARC integrierte OpsWorker, um Entwicklern eine einheitliche Ansicht der operativen Signale auf der gesamten Plattform zu bieten.
OpsWorker analysiert kontinuierlich Telemetrie, Infrastruktur-Events, Logs und Service-Beziehungen, um Anomalien zu identifizieren und Untersuchungserkenntnisse bereitzustellen.
Anstatt mehrere Dashboards manuell zu durchsuchen, können sich Ingenieure auf OpsWorker verlassen, um relevante Signale hervorzuheben und den Untersuchungsprozess zu leiten.
Dieser Ansatz ermöglicht es Entwicklern, schnell zu identifizieren, wo das Problem seinen Ursprung hat und welche Komponenten betroffen sein könnten.
Dadurch können sich Entwickler auf die Lösung von Problemen konzentrieren, anstatt Zeit damit zu verbringen, operative Daten zu durchsuchen.
Anwendungsfall 2: Früherkennung von Problemen in Staging-Umgebungen
Wie viele Engineering-Teams verlässt sich EasyDMARC stark auf Staging-Umgebungen, um neue Releases zu validieren, bevor sie in die Produktion deployt werden.
Staging-Umgebungen generieren jedoch oft eine große Anzahl von Alerts und Signalen. Da viele dieser Alerts temporär oder niedrig priorisiert sind, ignorieren Entwickler sie oft während der täglichen Entwicklungs-Workflows.
Das schuf eine operative Herausforderung: Wichtige Frühwarnsignale wurden manchmal übersehen.
Infolgedessen wurden einige Probleme erst adressiert, nachdem sie in Produktionsumgebungen aufgetreten waren.
OpsWorker führte einen täglichen operativen Digest für Staging-Umgebungen ein, der Alerts, Abweichungen und operative Anomalien hervorhebt, die am vorherigen Tag erkannt wurden.
Anstatt Logs, Dashboards und Deployment-Events manuell zu überprüfen, erhalten Entwickler eine zusammengefasste Ansicht relevanter Signale.
Das ermöglicht es Engineering-Teams, Probleme, die durch aktuelle Commits oder Releases eingeführt wurden, schnell zu identifizieren, ohne das Post-Release-Verhalten manuell überprüfen zu müssen.
Infolgedessen funktionieren Staging-Umgebungen nun als effektivere Früherkennungsschicht für potenzielle Produktionsprobleme.
Anwendungsfall 3: Schnellere Incident-Diagnose
Produktionsincidents erfordern oft, dass Ingenieure schnell bestimmen, welche Domain oder Systemkomponente für das Problem verantwortlich ist.
Ohne automatisierte Korrelation zwischen Infrastruktursignalen, Logs und Anwendungsverhalten kann dieser Untersuchungsprozess erhebliche Zeit in Anspruch nehmen.
OpsWorker hilft EasyDMARC-Teams, die Domain und Grundursache von Incidents schnell zu lokalisieren, indem operative Signale über die gesamte Plattform hinweg analysiert werden.
Während eines kürzlichen Incidents, der eine datenbankblockierende Post-Release-Abfrage involvierte, half OpsWorker Ingenieuren, die Grundursache deutlich schneller zu identifizieren, indem abnormales Datenbankverhalten hervorgehoben und mit aktueller Deployment-Aktivität korreliert wurde.
Das ermöglichte es dem Engineering-Team, das Problem zu isolieren und die Behebung viel schneller zu beginnen.
Infolgedessen wurde die Incident-Untersuchungszeit erheblich reduziert und eine schnellere Service-Wiederherstellung ermöglicht.
Kontinuierliche operative Intelligenz
Durch die Integration von AI-gestützten Untersuchungsfähigkeiten in ihre operativen Workflows hat EasyDMARC ein neues Modell für das Troubleshooting komplexer Systeme eingeführt.
Anstatt Signale manuell über mehrere Tools hinweg zu korrelieren, können sich Ingenieure auf OpsWorker verlassen, um relevante operative Erkenntnisse hervorzuheben und den Untersuchungsprozess zu leiten.
Das schafft einen effizienteren Engineering-Workflow, bei dem operative Signale kontinuierlich analysiert und darauf reagiert werden.
"Mit OpsWorker hat EasyDMARC die Entwicklerproduktivität erheblich verbessert und die Incident-Untersuchung auf der gesamten Plattform beschleunigt."
Gestalten Sie die Zukunft von
AI-gesteuertem SRE
Wandeln Sie operative Signale in kontinuierliche Zuverlässigkeitsverbesserungen um. Treten Sie zukunftsorientierten Engineering-Teams bei.