Status Pages e Incidencias

Inicio SaaS y Admin Status Pages e Incidencias

SaaS y Admin

Status Pages e Incidencias

8 reglas Atlassian Statuspage Design Guide · Stripe Status · GitHub Status · Dan LuuPagerDuty Incident Response Guide · Atlassian Incident Severity Levels · WCAG 2.1 SC 1.4.1Atlassian Incident Communication Templates · Dan Luu · Stripe incident historyPagerDuty "How to Communicate ETAs During an Outage" · Atlassian · Stripe Engineering Blog

124

Status Pages e Incidencias

8 reglas

1102

Estructura canónica de la status page

Una status page efectiva responde tres preguntas en menos de 5 segundos: ¿qué está caído ahora?, ¿cuándo estuvo caído antes?, ¿cómo me entero de lo siguiente? Sin esas tres respuestas visibles above the fold, la página no cumple su función. Los componentes deben organizarse en capas lógicas (frontend, API, datos, integraciones), el historial de uptime debe cubrir 90 días, y el método de suscripción debe estar en posición prominente o sticky.

Atlassian Statuspage Design Guide · Stripe Status · GitHub Status · Dan Luu

Preferir

Acme Platform Status

status.acme.com · Independent infrastructure

Components

Web App & CDN

Operational

REST API

Partial Outage

Database & Cache

Operational

Payment Integration

Degraded

90-day uptime history

90 days ago99.71% uptimeToday

Evitar

All systems operational.

No issues detected.

1103

Niveles de severidad con color y copy calibrado

Cada nivel de severidad debe mapearse a un color universal, una etiqueta textual inequívoca y un umbral de impacto medible. La ambiguedad en el nivel ("Issues detected") es más danina que reconocer una interrupción mayor, porque el usuario no puede tomar decisiones. WCAG 1.4.1 exige que el color nunca sea el único diferenciador: siempre acompañar con icono y etiqueta de texto.

PagerDuty Incident Response Guide · Atlassian Incident Severity Levels · WCAG 2.1 SC 1.4.1

Preferir

Label Umbral de impacto Color

Operational <0.1% error rate Operational

Degraded Performance Latencia >2x o 0.1-1% errores Degraded

Partial Outage 1-25% de usuarios afectados Partial Outage

Major Outage >25% usuarios o función principal caida Major Outage

Under Maintenance Ventana planificada Maintenance

Evitar

Good

Issues detected

Service disruption event

Issues detected

1104

Template de update durante el incidente

Cada update publicado durante un incidente activo debe seguir una estructura fija de tres bloques: lo que sabemos, lo que estamos haciendo y cuando es el proximo update. Esta estructura impide que el redactor en crisis omita información y establece un ritmo de comunicación predecible que reduce la carga de soporte. El primer update debe publicarse en 15 minutos desde la detección, aunque sea solo una confirmación de que se esta investigando.

Atlassian Incident Communication Templates · Dan Luu · Stripe incident history

Preferir

Resolved 15:42 UTC

What we know

The REST API latency issue affecting 8% of users has been fully resolved. All endpoints are now responding within baseline thresholds.

What we did

Rolled back the 14:55 UTC deploy and restored the previous stable versión. Root cause analysis in progress.

Identified 15:18 UTC

What we know

Elevated p99 latency on REST API (/v2/orders) since 14:58 UTC. Approximately 8% of requests timing out. Root cause identified: a deploy at 14:55 UTC.

What we're doing

Initiating rollback to previous stable versión. ETA: resolved by 15:45 UTC.

Next update by

15:40 UTC, or sooner if resolved.

Investigating 15:03 UTC

What we know

We are aware of elevated error rates on the REST API affecting a subset of users. Impact began approximately 14:58 UTC.

Next update by

15:20 UTC.

Evitar

Update ~3:40pm

We are working on the issue.

Update ~3:20pm

We are working on the issue.

Update ~3:00pm

We are aware of issues and are looking into it. More info shortly.

1105

ETA: cuando comunicarlo y como actualizarlo

Un ETA incumplido dana más la confianza que no haberlo comunicado. La regla: publicar ETA solo cuando hay evidencia técnica concreta, con buffer de 1.5x el tiempo estimado, y actualizar proactivamente antes de que expire si no se cumplira. Nunca publicar ETA durante la fase "Investigating": sin causa raiz identificada, cualquier estimación es un over-promise garantizado.

PagerDuty "How to Communicate ETAs During an Outage" · Atlassian · Stripe Engineering Blog

Preferir

Fase: Investigating No publicar ETA

Causa raiz no conocida aún. Cualquier ETA es intuición, no evidencia. Esperar a Identified.

Fase: Identified, rollback en curso Publicar ETA

Rollback confirmado: duración técnica 20 min → buffer 1.5x = comunicar 30 min.

We expect this to be resolved by 15:45 UTC.
We'll update this page by 15:40 UTC if that changes.

ETA en riesgo de expirar Actualizar 10 min antes

Publicar extensión 10 min antes de que expire. Nunca dejar que el ETA pase en silencio.

Evitar

Investigating, 14:58 UTC

We are aware of issues with our API and investigating.

ETA: 30 minutes

Update, 15:30 UTC

We are still working on the issue.

ETA: soon

Update, 16:00 UTC

We expect this to be resolved shortly.

1106

Post-mortem publico: estructura, timing y tono

El post-mortem publico convierte un incidente en evidencia de madurez operacional. Su objetivo no es disculparse sino demostrar comprensión causal y capacidad de remediation. Publicarlo antes de 48h (datos incompletos) o después de 5 días (percepción de ocultamiento) reduce su valor de confianza. La estructura correcta incluye: summary, timeline UTC, root cause, contributing factors, remediation con owners y fechas, y al menos un "What went well".

Google SRE Book cap. 15 · Atlassian Postmortem Template · GitHub Blog · Stripe Engineering

Preferir

Post-Mortem: API Degradation, June 12, 2026

Duration: 47 min Impact: 8% of API users Published: June 14, 2026

Summary

A deploy at 14:55 UTC introduced a misconfigured rate limit that caused 8% of REST API requests to time out for 47 minutes. Approximately 3,200 users were affected. No data was lost.

Timeline (UTC)