Error de actualización deja fuera de servicio CloudFlare por 30 minutos

Estándar

Si, Ud. tuvo problemas accediendo a este blog el día de ayer (2 de Julio 2019) a las 13:42 UTC (9:42 AM EDT)  se debió a un problema interno de CloudFlare como resultado de un fallo en el deployment de una actualización de su software de firewall de aplicaciones web (WAF).

La información detallada sobre como ocurrió y el timeline exacto de los eventos se puede ver en detalle en un post del blod oficial de CloudFlare.

Mientras que varios especialiasta especularon sobre la razón de este segundo evento disruptivo del servicio de CloudFlare en una semana, John Graham-Cumming en el blog de Cloudflare dice que los errires 502 vistos por los visitantes de los sitios de Cloudflare fueron causados por un aumento en la utilización de la CPU en la red del proveedor.

Oficialmente dijo: “Este pico de CPU fue causado por un despliegue de software incorrecto que fue revertido“, agregó además Graham-Cumming que “Una vez revertido, el servicio volvió al funcionamiento normal y todos los dominios que usan Cloudflare volvieron a los niveles normales de tráfico“.

Esta es la segunda interrupción del servicio en una semana en que Cloudflare sufrió una interrupción parcial del servicio, aunque la vez anterior se debió a un error en las tablas de ruteo BGP de Verizon y Noction el pasado 24 de junio.

Según el CEO de Cloudflare, el error en las rutas BGP fue bastante difícil de arreglar, dado que el equipo de Cloudflare no pudo ponerse en contacto con el NOC (Network Operation Center) de Verizon durante la interrupción.

Dado que más de 16 millones de sitios web (incluyendo este modesto blog) utilizan el servicio de mitigación DDoS, la mejora del rendimiento y otros servicios que ofrece Cloudflare, las interrupciones de Cloudflare suelen tener un gran impacto en Internet en general.