
SRE Foundation
Descripción
El curso SRE Foundation℠ es una introducción a los principios y las prácticas que permiten a una organización escalar de forma fiable y económica los servicios críticos. La introducción de una práctica de SRE (Site Reliability Engineering) requiere un reajuste organizativo, un nuevo enfoque en la ingeniería y la automatización, y la adopción de una serie de nuevos paradigmas de trabajo.
El curso destaca la evolución de la SRE y su futura dirección, y equipa a los participantes con las prácticas, los métodos y las herramientas para involucrar a las personas de toda la organización implicadas en la fiabilidad y la estabilidad, evidenciadas mediante escenarios de la vida real e historias de casos.
Este curso prepara a los alumnos para comprender, establecer y hacer seguimiento, a los objetivos de nivel de servicio (SLO) y optar a la certificación SRE Foundation℠ del DevOps Institute.
Duración
16 hrs.
Modos de entrega
En línea, máximo 12 participantes.
En sitio, máximo 16 participantes.
Audiencia
El público objetivo de este curso incluye, pero no se limita a:
Gerentes y líderes de tecnología responsables de la resiliencia operativa y alineación estratégica.
Agentes de cambio, consultores y stakeholders, interesados en enfoques modernos de liderazgo y mejora organizacional.
Practicantes de DevOps y equipos técnicos, incluidos Ingenieros SRE, Practicantes DevOps, Ingenieros de Software, Scrum Masters y Dueños de Producto, enfocados en la entrega continua con alta confiabilidad.
Equipos de operaciones e infraestructura, como Líderes de equipos de TI, Integradores de Sistemas y proveedores de herramientas que implementan soluciones tecnológicas con fuerte componente de automatización y monitoreo.
Objetivos de aprendizaje
Con este curso el estudiante aprenderá sobre:
La historia del Site Reliability Engineering (SRE) y su surgimiento en Google.
La relación del SRE con DevOps y otros marcos de trabajo populares.
Los principios fundamentales que sustentan el enfoque de SRE.
Los Objetivos de Nivel de Servicio (SLOs) y su orientación al usuario.
Los Indicadores de Nivel de Servicio (SLIs) y su papel en el monitoreo moderno.
El concepto de presupuesto de errores (error budgets) y las políticas asociadas a su gestión.
El trabajo repetitivo (toil) y su impacto en la productividad organizacional, junto con pasos prácticos para eliminarlo.
La observabilidad como indicador de la salud de un servicio.
El uso de AIOps y machine learning para el análisis en entornos de operaciones.
El papel de la IA Generativa en la automatización de tareas SRE.
El valor de las plataformas de Value Stream Management para gestionar portafolios de productos.
La ingeniería de plataformas (Platform Engineering) como habilitador de productividad para desarrolladores y stakeholders.
Herramientas, técnicas de automatización y la importancia de la seguridad en el ecosistema SRE.
Requisitos previos
Ninguno en especial. Sin embargo, es recomendable que quienes atiendan este curso tengan familiaridad previa con la terminología, y experiencia en, DevOps
Materiales del curso
Manual del curso en formato electrónico.
Guía de referencia rápida.
Documentos, plantillas, herramientas y técnicas de muestra.
Contenido programático
Módulo 0 - Introducción y bienvenida.
Módulo 1 - Principios y prácticas de SRE.
¿Qué es Site Reliability Engineering?
SRE y DevOps: ¿Cuál es la diferencia?
Principios y prácticas de SRE.
Módulo 2 - Objetivos de nivel de servicio y presupuesto de errores (error budget).
Objetivos de nivel de servicio (SLO).
Presupuesto de errores.
Políticas del presupuesto de errores.
Módulo 3 - Reduciendo el trabajo repetitivo (toil).
¿Qué es el trabajo repetitivo?
¿Por qué es malo tener trabajo repetitivo?
Haciendo algo con el trabajo repetitivo.
Módulo 4 - Monitoreo e indicadores de nivel de servicio (SLI).
Indicadores de nivel de servicio (SLI).
Monitoreo.
Observabilidad.
Módulo 5: Herramientas de SRE y automatización.
Definición de automatización.
Enfoque de la automatización.
Jerarquía de tipos de automatización.
Automatización para la seguridad.
AIOps.
Despliegues progresivos.
Plataformas de gestión de flujos de valor.
Ingeniería de plataformas.
IA generativa.
Herramientas de automatización.
Módulo 6: Antifragilidad y aprendiendo a partir del fallo.
Por qué aprender de los fallos.
Beneficios de la antifragilidad.
Cambiando el equilibrio organizacional.
Simulacros (fire drills).
Ingeniería del caos.
Módulo 7: Impacto organizacional de SRE.
Por qué las organizaciones adoptan SRE.
Patrones de adopción de SRE.
Descripción del puesto de SRE.
Respuesta a incidentes sostenible.
Análisis post-mortem sin culpables.
SRE y escalabilidad.
Módulo 8: SRE, otros marcos y el futuro.
SRE y otros marcos de referencia.
Agile, ITSM, DevOps, VSM e Ingeniería de Plataformas.
Evolución del SRE.
Apendice - Próximos pasos.
Información del examen
El examen SRE Foundation℠ es entregado por PeopleCert:
Entrega: en línea con supervisión por cámara web.
Formato: libro abierto.
Duración: 60 minutos.
Cantidad de preguntas: 40 preguntas de selección simple.
Nota mínima aprobatoria: 65% (de aciertos).
Certificado y badge
Certificado SRE Foundation℠ en pdf una vez aprobado el examen.
Badge por PeopleCert previa suscripción a PeopleCert Membership Plus. Aplican condiciones. Más información aquí.
Validez del certificado: 3 años.

