Monitoreo, operación y detección de fallas en infraestructuras

Martes 24 - 17:20

Carlos Alvarez, Despegar.com

Resumen: Con 350 GB de log diario, 60 millones de request a servicios internos, 30 aplicaciones distintas en 450 servers, como sabemos cuando algo anda mal? Las fallas catastróficas son fáciles de detectar, pero si afectamos al 1% de los usuarios? si está fallando el 2% de las operaciones? Como lo detectamos?. Vamos a repasar un par de herramientas home made de despegar que usan conceptos de big data y machine learning cuyo objetivo es dar una visión detallada del estado de la infraestructura productiva.

Acerca del expositor: Carlos Alvarez es Licenciado en Análisis de Sistemas por la FIUBA. Trabaja en IT desde hace 17 años, programando en C, C++, Python, Java y recientemente Scala. Su trabajo siempre giró en torno a sistemas de distribuídos y de alta carga de transacciones. En Despegar.com su trabajo gira en torno a la infraestructura productiva: escalabilidad, monitoreo y detección de fallas, soporte a operaciones y, ultimamente, el despliegue de una nube privada. Esto le permite experimentar técnicas de machine learning y big data aplicadas a la administración y monitoreo de instalaciones medianadas/grandes. Además de la informática le interesan las ciencias cognitivas, la epistemología y la estadística.