10 preguntas para confiar en un análisis de datos

Reconocimiento vocal, robots entrevistadores, recomendaciones de películas en tiempo real, la analítica avanzada de datos hace parte de nuestras vidas cotidianas y no puede ser ignorada por el Gerente del siglo 21. Los beneficios potenciales para la empresa se encuentran a lo largo de la cadena de valor, desde las compras hasta el post-venta, pasando por la gestión del talento.

Para cosechar esos beneficios, una organización debe desarrollar capacidades diversas en gestión de data, analítica y planificación por ejemplo. Cada una de esas capacidades representa un reto en si, pero quisiera abordar en este artículo otro obstáculo importante a la adopción de la analítica avanzada: la confianza del ejecutivo en el resultado. En efecto, los algoritmos más valiosos como ‘deep learning’ en inteligencia artificial son también los menos entendidos, lo que genera un temor natural al mal uso que un ejecutivo debe superar antes de poder usar adecuadamente esas herramientas.

Contratar al mejor científico no es suficiente para evitar pasar de la inteligencia artificial a la estupidez artificial, pues el conocimiento y el criterio de negocio del ejecutivo senior es imprescindible en el proceso de toma de decisión apoyado en el análisis de data.

Aprendí durante mis años de consultoría que hacer las preguntas correctas es complejo pero potente… Por lo tanto, recomiendo una lista de preguntas que debe hacer el ejecutivo a lo largo del proceso de toma de decisión, desde la conceptualización del problema hasta la conclusión.

  1. ¿Qué decisión de negocio buscamos tomar? A cada decisión le corresponde un horizonte de tiempo, un nivel de riesgo y consecuentemente variables y parámetros que deben o no deben ser considerados.
  2. ¿Qué variables estamos considerando y cuáles podrían faltar? Un buen algoritmo con data limpia no puede resistir la falta de data. Pronosticar el crecimiento de la economía peruana sin incluir la producción minera será en el mejor de los casos aproximado, por más confiables que sean las otras variables consideradas.
  3. ¿Cómo aseguramos una selección aleatoria de la data? Los sesgos de confirmación (cuando hay un deseo intencional o no intencional de probar una hipótesis, suposición u opinión) y de selección (cuando por ejemplo usamos la data más asequible) invalidan la data y deben ser evitados apuntando a la aleatoriedad
  4. ¿Con qué criterios filtramos la data incoherente o atípica? Las mejores empresas tienen en sus bases de datos partes incoherentes o atípicas que no deben ser excluidas.
  5. ¿Hemos entrenado el modelo sobre varios paquetes de data? Los modelos analíticos dependen de la data que los alimentan. Para evitar un sobreajuste del modelo a un paquete particular de datos, una buena práctica es comparar resultados obtenidos a partir de diversos paquetes.
  6. ¿Sobre qué supuestos está basado el algoritmo usado? Cada modelo está basado sobre supuestos que, si violados, invalidan los resultados. Supuestos comunes como normalidad de distribución, independencia entre variables o linealidad puede ser fácilmente controlados, de forma visual inclusive. La muy aguda crisis económica del ‘subprime’ en 2008 ilustra que decisiones basadas en análisis sin validar supuestos pueden llevar a la catástrofe.
  7. ¿Por qué el algoritmo usado es el más indicado? Las bibliotecas de algoritmos son amplias y deben ser aprovechadas. Lasso, Ridge, Elnet y Random forests son algunos de los algoritmos alternativos a la regresión linear clásica. Comparen las alternativas en base a los indicadores de calidad correspondientes.
  8. ¿El nivel de confiabilidad es adaptado al nivel de riesgo? 95% es el nivel de confiabilidad por defecto en los negocios pero no necesariamente es suficiente. Si vidas humanas puede estar en juego (analizando una posibilidad de falla mecánica por ejemplo), niveles mayores deben ser considerados.
  9. ¿Qué tan preciso es el modelo? Un modelo puede ser estadísticamente significativo sin ser muy preciso. Pasa en ‘machine learning’ cuando entrenamos un modelo sin lograr alta similitud entre resultados reales y resultados predichos por el modelo.
  10. ¿La conclusión nos hace sentido? El consumo de Panadol está altamente correlacionado con el dolor de cabeza. Concluimos que el Panadol causa dolor de cabeza… salvo que intervenga nuestro instinto y exijamos una revisión de los análisis, por supuesto.

Esta última pregunta es la más importante y nos recuerda que las mejores decisiones son combinación de ciencia y arte; la ciencia viene del análisis de datos y el arte de la experiencia y del criterio.


Si te gustó el artículo, compártelo con tu red de contactos y escribe tus comentarios más abajo por favor. ¡Gracias!

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s