Marco metodológico del data scientist
El problema de metodología a nivel de proyecto
La data sciences operativa surge del deseo de satisfacer las aspiraciones, necesidades o requisitos de un cliente interno en una organización.
Vamos a analizar las características del desarrollo de un proyecto que incluye las data sciences en todas sus actividades.
A continuación, abordaremos la parte del proyecto más específica de los aspectos relacionados con la data sciences.
El objetivo es proporcionar una especie de «checklist» para los managers, jefes de proyecto y data scientists.
1. Expresar la necesidad
Normalmente, para formular la necesidad se requiere un trabajo colaborativo. Algunas veces, esta necesidad se expresa de ciertas maneras que no se pueden interpretar directamente en términos de un problema de data sciences:
-
Me gustaría ir más allá en el análisis de nuestro cliente/paciente/gestionado/socio/competidor/mercado/riesgo/fraude/seguridad/proveedor/logística/producción/país/tendencias/datos sociales/ambientales, etc.
-
Me gustaría mejorar estos datos (aprovechar la fiebre del oro de los datos).
-
No quiero «perder el sello» de Big Data.
-
Me gustaría ofrecer nuevos servicios y productos a mis clientes.
-
Quiero revolucionar mi oferta (disrupción).
-
Quiero digitalizar mi organización.
-
Me gustaría optimizar o transformar mis procesos.
-
Me gustaría anticiparme a los movimientos del mercado, competidores, churn (fidelización de clientes), etc.
De hecho, el proceso de extracción de la necesidad es un proceso de ajuste mutuo. La idea es establecer un ciclo que permita al «cliente interno» y al data scientist (aquí, un business analyst o un gerente de proyectos competente en data sciences) compartir, al menos, los siguientes cinco aspectos fundamentales:
-
Criterios de éxito comunes que, en última instancia, permitan juzgar el éxito de su proyecto de data sciences (KPI: key business/process/product/project indicators).
-
Una comprensión común de lo que se puede esperar del procesamiento...
El ciclo interno de las data sciences
Dentro del ciclo del proyecto, el data scientist llevará a cabo sus propias iteraciones específicas de un ciclo de desarrollo definido para él, pero se deberá sincronizar con los ciclos de producción y decisión del proyecto.
Cuando el proyecto alcanza un determinado estado «funcional», es decir, una definición de sus objetivos, requisitos comerciales, preguntas formuladas, casos de uso, datos disponibles y logística de hardware, el data scientist comenzará una nueva iteración.
Tendrá que planificar esta iteración con detenimiento y tener cuidado para no dejarse arrastrar por un perfeccionismo o una laxitud matemática, algorítmica o técnica, incompatible con los objetivos de su planificación. La planificación de una actividad de I+D es particularmente complicada y, por lo tanto, requiere mucha atención.
En primer lugar, el data scientist que haya cualificado una necesidad y un contexto, realizará un estudio más o menos analítico de los estos.
1. Revisión en detalle del problema planteado
La primera tarea consiste en expresar el problema en términos de técnicas específicas de la data sciences. Tenga en cuenta que no debemos centrarnos exclusivamente en técnicas estadísticas o de machine learning, sino explorar la gama de algoritmos disponibles y que están vinculados con los objetivos funcionales establecidos.
Con respecto a los aspectos del machine learning, es necesario identificar rápidamente si el problema en cuestión se traduce en aprendizaje supervisado o no. En casos complejos, sería necesario centrarse en los ciclos de técnicas iterativas de deep learning o reinforcement learning.
Se debe abordar con cuidado la semántica general de los datos ideales que se van a manipular. ¿Es útil manipular conceptos, palabras, expresiones con nombre (nombres de personas, organizaciones), eventos, información agregada (cifra de negocio), relaciones (redes), series temporales (cotización bursátil), imágenes, vídeos, sonidos, datos geográficos, etc.?
Es importante identificar rápidamente si la capacidad que tendremos para dar respuesta al problema planteado hace necesario dominar un «modelo de datos»:...
Complementos metodológicos
1. Clasificar sus objetivos
Para organizar su trabajo, el data scientist debe identificar cuidadosamente la naturaleza real de los objetivos que se le asignan.
Para valorar la naturaleza de cada uno de los objetivos o necesidades, inspírese en una tipología como la que se muestra a continuación, pero transfórmela según sus conocimientos y hábitos.
Las siguientes necesidades están clasificadas, más o menos, por nivel de dificultad. En cualquier caso, no generan mismas técnicas de data sciences:
-
Describir los datos (p. ej.: 13 % de... son...).
-
Interpretar los datos (p. ej.: en 2015 los votantes de... votan... porque...).
-
Optimizar un proceso logístico o mecánico.
-
Predecir cambios en las tendencias.
-
Apoyar a los actores en su toma de decisiones.
-
Predecir comportamientos individuales.
-
Identificar comportamientos anormales (fraudes, ataques, etc.).
-
Identificar el impacto de una evolución de tendencia potencial sobre otra tendencia.
-
Identificar estrategias para cambiar tendencias (es decir, encontrar cadenas de causa y efecto, por ejemplo, para influir en los influencers).
-
Identificar el impacto de un evento potencial en actores específicos.
-
Cambiar el comportamiento ocasional de los actores (es decir, determinar dónde actuar: por ejemplo, generar un acto de compra directa a través de una solicitud específica).
-
Identificar...