¿Cuáles son los 6 pasos típicamente involucrados en el proceso de ciencia de datos?
Es común hacerse preguntas como “¿qué hace un científico de datos?”. O “¿cómo es un día en la vida de la ciencia de los datos?”
Estas preguntas son complicadas. La respuesta puede variar según el papel y la empresa.
Figura 1: Proceso de Ciencia de Datos, crédito: Wikipedia
Así que le preguntamos a Raj Bandyopadhyay, director de Educación en Ciencia de Datos de Springboard, si tenía una mejor respuesta.
Resulta que Raj emplea un marco increíblemente útil que es a la vez una manera de entender lo que los científicos de datos hacen, y una hoja de trucos para desglosar cualquier problema de ciencia de datos.
Raj lo llama “el Proceso de Ciencia de Datos”, que él describe en detalle en un Curso corto de correo electrónico de 5 días . He aquí un resumen de sus ideas.
Paso 1: Enmarcar el problema
Lo primero que tienes que hacer antes de resolver un problema es definir exactamente lo que es. Usted necesita ser capaz de traducir preguntas de datos en algo procesable.
A menudo recibirás aportes ambiguos de las personas que tienen problemas. Tendrás que desarrollar la intuición para convertir las escasas entradas en salidas procesables – y hacer las preguntas que nadie más está haciendo.
Digamos que está resolviendo un problema para las ventas de VP de su empresa. Usted debe comenzar por entender sus metas y el subyacente ¿Por qué? detrás de sus preguntas de datos. Antes de que puedas empezar a pensar en soluciones, querrás trabajar con ellas para definir claramente el problema.
Una gran manera de hacer esto es hacer las preguntas correctas.
A continuación, debe averiguar cómo es el proceso de ventas y quiénes son los clientes. Usted necesita tanto contexto como sea posible para que sus números se conviertan en insights.
Usted debe hacer preguntas como las siguientes:
- ¿Quiénes son los clientes?
- ¿Por qué están comprando nuestro producto?
- ¿Cómo predecimos si un cliente va a comprar nuestro producto?
- ¿Qué es diferente de los segmentos que están funcionando bien y los que están actuando por debajo de las expectativas?
- ¿Cuánto dinero perderemos si no vendemos activamente el producto a estos grupos?
En respuesta a sus preguntas, las ventas de VP podrían revelar que quieren entender por qué ciertos segmentos de clientes han comprado menos de lo esperado. Su objetivo final podría ser determinar si continuar invirtiendo en estos segmentos, o despriorizarlos. Usted querrá adaptar su análisis a ese problema, y desenterrar las ideas que pueden apoyar cualquier conclusión.
Es importante que al final de esta etapa, usted tenga toda la información y el contexto que necesita para resolver este problema.
Paso 2: Recopila los datos brutos necesarios para tu problema
Una vez que haya definido el problema, necesitará datos para darle los conocimientos necesarios para cambiar el problema con una solución. Esta parte del proceso implica pensar a través de qué datos necesitará y encontrar maneras de obtener esos datos, ya sea consultando bases de datos internas, o la compra de conjuntos de datos externos.
Es posible que descubra que su empresa almacena todos sus datos de ventas en una plataforma de software de gestión de relaciones con clientes o CRM.Puede exportar los datos de CRM en un archivo CSV para un análisis más detallado.
Paso 3: Procesar los datos para su análisis
Ahora que usted tiene todos los datos en bruto, usted tendrá que procesarlo antes de que usted puede hacer cualquier análisis. A menudo, los datos pueden ser bastante desordenados, especialmente si no ha sido bien mantenido. Verá errores que corromperán su análisis: valores establecidos en nulo aunque realmente son cero, valores duplicados y valores que faltan. Depende de usted para ir a través y comprobar sus datos para asegurarse de que obtendrá información precisa.
Usted querrá comprobar los siguientes errores comunes:
- Faltan valores, tal vez clientes sin fecha de contacto inicial
- Valores dañados, como entradas inválidas
- Diferencias horarias, tal vez su base de datos no tiene en cuenta las diferentes zonas horarias de sus usuarios
- Errores de rango de fechas, tal vez usted tendrá fechas que no tiene sentido, como los datos registrados desde antes de que las ventas comenzaron
Usted tendrá que mirar a través de agregados de sus filas de archivos y columnas y muestre algunos valores de prueba para ver si sus valores tienen sentido. Si detectas algo que no tiene sentido, tendrás que eliminar esos datos o reemplazarlos por un valor predeterminado. Tendrás que usar tu intuición aquí: si un cliente no tiene una fecha de contacto inicial, ¿tiene sentido decir que NO hubo fecha de contacto inicial? ¿O tienes que buscar las ventas de VP y preguntar si alguien tiene datos sobre las fechas de contacto iniciales del cliente que faltan?
Una vez que haya terminado de trabajar con esas preguntas y limpiar sus datos, usted estará listo para el análisis de datos exploratorios (EDA).
Paso 4: Explore los datos
Cuando tus datos estén limpios, ¡deberías empezar a jugar con ellos!
La dificultad aquí no se presenta con ideas para probar, se presenta con ideas que probablemente se convertirán en ideas. Usted tendrá un plazo fijo para su proyecto de ciencia de datos (su VP Sales probablemente está esperando su análisis ansiosamente!), por lo que tendrá que priorizar sus preguntas. «
Usted tendrá que mirar a algunos de los patrones más interesantes que pueden ayudar a explicar por qué las ventas se reducen para este grupo. Usted puede notar que no tienden a ser muy activos en las redes sociales, con pocos de ellos tienen cuentas de Twitter o Facebook. Usted también puede notar que la mayoría de ellos son más viejos que su público general. A partir de eso puedes empezar a trazar patrones que puedes analizar más profundamente.
Paso 5: Realizar un análisis en profundidad
Este paso del proceso es donde vas a tener que aplicar tus conocimientos estadísticos, matemáticos y tecnológicos y aprovechar todas las herramientas de ciencia de datos a tu disposición para crujir los datos y encontrar todas las perspicacias que puedas.
En este caso, es posible que tenga que crear un modelo predictivo que compare su grupo de bajo rendimiento con su cliente promedio. Es posible que descubras que la edad y la actividad de las redes sociales son factores significativos para predecir quién comprará el producto.
Si usted ha hecho muchas de las preguntas correctas mientras enmarca su problema, usted podría darse cuenta de que la empresa se ha estado concentrando mucho en los esfuerzos de marketing en las redes sociales, con mensajes que están dirigidos a audiencias más jóvenes. Usted sabría que ciertas demografías prefieren ser alcanzadas por teléfono en lugar de por las redes sociales. Usted comienza a ver cómo la forma en que el producto ha sido comercializado está afectando significativamente las ventas: tal vez este grupo de problemas no es una causa perdida! Un cambio en las tácticas de marketing en redes sociales a más interacciones en persona podría cambiar todo para mejor. Esto es algo que usted tendrá que marcar a sus ventas de VP.
Ahora puedes combinar todas esas ideas cualitativas con datos de tu análisis cuantitativo para crear una historia que mueva a la gente a la acción.
Paso 6: Comunicar los resultados del análisis
Es importante que las ventas de VP entiendan por qué el Las ideas que has descubierto son importantes . En última instancia, usted ha sido llamado a crear una solución a lo largo del proceso de ciencia de datos. Comunicación adecuada significará la diferencia entre acción y inacción sobre sus propuestas.
Necesitas crear una historia convincente aquí que vincule tus datos con sus conocimientos. Usted comienza explicando las razones detrás del bajo rendimiento de la demografía más antigua. Lo vinculas con las respuestas que tu VP Sales te dio y con las ideas que has descubierto a partir de los datos. Luego pasas a soluciones concretas que abordan el problema: podríamos transferir algunos recursos de las redes sociales a las llamadas personales. Lo unes todo en una narrativa que resuelve el dolor de tus ventas de vicepresidentes: ahora tiene claridad sobre cómo recuperar ventas y alcanzar sus objetivos.
Ahora está lista para actuar sobre sus propuestas.
A lo largo del proceso de ciencia de datos, su día a día variará significativamente dependiendo de dónde esté – ¡y definitivamente recibirá tareas que caen fuera de este proceso estándar! También a menudo estará haciendo malabares con diferentes proyectos a la vez.
Es importante entender estos pasos si quieres pensar sistemáticamente en la ciencia de los datos, y aún más si estás buscando comenzar una carrera en la ciencia de los datos.
Incluso si usted no está buscando irrumpir en el campo, su carrera en la ciencia de los datos sólo mejorará al volver a lo básico y entenderlos a fondo. Nos encantaría cualquier retroalimentación que tenga sobre el proceso de ciencia de datos.
Artículos Relacionados:
- ¿Cuáles son los pasos del proceso de ciencia de datos?
- ¿Cuáles son las 5 etapas del proceso de ciencia de datos?
- ¿Cuál es el primer paso en un proyecto de ciencia de datos?
- ¿Cuáles son las etapas de la ciencia de los datos?
- ¿Cuál de los siguientes pasos del proyecto de ciencia de datos es el más crítico para el éxito del proyecto?