¿Cuál es la parte más difícil de ser un científico de datos?
Encuentre cómo 10x su equipo de datos
Las organizaciones de todo el mundo están tratando de desbloquear el valor que pueden proporcionar los datos. En este esfuerzo, contratan a científicos de datos masivamente, con la esperanza de impulsar inmediatamente los resultados. Resulta, sin embargo, que muchas empresas no hacen el mejor uso posible de sus científicos de datos porque no pueden proporcionarles el medio ambiente y la materia prima adecuados. En este artículo, examinamos los principales elementos que obstaculizan la productividad de los científicos de datos, y exploramos las soluciones disponibles.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
¿Qué es un científico de datos?
Oficialmente, el trabajo de los científicos de datos consiste en construir modelos predictivos usando matemáticas avanzadas, estadísticas y diversas herramientas de programación. En la práctica, sin embargo, hay ideas erróneas sobre el papel. En la mayoría de las organizaciones, las ocupaciones de los científicos de datos incluyen recuperar datos, limpiar datos, construir modelos y presentar sus hallazgos en términos comerciales. Los científicos de datos se enfrentan a desafíos clave en cada paso de su proceso de trabajo, ralentizando drásticamente su progreso y llevando a la frustración en los equipos de datos. Aunque hay mucho más de 5 desafíos en la vida de los científicos de datos, los puntos de dolor más grandes que hemos identificado son: encontrar los datos adecuados, tener acceso a ellos, entender las tablas y su propósito, limpiar los datos y explicar en términos legos cómo trabajan los vínculos con el desempeño de la organización. Explicamos estos desafíos y proponemos soluciones para alejar las rocas de su camino.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
1) Encontrar los datos
El primer paso de cualquier proyecto de ciencia de datos no es sorprendente para encontrar los activos de datos necesarios para empezar a trabajar. La parte sorprendente es que la disponibilidad de los datos "correctos" sigue siendo el desafío más común de los científicos de datos, afectando directamente su capacidad para construir modelos sólidos. Pero, ¿por qué es tan difícil encontrar datos?
La primera cuestión es que la mayoría de las empresas recogen enormes volúmenes de datos sin determinar primero si realmente va a ser consumido, y por quién. Esto es impulsado por el miedo a perderse las ideas clave que podrían derivarse de ello, y la disponibilidad de almacenamiento barato. El lado oscuro de este frenesí de recopilación de datos es que las organizaciones terminan reuniendo datos inútiles, alejando el foco de la acciónbilidad. Esto hace que sea más difícil para los usuarios de datos encontrar los activos de datos verdaderamente relevantes para la estrategia de negocio. Las empresas necesitan asegurarse de que recopilan datos relevantes que van a ser utilizados. Para ello, es fundamental comprender exactamente lo que hay que medir para impulsar la adopción de decisiones, y esto varía según las diversas organizaciones.
En segundo lugar, los datos están dispersos en múltiples fuentes, lo que dificulta que los científicos de datos encuentren el activo adecuado. Parte de la solución es consolidar la información en un solo lugar. Es por eso que tantas empresas utilizan un almacén de datos , en el que almacenan los datos de todas sus diversas fuentes.
Sin embargo, tener una sola fuente de verdad para sus activos de datos no es suficiente sin documentación de datos . ¿Qué uso puede hacer de un enorme repositorio de datos si no sabe lo que hay en él? La clave para que los científicos de datos encuentren las tablas relevantes para su trabajo es mantener un inventario de activos de datos claramente organizado. Es decir, cada tabla debe enriquecerse con contexto sobre lo que contiene, quién la importó en la empresa, con qué tablero y KPI está relacionada, y cualquier otra información que pueda ayudar a los científicos de datos a localizarla. Este inventario se puede mantener manualmente, en una hoja de cálculo excelente compartida con los empleados de su empresa. Si eso es lo que necesitas en este momento, tenemos una plantilla en la tienda aquí , y le explicamos cómo usarlo con eficacia. Si su organización es demasiado grande para la documentación manual, la solución alternativa es utilizar un herramienta de catalogación de datos para dar visibilidad a sus activos de datos. Si prefiere esta opción, asegúrese de elegir una herramienta que se adapte a las necesidades de su empresa. Hemos enumerado las diferentes opciones aquí .
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
2) Obtener acceso a los datos
Una vez que los científicos de datos localizan la tabla correcta, el siguiente desafío es acceder a esta última. Las cuestiones de seguridad y cumplimiento están dificultando el acceso de los científicos de datos a los conjuntos de datos. A medida que las organizaciones pasan a la gestión de datos en la nube, los ciberataques se han vuelto bastante comunes. Esto ha dado lugar a dos cuestiones principales:
- Los datos confidenciales se están volviendo vulnerables a estos ataques
- La respuesta a los ciberataques ha sido el endurecimiento de los requisitos regulatorios para las empresas. Como resultado, los científicos de datos están luchando para obtener el consentimiento para utilizar los datos, lo que reduce drásticamente su trabajo. Peor aún, cuando se les niega el acceso a un conjunto de datos.
Así pues, las organizaciones se enfrentan al reto de mantener los datos seguros y garantizar el estricto cumplimiento de las normas de protección de datos, como el RGPD, al tiempo que permiten a las partes pertinentes acceder a los datos que necesitan. El fracaso en uno de estos dos objetivos dará lugar a multas costosas y auditorías que requieren mucho tiempo, o a la imposibilidad de aprovechar los datos de manera eficiente.
Una vez más, la solución radica en catalogar herramientas. Los catálogos de datos hacen del cumplimiento de la normativa un proceso impecable mientras se aseguran de que las personas adecuadas puedan acceder a los datos que necesitan. Esto se logra principalmente a través de las características de la gestión de acceso, por lo que puede conceder / restringir el acceso en un clic a las tablas en función de los estados de los empleados. De esta manera, los científicos de datos se adaptarán perfectamente a los conjuntos de datos que necesitan. Encontrará más información aquí sobre cómo los catálogos de datos pueden ser utilizados como herramientas de cumplimiento regulatorio.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
3) Comprensión de los datos
Uno pensaría que una vez que los científicos de datos encuentran y obtienen acceso a una tabla específica, finalmente pueden trabajar su magia y construir poderosos modelos predictivos. Tristemente, todavía no. Por lo general se sientan rascándose la cabeza por una cantidad ridícula de tiempo con preguntas de este tipo:
- ¿Qué significa el nombre de la columna 'FRPT33'?
- ¿A quién se lo puedo pedir?
- ¿Por qué faltan tantos valores?
Aunque estas preguntas son simples, obtener una respuesta no lo es. No hay propiedad sobre conjuntos de datos en las organizaciones, y encontrar a la persona que conoce el significado del nombre de la columna que usted está preguntando es como tratar de encontrar una aguja en un pajar.
La solución para evitar que los científicos de datos en su organización de pasar demasiado tiempo en estas preguntas básicas es de nuevo a... documento activos de datos. Así de simple. Si usted puede tener una definición escrita para cada columna en cada tabla de su almacén de datos, usted verá la productividad de sus científicos de datos se dispara. ¿Eso parece tedioso? Le aseguramos que toma menos tiempo que dejar que los activos indocumentados vaguen alrededor de su negocio con científicos de datos improductivos gastando el 80% de su tiempo tratando de averiguarlo. Además, las soluciones modernas de documentación de datos tienen características de automatización, lo que significa que cuando se define una sola columna en una tabla, esta definición se propaga a todas las demás columnas con un nombre similar en otras tablas.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
4) Limpieza de datos
Desafortunadamente, los datos de la vida real no son nada como datos de hackathon o datos de Kaggle. Es mucho más desordenado. ¿ Cuál fue el resultado? Los científicos de datos pasan la mayor parte de su tiempo preprocesando datos para hacerlos coherentes antes de analizarlos, en lugar de construir modelos significativos. Esta tediosa tarea consiste en limpiar los datos, eliminar valores atípicos, codificar variables, etc. Aunque el procesamiento previo de datos se considera a menudo la peor parte del trabajo de un científico de datos, es crucial que los modelos se construyan sobre datos limpios y de alta calidad. De lo contrario, los modelos de aprendizaje automático aprenden los patrones equivocados, lo que en última instancia conduce a predicciones equivocadas. ¿Cómo pueden los científicos de datos dedicar menos tiempo a la preprocesamiento de datos, garantizando al mismo tiempo que sólo se utilicen datos de alta calidad para la formación de modelos de aprendizaje automático?
Una solución radica en el uso análisis aumentado. Es el uso de tecnologías como el aprendizaje automático y la IA para ayudar con la preparación de datos para aumentar la forma en que los científicos de datos antes de procesar los datos. Esto permite la posibilidad de automatizar ciertos aspectos de la limpieza de datos que pueden ahorrar a los científicos de datos cantidades significativas de tiempo, manteniendo al mismo tiempo los mismos niveles de productividad.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
5) Comunicar los resultados a las partes interesadas no técnicas.
El trabajo de los científicos de datos está destinado a estar perfectamente alineado con la estrategia empresarial, ya que el objetivo final de la ciencia de datos es guiar y mejorar la toma de decisiones en las organizaciones. Por lo tanto, uno de sus mayores desafíos es comunicar sus resultados a los ejecutivos de negocios. De hecho, los gerentes y otras partes interesadas desconocen las herramientas y los trabajos detrás de los modelos. Tienen que basar sus decisiones en las explicaciones de los científicos de datos. Si este último no puede explicar cómo su modelo afectará el desempeño de la organización, es poco probable que su solución sea ejecutada. Hay dos cosas que hacen de esta comunicación un desafío para las partes interesadas no técnicas:
- En primer lugar, los científicos de datos a menudo tienen antecedentes técnicos, por lo que les resulta difícil traducir sus hallazgos de datos en conocimientos empresariales claros. Pero esto es algo que se puede practicar. Pueden adoptar conceptos como: "Contar historias de datos" proporcionar una narrativa poderosa a sus análisis y visualizaciones.
- En segundo lugar, los términos de negocio y KPI están mal definidos en la mayoría de las empresas. Por ejemplo, todo el mundo sabe más o menos de lo que el ROI está hecho en una empresa, pero rara vez hay un entendimiento común en todos los departamentos de cómo se calcula exactamente. Termina habiendo tantas definiciones de ROI como empleados que lo calculan. Y es la misma historia para otros KPI y términos de negocios. Esto hace aún más difícil que los científicos de datos entiendan y expliquen el impacto de su trabajo relacionado con los KPI específicos. ¿Cómo se espera entonces que convenzan a los ejecutivos de negocios para que implementen sus soluciones? La solución es simple. Defina sus KPI y asegúrese de que todos tienen una comprensión común de cada métrica. KPI de negocios adecuados le permitirá medir exactamente el impacto del negocio generado por los análisis de los científicos de datos. Una buena manera de construir una sola fuente de verdad para sus KPI y términos de negocio es utilizar un catálogo de datos. Esta solución garantiza que todos estén alineados en cuanto a definiciones clave para su negocio.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
Palabras finales
La productividad de los científicos de datos, la productividad de su equipo de datos en general se ven muy afectadas por factores que podrían evitarse fácilmente. Recopilar datos relevantes, centralizar activos de datos, documentar sus tablas, definir claramente términos de negocio y KPIs: estas buenas prácticas son fáciles de implementar, y afectarán radicalmente la productividad de su equipo de datos al tiempo que bajan los niveles de frustración.
# # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # # #
Sobre nosotros
Escribimos sobre todos los procesos involucrados al aprovechar los activos de datos: desde el moderna pila de datos a la composición de los equipos de datos, a la gobernanza de los datos. Nuestro blog abarca los aspectos técnicos y menos técnicos de la creación de valor tangible a partir de datos.
En Castor, estamos construyendo una herramienta de documentación de datos para la generación Notion, Figma, Slack. Diseñamos nuestro software de catálogo para ser fácil de usar, encantador y amable.
Artículos Relacionados: