¿Qué es la ciencia de los datos y su ejemplo?

¿Qué hacen los científicos de datos? De acuerdo con entrevistas con más de 30 científicos de datos, la ciencia de datos es sobre infraestructura, pruebas, uso de aprendizaje automático para la toma de decisiones, y productos de datos. La ciencia de los datos se está utilizando en numerosos campos, pero no se trata sólo del aprendizaje profundo o de la búsqueda de inteligencia general artificial. De hecho, las habilidades necesarias incluyen la comunicación y la narración. Pero la ciencia de los datos se está especializando cada vez más, y con eso los científicos de los datos de habilidades necesitan están evolucionando. Además, la ética se está convirtiendo en un desafío cada vez mayor.

La ciencia moderna de los datos surgió en la tecnología, desde optimizar los rankings de búsqueda de Google y las recomendaciones de LinkedIn hasta influir en los titulares que los editores de Buzzfeed ejecutan. Pero está listo para transformar todos los sectores, desde el comercio minorista, las telecomunicaciones y la agricultura hasta la salud, el transporte y el sistema penal. Sin embargo, los términos “ciencia de datos” y “científico de datos” no siempre se entienden fácilmente y se utilizan para describir una amplia gama de trabajos relacionados con los datos.

¿Qué es exactamente lo que hacen los científicos de datos? Como el anfitrión de la podcast de DataCamp DataFramed , he tenido el placer de hablar con más de 30 científicos de datos en una amplia gama de industrias y disciplinas académicas. Entre otras cosas, les he preguntado qué implica su trabajo.

Pero a pesar de toda la variedad, una serie de temas han surgido de estas conversaciones. Esto es lo que son:

Lo que hacen los científicos de datos. Ahora sabemos cómo funciona la ciencia de los datos, al menos en la industria tecnológica. En primer lugar, los científicos de datos establecen una base de datos sólida con el fin de realizar análisis robustos. Luego utilizan experimentos en línea, entre otros métodos, para lograr un crecimiento sostenible. Finalmente, construyen tuberías de aprendizaje automático y productos de datos personalizados para entender mejor sus negocios y clientes y tomar mejores decisiones. En otras palabras, en tecnología, la ciencia de los datos es sobre infraestructura, pruebas, aprendizaje automático para la toma de decisiones y productos de datos.

Se están dando grandes pasos en industrias distintas de la tecnología. Hablé con Ben Skrainka, un científico de datos de Convoy, sobre cómo esa compañía está aprovechando la ciencia de datos para revolucionar la industria del transporte de camiones en América del Norte. Sandy Griffith de Flatiron Health nos habló sobre el impacto que la ciencia de datos ha comenzado a tener en la investigación del cáncer. Drew Conway y yo discutimos sobre su empresa Aluvium, que “utiliza el aprendizaje automático y la inteligencia artificial para convertir flujos masivos de datos producidos por las operaciones industriales en insights”. Mike Tamir, ahora jefe de autoconducción en Uber, discutió trabajar con Takt para facilitar el aprovechamiento de la ciencia de datos de las compañías Fortune 500, incluyendo su trabajo sobre los sistemas de recomendación de Starbucks. Esta lista no exhaustiva ilustra las revoluciones de la ciencia de los datos en una multitud de verticales.

No todo es sólo la promesa de coches auto-conducir y la inteligencia general artificial. Muchos de mis invitados son escépticos no sólo de la fetichización de la inteligencia general artificial por parte de los principales medios (incluyendo titulares como VentureBeat’s “Un dios de la IA emergerá para 2042 y escribirá su propia biblia. ¿Lo adorarán?"), pero también del zumbido alrededor del aprendizaje automático y el aprendizaje profundo. Claro, el aprendizaje automático y el aprendizaje profundo son técnicas poderosas con aplicaciones importantes, pero, como con todos los términos de zumbido, un escepticismo saludable está en orden. Casi todos mis invitados entienden que los científicos de datos de trabajo hacen su pan y mantequilla diariamente a través de la recopilación de datos y la limpieza de datos; construcción de paneles e informes; visualización de datos; inferencia estadística; comunicación de resultados a los principales interesados; y convencer a los responsables de la toma de decisiones de sus resultados.

Los datos de habilidades que los científicos necesitan están evolucionando (y la experiencia con el aprendizaje profundo no es la más importante). En una conversación con Jonathan Nolis, un líder de la ciencia de los datos en el área de Seattle que ayuda a las empresas Fortune 500, planteamos la pregunta: “¿Qué habilidad es más importante para un científico de datos: la capacidad de utilizar los modelos de aprendizaje profundo más sofisticados, o la capacidad de hacer buenas diapositivas de PowerPoint?”

Otro tema recurrente es que es probable que estas habilidades, tan necesarias hoy en día, cambien a una escala de tiempo relativamente corta. Como estamos viendo avances rápidos tanto en el ecosistema de código abierto de herramientas disponibles para hacer ciencia de datos como en las herramientas comerciales y de ciencia de datos, también estamos viendo una creciente automatización de una gran cantidad de trabajo de ciencia de datos, como la limpieza de datos y la preparación de datos. Ha sido un tropo común que 80% del valioso tiempo de un científico de datos se gasta simplemente la búsqueda, limpieza y organización de datos, dejando sólo un 20% para realizar el análisis en realidad.

Pero es poco probable que esto dure. Hoy en día, incluso una gran cantidad de aprendizaje automático y profundo se está automatizando, como aprendimos cuando dedicamos un episodio al aprendizaje automático, y oímos de Randal Olson, científico líder en datos de Life Epigenetics.

Un resultado de este cambio rápido es que la gran mayoría de mis invitados nos dicen que las habilidades clave para los científicos de datos no son las habilidades para construir y utilizar infraestructuras de aprendizaje profundo. En su lugar, son las habilidades para aprender sobre la marcha y para comunicarse bien con el fin de responder a las preguntas de negocios, explicando resultados complejos a las partes interesadas no técnicas. Los científicos de datos que aspiran, entonces, deberían centrarse menos en las técnicas que en las preguntas. Las nuevas técnicas van y vienen, pero el pensamiento crítico y las habilidades cuantitativas específicas del dominio permanecerán en demanda.

La especialización es cada vez más importante. Si bien no hay una trayectoria profesional bien definida para los científicos de datos, y poco apoyo para los científicos de datos junior, estamos empezando a ver algunas formas de especialización. Emily Robinson describió la diferencia entre los científicos de datos de tipo A y B: “El tipo A es el análisis —una especie de estadístico tradicional— y el tipo B está construyendo modelos de aprendizaje automático”.

Jonathan Nolis divide la ciencia de los datos en tres componentes: (1) inteligencia de negocios, que se trata esencialmente de “tomar datos que la empresa tiene y ponerlos delante de las personas adecuadas” en forma de tableros, informes y correos electrónicos; (2) ciencia de decisiones, que se trata de “tomar datos y usarlos para ayudar a una empresa a tomar una decisión”; y (3) aprendizaje automático, que se trata de “cómo podemos tomar modelos de ciencia de datos y ponerlos continuamente en producción”. Aunque muchos científicos de datos de trabajo son actualmente generalistas y hacen los tres, estamos viendo diferentes trayectorias profesionales que emergen, como en el caso de los ingenieros de aprendizaje automático.

La ética es uno de los mayores desafíos del campo. Usted puede entender que la profesión ofrece a sus practicantes una gran incertidumbre. Cuando le pregunté a Hilary Mason en nuestro primer episodio si cualquier otro desafío importante se enfrenta a la comunidad de ciencia de datos, ella dijo: “¿Crees que la ética imprecisa, no hay normas de práctica, y la falta de vocabulario consistente no son suficientes desafíos para nosotros hoy en día?”

Los tres son puntos esenciales, y los dos primeros en particular son el frente de la mente para casi cada DataFramed Invitado. En un momento en que muchas de nuestras interacciones con el mundo están dictadas por algoritmos desarrollados por científicos de datos, ¿qué papel desempeña la ética? Como dijo Omoju Miller, científico senior de datos de aprendizaje automático en GitHub, en nuestra entrevista:

Necesitamos tener ese entendimiento ético, necesitamos tener ese entrenamiento, y necesitamos tener algo parecido a un juramento hipocrático. Y necesitamos realmente tener licencias adecuadas para que si realmente haces algo poco ético, tal vez tengas algún tipo de penalización, o inhabilitación, o algún tipo de recurso, algo que decir no es lo que queremos hacer como industria, y luego encontrar formas de remediar a las personas que salen de la barandilla y hacen cosas porque la gente simplemente no está entrenada y no saben.

Un tema recurrente son las graves, dañinas y poco éticas consecuencias que la ciencia de los datos puede tener, como el Compas Recidivism Risk Score que ha sido “utilizado en todo el país para predecir futuros criminales” y es “sesado contra los negros”, según ProPublica .

Nos acercamos a un consenso en el sentido de que las normas éticas deben venir de la ciencia de los datos, así como de legisladores, movimientos de base y otras partes interesadas. Parte de este movimiento implica un reenfasis en la interpretabilidad en modelos, en lugar de modelos de caja negra. Es decir, necesitamos construir modelos que puedan explicar por qué hacen las predicciones que hacen. Los modelos de aprendizaje profundo son geniales en muchas cosas, pero son infamemente ininterpretables. Muchos investigadores, desarrolladores y científicos de datos dedicados e inteligentes están avanzando aquí con trabajos como Lima , un proyecto destinado a explicar qué están haciendo los modelos de aprendizaje automático.

La revolución de la ciencia de los datos entre las industrias y la sociedad en general acaba de comenzar. Si el título del científico de datos seguirá siendo el “ El trabajo más sexy del siglo XXI ,” se hará más especializado, o se convertirá en un conjunto de habilidades que la mayoría de los profesionales que trabajan simplemente se requieren para tener es poco claro. Como me dijo Hilary Mason: “¿Hasta tendremos ciencia de datos en 10 años? Recuerdo un mundo donde no lo hicimos, y no me sorprendería que el título fuera el camino de ‘webmaster’”.