¿Qué significa terminar el proyecto de ciencia de datos?

Datos Los científicos deben ser más integrales

Los científicos de datos pueden ser más eficaces por ser más de punta a punta . Esto es contrario a la tendencia reciente de dividir el ciclo de vida del aprendizaje automático entre varios roles como ingeniero de datos, científico de datos e ingeniería de ML. Al ser más de extremo a extremo, los científicos de datos reducen la coordinación y la difusión de la responsabilidad, y obtienen la propiedad y una visión a gran escala.

Desde el principio (identificar el problema) hasta el final (resolverlo)

Esta idea de un científico de datos de extremo a extremo puede parecer similar a conceptos existentes tales como:

Hoever, estas definiciones sólo se centran en una parte de la imagen (por ejemplo, roles, tecnología). Una definición más sencilla y pragmática es que un científico de datos de extremo a extremo puede identificar el problema, diseñar una solución, enviarlo y medir los resultados . Para lograr la meta, usarán tantos sombreros como sea necesario. También aprenderán y aplicarán cualquier tecnología, metodología y proceso que funcione. A lo largo del proceso, hacen preguntas como:

¿Cuál es el problema? ¿Por qué es importante?
¿Podemos resolverlo? ¿Cómo debemos resolverlo?
¿Cuál es el valor estimado? ¿Cuál era el valor real?

Más contexto, iteración más rápida, mayor satisfacción

Para la mayoría de los roles de ciencia de datos, ser más de extremo a extremo mejora su capacidad de hacer un impacto significativo. (Sin embargo, hay funciones que se centran en el aprendizaje automático.)

El trabajo de extremo a extremo proporciona un mayor contexto. Aunque las funciones especializadas pueden aumentar la eficiencia, reduce el contexto (para el científico de datos) y conduce a soluciones subóptimas.

El truco para olvidar el panorama general es mirar todo de cerca. – Chuck Palahniuk

Es difícil diseñar una solución holística sin un contexto completo del problema previo. Digamos que la conversión ha disminuido y un PM plantea una petición para mejorar nuestro algoritmo de búsqueda. Sin embargo, ¿qué está causando la disminución en primer lugar? Podría haber varias causas:

Producto: ¿El producto fraudulento/de mala calidad reduce la confianza del cliente?
Conducciones de datos: ¿Se ha comprometido la calidad de los datos o se han producido retrasos o interrupciones?
Refresca el modelo: ¿El modelo no se está refrescando regularmente/correctamente?

La mayoría de las veces, el problema —y la solución— exterior de aprendizaje automático. Una solución a mejorar el algoritmo se perdería la causa raíz.

Del mismo modo, es arriesgado desarrollar una solución sin conocimiento de la ingeniería y las limitaciones de productos. No tiene sentido:

Construyendo un recomendador casi en tiempo real que infra no puede soportar
Construir un recomendador de desplazamiento infinito que no se ajuste al producto

Al trabajar de extremo a extremo, los científicos de datos tendrán todo el contexto para identificar los problemas adecuados y desarrollar soluciones utilizables. También puede conducir a ideas innovadoras que los especialistas, con su estrecho contexto, podrían perder. En general, aumenta la capacidad de entregar valor.

Se reducen los gastos generales de comunicación y coordinación. Con múltiples roles viene la carga adicional. Veamos un ejemplo de un ingeniero de datos (DE) que limpia los datos y crea características, un científico de datos (DS) que analiza los datos y capacita al modelo, y un ingeniero de aprendizaje automático (MLE) que los implementa y los mantiene.

Lo que un programador puede hacer en un mes, dos programadores pueden hacer en dos meses. – Frederick P. Brooks

El DE y el DS deben: comunicar sobre qué datos están (y no están) disponibles, cómo deben limpiarse (por ejemplo, valores atípicos, normalización) y qué características deben crearse. Del mismo modo, el DS y el MLE tienen que discutir cómo implementar, monitorear y mantener el modelo, así como con qué frecuencia se debe actualizar. Cuando ocurran problemas, necesitaremos tres personas en la habitación (probablemente con un PM) para analizar la causa raíz y los siguientes pasos para arreglarlo.

También conduce a una coordinación adicional, en la que es necesario alinear los calendarios a medida que se ejecutan los trabajos y pasarlos en un enfoque secuencial. Si el DS quiere experimentar con datos y funciones adicionales, tendremos que esperar a que el DE ingiera los datos y cree las características. Si un nuevo modelo está listo para las pruebas A/B, tendremos que esperar a que el MLE (convertirlo en código de producción) e implementarlo.

Si bien el trabajo real de desarrollo puede llevar días, la comunicación de ida y vuelta y la coordinación pueden llevar semanas, si no más. Con los científicos de datos de extremo a extremo, podemos minimizar esta sobrecarga, así como evitar que los detalles técnicos se pierdan en la traducción.

(Pero, ¿puede un DS de extremo a extremo realmente hacer todo eso? Creo que sí. Aunque el DS puede no ser tan competente en algunas tareas como un DE o un MLE, serán capaces de realizar la mayoría de las tareas con eficacia. Si necesitan ayuda para escalar o endurecer, siempre pueden obtener ayuda de especialistas en DE y MLE.)

La iteración y la tasa de aprendizaje aumentan. Con mayor contexto y menos gastos generales, ahora podemos iterar, fallar (leer: aprender), y entregar valor más rápido.

Esto es especialmente importante para el desarrollo de datos y productos algorítmicos. A diferencia de la ingeniería de software (una artesanía mucho más madura), no podemos hacer todo el aprendizaje y el diseño antes de empezar a construir: nuestros planos, arquitecturas y patrones de diseño no están tan desarrollados. Por lo tanto, la iteración rápida es esencial para el ciclo de diseño-construcción-aprendizaje.

Hay una mayor propiedad y rendición de cuentas. Tener el proceso de ciencia de datos dividido entre múltiples personas puede llevar a la difusión de la responsabilidad, y peor aún, el merodeo social.

Un antipatrón frecuente observado es “ tirar por encima de la pared ”. Por ejemplo, el DE crea características y lanza una tabla de base de datos al DS, el DS entrena un modelo y lanza R código a la MLE, y la MLE se traduce a Java a la producción.

Si las cosas se pierden en la traducción o si los resultados son inesperados, ¿quién es el responsable? Con una fuerte cultura de propiedad, todos se esfuerzan por contribuir en sus respectivos papeles. Pero sin ella, el trabajo puede degenerar en cubrir culos y señalar con los dedos mientras el problema persiste y los clientes y el negocio sufre.

El hecho de que el científico de los datos de extremo a extremo asuma la propiedad y la responsabilidad de todo el proceso puede mitigar esto. Deben estar facultados para tomar medidas de principio a fin, desde el problema del cliente y la entrada (es decir, los datos brutos) hasta la salida (es decir, el modelo desplegado) y los resultados mensurables.

Para (algunos) científicos de datos, puede conducir a una mayor motivación y satisfacción laboral , que es estrechamente atado a la autonomía, el dominio y el propósito.

Autonomía: Al ser capaz de resolver los problemas de forma independiente. En lugar de esperar y depender de otros, los científicos de datos de extremo a extremo son capaces de identificar y definir el problema, construir sus propias tuberías de datos, e implementar y validar una solución.
Maestría: En el problema, solución, resultado de extremo a extremo. También pueden recoger el dominio y la tecnología según sea necesario.
Finalidad : Al estar profundamente involucrados en todo el proceso, tienen una conexión más directa con el trabajo y los resultados, lo que conduce a un mayor sentido de Propósito .

Pero también necesitamos expertos especializados.

Sin embargo, ser de extremo a extremo no es para todos, por las razones que se indican a continuación.

Queriendo especializarse en el aprendizaje automático, o tal vez un nicho específico en el aprendizaje automático, como la generación de texto neural (léase: Imprimación GPT-3 ). Aunque ser de extremo a extremo es valioso, también necesitamos expertos de clase mundial en investigación e industria que empujen el sobre. Gran parte de lo que tenemos en el ML provenía del mundo académico y de los esfuerzos de investigación puros.

Nadie logra la grandeza al convertirse en un generalista. No perfeccionas una habilidad diluyendo tu atención en su desarrollo. La única manera de llegar al siguiente nivel es centrarnos. – John C. Maxwell

Falta de interés. No todo el mundo está interesado en interactuar con los clientes y el negocio para definir el problema, reunir requisitos y escribir documentos de diseño. Del mismo modo, no todo el mundo está interesado en la ingeniería de software, código de producción, pruebas de unidades y tuberías CI/CD.

Trabajando en sistemas de apalancamiento grandes y altos donde la mejora del 0,01% tiene un impacto gigante. Por ejemplo, el comercio algorítmico y la publicidad. En tales situaciones, la hiper-especialización es necesaria para superar esas mejoras.

Otros también han argumentado por qué los científicos de datos deben especializarse (y no ser de extremo a extremo). Estos son algunos artículos para proporcionar equilibrio y contra-argumentos:

La mejor manera de recogerlo es a través de aprender haciendo

Si usted todavía está interesado en convertirse en más de extremo a extremo, ahora vamos a discutir cómo hacerlo. Antes de eso, sin entrar en tecnología específica, aquí están los cubos de habilidades que los científicos de datos de extremo a extremo usan comúnmente:

Aquí hay cuatro maneras de acercarse a ser un científico de datos de extremo a extremo:

Estudia los libros y cursos adecuados. (Está bien, esto es no aprender haciendo pero todos tenemos que empezar en alguna parte). Me centraría en cursos que cubren el conocimiento tácito en lugar de herramientas específicas. Aunque no me he encontrado con tales materiales, he oído buenas críticas sobre Apilamiento completo de aprendizaje profundo .

Haga sus propios proyectos de extremo a extremo para obtener experiencia de primera mano de todo el proceso. A riesgo de simplificarlo demasiado, aquí están algunos pasos que yo tomaría con sus habilidades asociadas.

Lo oigo y lo olvido. Veo y recuerdo. Lo hago y lo entiendo. – Confucio

Una vez que eso esté hecho, vaya la milla extra para compartir acerca de su trabajo. Usted podría escribir un artículo para su sitio o hablar de él en una reunión ( comunicación ). Mostrar lo que encontró en los datos a través de imágenes y tablas significativas ( análisis de datos ). Comparte tu trabajo en GitHub. Aprendizaje y trabajar en público es una gran manera de obtener retroalimentación y encontrar posibles colaboradores.

Voluntariado a través de grupos como DataKind . DataKind trabaja con organizaciones sociales (por ejemplo, ONG) y profesionales de los datos para abordar cuestiones humanitarias. Al colaborar con estas ONG, usted tiene la oportunidad de trabajar como parte de un equipo para abordar problemas reales con datos reales (muy desordenados).

Mientras que a los voluntarios se les pueden asignar roles específicos (p. ej., PM, DS), siempre eres bienvenido a acompañarlos y observarlos. Verás (y aprenderás) cómo los PMs se involucran con las ONGs para enmarcar el problema, definir soluciones y organizar el equipo a su alrededor. Aprenderá de sus compañeros voluntarios cómo trabajar con los datos para desarrollar soluciones de trabajo. Voluntariado en hackathon-como DataDives y a más largo plazo DataCorps es una gran manera de contribuir al proceso de ciencia de datos de extremo a extremo.

Únete a un equipo de startup. Nota: Un equipo de startup no es sinónimo de startup. Hay grandes organizaciones que dirigen equipos de una manera startup-como (por ejemplo, equipos de dos pizzas) y startups compuestas por especialistas. Encuentre un equipo magro donde se le anima, y tenga la oportunidad, de trabajar de extremo a extremo.

Fijo de puntada y Netflix de extremo a extremo

Eric Colson de Fijación de puntada En un principio, "la atracción de la eficiencia de los procesos" (es decir, el aumento de la eficiencia de los procesos) "perjudicaba a una división del trabajo basada en la función" fábrica de pin de ciencia de datos ). Pero sobre el ensayo y el error, encontró que los científicos de datos de extremo a extremo eran más eficaces. Ahora, en lugar de organizar equipos de datos para la especialización y la productividad, Stitch Fix los organiza para aprendizaje y desarrollo de nuevos datos y productos algorítmicos .

El objetivo de la ciencia de los datos no es ejecutar. Más bien, el objetivo es aprender y desarrollar nuevas capacidades empresariales. ... No hay planos; estas son nuevas capacidades con incertidumbre inherente. ... Todos los elementos que necesitarás deben ser aprendidos a través de la experimentación, el ensayo y el error, y la iteración. – Eric Colson

Sugiere que los roles de la ciencia de los datos deben ser más generales, con amplias responsabilidades agnósticas a la función técnica y optimizadas para el aprendizaje. Así, su equipo contrata y crece generalistas que pueden conceptualizar, modelar, implementar y medir. Por supuesto, esto depende de una sólida plataforma de datos que abstrae las complejidades de la configuración infra, el procesamiento distribuido, el monitoreo, el failover automatizado, etc.

Los científicos de datos de extremo a extremo mejoraron las capacidades de aprendizaje e innovación de Stitch Fix, permitiéndoles descubrir y construir más capacidades de negocio (en relación con un equipo especializado).

Netflix Edge Engineering inicialmente tenía funciones especializadas. Sin embargo, esto creó ineficiencias a lo largo del ciclo de vida del producto. Las liberaciones de código tomaban más tiempo (semanas en lugar de días), los problemas de implementación tomaban más tiempo para detectar y resolver, y los problemas de producción requerían múltiples comunicaciones de ida y vuelta.

El desarrollo de ciclo completo se habilita a lo largo de todo el ciclo de vida del software ( fuente )

Para apoyar los desarrollos de ciclo completo, los equipos centralizados crearon herramientas para automatizar y simplificar el proceso de desarrollo común (por ejemplo, construir e implementar tuberías, monitorear, gestionar retrocesos). Esta herramienta es reutilizable en múltiples equipos, actúa como un multiplicador de fuerza, y ayudó a los desarrolladores a ser eficaces a lo largo de todo el ciclo.

Con el enfoque de desarrollador de ciclo completo, Edge Engineering fue capaz de iterar más rápido (en lugar de coordinar entre equipos), con despliegues más rápidos y más rutinarios.

Pruébalo.

Puede que no seas de extremo a extremo ahora. Eso está bien—pocas personas lo están. No obstante, considera sus beneficios y acércate más a ellos.

¿Qué aspectos mejorarían desproporcionadamente su capacidad de entregar como científico de datos? ¿Un mayor compromiso con los clientes y las partes interesadas para diseñar soluciones más holísticas e innovadoras? ¿Construyendo y orquestando sus propios conductos de datos? ¿Una mayor conciencia de las limitaciones de la ingeniería y de los productos para acelerar la integración y el despliegue?

Escoge uno y pruébalo. Después de mejorar, intenta otra cosa. Hazme saber cómo va en el tweet o comentarios a continuación!

Adición: Aclaración de la intención de este puesto

Un par de meses después de publicar esto, me doy cuenta de que algunos lectores interpretan este post desde la perspectiva de habilidades y conocimientos técnicos. Ellos ven este post como presionar para que los científicos de datos / ingenieros de ML sean completos y tengan un conocimiento profundo de cómo establecer K8s, hacer investigación a nivel de doctorado, diseño front-end, etc. Eso es. no Mi intención.

En lugar de eso, estoy tratando de convencer a ese extremo visibilidad, cohesión (es decir, inversión) Ley de Conway ), y propiedad conduce a mejores resultados. Aunque la visibilidad debe combinarse con la capacidad de hacer un impacto, para empezar, es suficiente para poder utilizar las herramientas sin ser capaz de configurarlo tú mismo. Los científicos de datos eficaces que conozco son usuarios de potencia de sus herramientas, incluso sin ser capaz de configurarlo desde cero (aunque estoy seguro de que pueden recogerlo rápidamente).