¿Cómo documenta un proyecto de ciencia de datos?
Como tal, no dejes que la documentación te arrastre hacia abajo. Se producirán limitaciones de tiempo. Cuando aparezcan, no comprometas la calidad de tus modelos y sistemas. Pero es generalmente aceptable dejar que se deslice algo de calidad en su documentación (especialmente si poco después lo limpia).
3. Mantenlo sencillo... pero no demasiado sencillo.
Relacionado con el punto anterior, si documentas más de lo que se necesita, estás quitando tiempo a tu modelo. De hecho, al leer cada una de estas mejores prácticas, omita artículos que no satisfagan sus necesidades específicas.
Sin embargo, por otro lado, si usted es demasiado ligero en su documentación, usted acumulará deuda técnica con los sistemas que usted no entiende cómo mantener. Las ineficiencias pueden ralentizar su ritmo, regulaciones y políticas podrían ser olvidadas inadvertidamente, y el caos puede suceder.
En resumen, encontrar el equilibrio adecuado.
Documentación del proyecto de ciencia de datos
Teniendo en cuenta estos principios, pasemos a documentar tu plan.
4. Comience su proyecto con un propósito claro
Uno de los esfuerzos más frustrantes y derrochadores es desarrollar algo que nadie realmente necesita. Y sin embargo, todos somos víctimas de esto a veces (sé que lo he hecho, al menos).
Para ayudar a mitigar este riesgo, inicie cualquier proyecto con un propósito claro. Para lograr esto:
- Documentar los objetivos de negocio del cliente.
- Defina cómo su proyecto de ciencia de datos satisfará sus necesidades.
- Establezca una visión para su proyecto o producto para que pueda dirigir al equipo en la dirección correcta.
- Definir claro métricas de evaluación para que pueda determinar objetivamente si el proyecto tuvo éxito.
- La realización de un análisis costo-beneficio puede ayudar a determinar la marcha/no marcha del proyecto y el establecimiento de prioridades con respecto a otros posibles proyectos.
- Documentar lo que eres no buscando lograr (más allá del alcance de su proyecto).
5. Desarrollar un plan de proyecto inicial suficiente
El plan del proyecto abarca muchos de los elementos mencionados anteriormente, como la visión y el propósito. También será más completo, definiendo temas como...
- Hitos – Proyectados entregables incluyendo sus fechas generales entregables
- Presupuesto – ¿Cuánto esfuerzo requerirá el proyecto? / ¿Cuánto dinero puede gastar el equipo del proyecto?
- Riesgos y contingencias – ¿Qué podría salir mal? ¿Cómo mitigará estos riesgos potenciales?
No vaya por la borda, pero planifique lo suficiente por adelantado para que pueda ejecutar su proyecto de manera más eficiente. Generalmente, debe comenzar con una comprensión sólida del trabajo inicial del proyecto y la meta final deseada. Definir las dependencias clave y los riesgos que caen en el medio. La mayoría de la mitad de su plan de proyecto sólo puede ser marcadores de posición que se actualizará a medida que se procede.
Además, no te enamores de tu plan. Se equivocará. Acéptalo y prepárate para flexionar el plan a lo largo del proyecto para cumplir con las realidades en evolución que encuentres.
El plan del proyecto debe escalarse con el tamaño y la complejidad de un proyecto. Incluso para un proyecto pequeño y simple, anotar algunas consideraciones básicas y una lista de procesos podría ayudarle a conceptualizar su enfoque. Mientras tanto, los esfuerzos más grandes deberían tener planes más completos.
Un artefacto clave relacionado es un proyecto o producto Hoja de ruta . Esto traza cómo cada uno de sus entregables previstos evolucionará en y cumplir con su visión deseada del producto. Una buena hoja de ruta es ligera y encaja bien en una diapositiva o página web.
Un artefacto que acompaña a la hoja de ruta del producto es el retraso del producto. Este es un artefacto clave que Scrum y Recorte accionado por datos los equipos usan para hacer un seguimiento de las ideas entregables. Un formato preferido para cada elemento atrasado es el formato de la historia del usuario.
6. Considere un documento de diseño de ciencia de datos
Una visión alternativa desde el plan del proyecto es un documento de diseño de ciencia de datos que Vincent compara con un faro que te guía hacia un destino específico. Esboza un documento de diseño de la ciencia de datos con:
- Objetivos
- Producto mínimo viable
- Investigación y exploración
- Hitos y resultados
Ya hemos cubierto la mayoría de los conceptos. Pero el nuevo aquí para detallar es el M inimum V iable P roduct (MVP) que es la próxima versión de su producto de ciencia de datos que le permite aprender más sobre el espacio del problema con el menor nivel de esfuerzo. Esto podría ser, por ejemplo, un modelo offline de una sola vez que predice un subconjunto del espacio del problema en general. A partir de ahí, se puede extender este modelo a un conjunto más amplio de casos de uso, y la transición a un modelo que se ejecuta de forma continua.
7. Escribir historias de usuarios de ciencia de datos
Con frecuencia debe generar ideas para desviables e ideas y entregar a aquellos con el mayor valor en relación con el esfuerzo esperado. Una gran manera de organizar estas ideas es en historias de usuarios que son declaraciones cortas, a menudo con algunos detalles que acompañan, como criterios de aceptación o enlaces a requisitos más exhaustivos.
Un formato típico de la historia del usuario se indica desde la lente de la parte interesada. Identifica quién la parte interesada es, ¿Qué? les gustaría recibir, y ¿Por qué? les gustaría ser entregados.
Ejemplo de historia de usuario de ciencia de datos
Como a alguien se le niega una tarjeta de crédito
Me gustaría recibir un correo electrónico oportuno que describe brevemente las principales razones por las que se me negó
Para que pueda entender la razón detrás de la negación
Este formato proporciona numerosos beneficios:
- Las historias de usuarios son fáciles de entender.
- Las historias de usuarios te obligan a mirar los entregables desde la lente de las partes interesadas.
- La naturaleza corta de las historias ayuda a facilitar la priorización y las conversaciones de seguimiento.
Tenga en cuenta que las historias de los usuarios pueden eliminar algunas de las cargas de la documentación detallada, pero no lo reemplazarán. Por ejemplo, los evaluadores de software tendrán que desarrollar una biblioteca de casos de uso de pruebas. La legislación podría necesitar documentación detallada para cumplir con las normas. Y su contrato de proyecto podría incluir un acuerdo de nivel de servicio.
Documentación del modelo de ciencia de datos
Hemos cubierto los principios rectores y algunos documentos para apoyar el plan del proyecto. Centrémonos ahora en la documentación del modelo de ciencia de datos.
- ¿Cómo alteró los datos (transformaciones, imputaciones, otras técnicas de limpieza de datos aplicadas, etc.)
- ¿Dónde se encuentran los datos?
- ¿Con qué frecuencia se actualizan los datos?
- ¿El uso de datos es compatible con los acuerdos de usuario, las mejores prácticas de privacidad de datos y las regulaciones pertinentes? (si no, no lo uses)
- ¿Qué protecciones de seguridad dispone de datos en reposo y datos en movimiento para garantizar el cumplimiento y la privacidad de los datos?
La documentación de datos ayudará de muchas maneras. Estas dos últimas preguntas ayudan a garantizar que los datos se utilicen ética y responsablemente (Related: 10 Cuestiones éticas de la ciencia de los datos ). Además, los problemas de datos, los análisis exploratorios de datos y las correcciones pueden ayudarle a solucionar problemas durante la fase de modelado. Incluso más ampliamente, la documentación ayudará a otros que podrían querer utilizar los mismos datos para usos futuros. Un diccionario de datos es una gran manera de fomentar la reutilización de datos y hacer cumplir los estándares de datos.
9. Documente su diseño experimental
Pasando a algo que está cerca del corazón de cada científico de datos – el método científico. Este proceso central se ejecuta a través del ciclo de hacer una hipótesis, ejecutar un experimento y medir los resultados. La mayoría de los proyectos de ciencia de datos también fluirán a través de estos pasos, a menudo en bucle a través de ellos varias veces. Documentar cada uno de los siguientes antes de ejecutar el experimento (quizás como detalle de acompañamiento en una historia de usuario).
- Su hipótesis testable
- Las suposiciones que hiciste
- La variable de destino
- La división de control/prueba
- El conjunto de validación
- (si procede) La ventana temporal de experimentación
Al final del experimento (y posiblemente en puntos de control ocasionales durante el mismo), documentar los resultados, tanto desde una perspectiva estadística como de impacto empresarial. Utilice esta información para guiar el diseño de posibles experimentos de seguimiento y el trabajo del proyecto.
10. Documentar los algoritmos
Como parte de la documentación de su modelo de ciencia de datos, debe documentar los algoritmos utilizados.
Una gran práctica es también incluir técnicas que usted intentó pero decidió no utilizar. Esto le ayudará a mirar hacia atrás y hacer un seguimiento de las decisiones que tomó. También te ayudará a compartir conocimientos con otros miembros de tu equipo y a educarlos.
Para muchos casos de uso, es posible que también desee documentar los controladores más grandes para el modelo. A veces incluso es requerido por la ley. Por ejemplo, las compañías de tarjetas de crédito en los EE.UU. necesitan explicar por qué a un solicitante se le negó una tarjeta de crédito. En este escenario, tendrás que detallar por qué el modelo tomó cada decisión específica. Incluso si no se requiere legalmente, documentar los controladores de modelos puede ayudar. Por ejemplo, a un equipo de retención le gustaría saber más que sólo la probabilidad de que un cliente se mueva, pero también ¿Por qué? Ellos podrían tirarse.
Documentación de sistemas de apoyo
11. Documentar el código
¿Cómo funciona tu código? Puedes explicarlo claramente justo después de escribirlo. Pero eso podría ser difícil en un año a partir de ahora cuando usted retoca su tubería de datos o reentrena el modelo. Incluso será más difícil si usted está recogiendo el código de alguien más que recientemente dejó su equipo.
Usted siempre debe comentar su código para ayudar a construir una base de código mantenible. Para la documentación del proyecto de ciencia de datos de Python, use # para comentarios de una sola línea y “” para comentarios de varias líneas para aclarar cualquier cosa potencialmente ambigua como el propósito de una variable o una función.
Wikis, archivos README, documentos de Word o documentos de Google Docs también pueden ser grandes maneras de proporcionar documentación más alta a nivel de proyecto. Sin embargo, si sigue esta ruta, asegúrese de actualizar estos documentos con cualquier actualización considerable a la base de código.
12. Documentar la infraestructura
Si usted está entregando análisis de una sola vez, usted podría omitir esto. Pero los modelos de grado de producción lo necesitarán. De hecho, por a Documento de investigación de Google , la gran mayoría del código en un sistema de aprendizaje automático proviene de la infraestructura de apoyo.
La documentación de la infraestructura ayudará con el mantenimiento del sistema preventivo y del sistema de corrección.
Mantenimiento preventivo: El software envejece. Las nuevas amenazas a la seguridad surgen todo el tiempo. Modelos y datos se derivarán. Documentar la mejor manera de mantener el sistema con antelación lo mantendrá funcionando sin problemas. Considere documentar artículos como...
- Cómo escalar su sistema para soportar un mayor uso de productos (podría planificarse de antemano o de forma automática)
Mantenimiento correctivo: Su sistema probablemente fallará en algún momento. Y si (cuando) lo hace, le darás las gracias a la persona que ha reunido esta documentación para que estés preparado con una respuesta.
13. Construir documentación de usuario
¡No olvides a tus usuarios! Más bien, asegúrese de que saben cómo usar su sistema.
Si tienes una interfaz de usuario, una gran práctica es poner un enlace de menú de ayuda en la parte superior derecha de la pantalla para que el usuario pueda navegar para encontrar elementos como:
- ¿Cómo controlo la visualización?
- ¿Cuáles son las definiciones de las medidas y dimensiones clave?
- ¿Cuándo está disponible el sistema?
- ¿Dónde denuncio un fallo o solicito una función de producto?
Otra salida común para un modelo es a través de una API. En este caso, escriba documentación técnica para que los ingenieros receptores puedan construir encima de su API. Incluya elementos como definiciones, puntos finales, parámetros, formatos de datos y tiempos de respuesta.
Plantillas de documentación de proyectos de ciencia de datos
14. Coger una plantilla preconstruida
Hay algunas plantillas que pueden ayudarte a empezar.
- CRISP-DM: CRISP-DM es el ciclo de vida de la ciencia de datos más común y define una serie de documentos que debe desarrollar a lo largo de un proyecto de minería de datos. Advertencia – estos documentos tienden a una visión más tradicional de la documentación extensa, y (dada la edad de CRISP) la Guía CRISP-DM carece de las mejores prácticas modernas de despliegue. Usted puede visitar la página Github de Patiegm para un práctico Plantilla de documentación CRISP-DM .
- Lista de comprobación científica de datos: Las listas de verificación son una gran manera de identificar lo que hay que hacer y hacer un seguimiento del estado de cada tarea. Como tal, considere nuestra lista de verificación del proyecto de ciencia de datos .
15. Construir su propia plantilla de documentación de ciencia de datos
La realidad es que sus necesidades de proyecto, equipo y organización se desviarán de las plantillas anteriores. Como tal, use estos como puntos de partida para crear sus propias plantillas de documentación científica de datos.
¡Felicidades! Llegaste al final. Pero tu trabajo acaba de empezar. Recuerde que estas mejores prácticas de documentación de proyectos de ciencia de datos no se aplican a todas las circunstancias. Y su situación probablemente requerirá algunas prácticas adicionales no mencionadas aquí. Así que para repasar:
- Conoce a tu público
- Mantenlo sencillo, pero no demasiado sencillo.
- Documente su plan
- Documente su modelo
- Documente su sistema
- Construye y personaliza tus propias plantillas
La mejor de las suertes y Extender la mano si usted tiene algunos punteros adicionales que usted encontró útil.
Artículos Relacionados: