¿Cómo se completa un proyecto de ciencia de datos?

Los proyectos científicos son esenciales para cualquier persona que irrumpa en el campo y para construir una cartera personal. No importa si usted es un principiante absoluto o un profesional experimentado, un enfoque lógico ayudará a que sus proyectos se conviertan en un éxito. Este post describe un sencillo método de siete pasos que puedes aplicar a tus proyectos para abordarlos con confianza.

El método es el siguiente:

Declaración de problema
Recopilación de datos
Limpieza de datos
Análisis de datos exploratorios (EDA)
Ingeniería de Característica
Modelización
Comunicación

¡Está bien! Así que esa es la metodología. Ahora vamos a entrar en más detalles sobre cada uno de estos pasos y abordarlos con consejos y trucos útiles.

Ya sea un problema de negocios o un proyecto personal en el que está trabajando, un problema bien definido puede ahorrarle mucho tiempo y problemas. El objetivo de una declaración de problema es declarar el problema que usted está tratando de resolver claramente. Si se hace bien, se puede definir en un par de frases.

Recuerde que su declaración de problema tiene que ser SMART .

Específico: La declaración del problema tiene que ser detallada y específica para el problema que usted está resolviendo.
Medible: ¿Hay alguna métrica que pueda rastrear para que pueda saber si tiene éxito al final del proyecto?
Medidas: ¿Qué acciones específicas puede tomar para resolver su problema?
Relevante: Hay múltiples maneras de resolver un problema, pero se centran en el método más relevante.
Plazo : ¿Ha añadido una restricción de tiempo a cuando su problema debe ser resuelto?

e.g. ¿Cómo puede XYZ reducir sus tasas de fallo por debajo del 5% a finales de año, a través de la fabricación y el análisis del rendimiento del producto?

Una declaración de problema que sigue a SMART guía le establecerá en una pista exitosa para cumplir con su objetivo final. Más importante aún, después de haber terminado la declaración del problema, usted tendrá una idea mucho mejor de los detalles más finos de su proyecto.

Reunión de datos es el proceso de recopilación y medición de información sobre variables específicas de interés en un sistema organizado, que luego le permite responder a las preguntas pertinentes y decidir los resultados futuros.

Algunos ejemplos de métodos de recopilación de datos son los siguientes:

Una institución gubernamental
Kaggle
Servidor de bases de datos de la empresa
Datos autorecopilados

No importa de dónde obtenga sus datos, TENGA EN CUENTA:

Asegúrese de que sus datos son Relevante y Validado . Si sus datos no son adecuados para el problema que está resolviendo, sus resultados serán inútiles sin importar lo bueno que sea su modelo. s ¡La calidad es clave!

La recopilación de datos puede tomar tiempo, así que no se apresure a este paso!

Alrededor del 80% de su tiempo se dedicará a la limpieza de datos. ¡No puedes pasar por alto este paso!

La limpieza de sus datos es un proceso para asegurarse de que sus datos están en el formato correcto; consistente y los errores se identifican y tratan adecuadamente.

Las siguientes acciones conducen a un conjunto de datos más limpio:

Eliminar los valores duplicados ( Este suele ser el caso cuando se combinan múltiples conjuntos de datos )
Eliminar observaciones irrelevantes ( observaciones tienen que ser específicos para el problema que está resolviendo )
Validar ( ¿Los datos tienen sentido? ¿Los datos se adhieren a las reglas de negocio definidas? )

La limpieza de sus datos permitirá obtener información de mayor calidad y, en última instancia, conducirá a una decisión más concluyente y precisa.

Como el nombre sugiere, durante la EDA, se obtiene una comprensión más profunda de los datos. Durante este paso, usted desea entender sus datos características estadísticas , crear visualizaciones , y hipótesis de ensayo .

Multivariado no gráfico: técnicas que muestren la relación entre dos o más variables. (por ejemplo: covarianza, correlaciones)
Gráfico multivariado: mostrar gráficamente la relación entre dos o más variables. (por ejemplo: parcelas de bar, scatterplots)

Recuerde que el objetivo de EDA es encontrar patrones subyacentes dentro de los datos, detectar valores atípicos y suposiciones de prueba con el objetivo final de encontrar un modelo que se ajuste bien a los datos.

Una característica es un atributo de un conjunto de datos que es útil para el problema que está resolviendo . Si una característica no tiene ningún impacto en el problema que está resolviendo, no es parte del problema.

Entonces, ¿qué es la ingeniería de características?

Ingeniería de largometrajes se define como el proceso de transformación de datos brutos en características que representan mejor el problema subyacente a los modelos predictivos, lo que resulta en una mayor precisión del modelo en datos no vistos.

Cuanto mejores sean las características que creas y elijas para tus modelos predictivos, mejores serán tus resultados. La ingeniería de la característica es un arte donde se descomponen o agregan, los datos brutos para ayudar a resolver su problema; sin embargo, hay muchos enfoques a este proceso.

La ingeniería de características es un proceso iterativo. Puede parecer algo así:

Brainstorm presenta ideas.
crear características basadas en el problema ( e.g. extracción/construcción de características )
elegir características basadas en las puntuaciones de importancia de las características
Calcular la precisión del modelo utilizando las características elegidas en datos invisibles.
Repita los pasos hasta que se elija un modelo adecuado.

Todos los modelos de aprendizaje automático se clasifican como Supervisado o Sin supervisión problema de aprendizaje.

A S El problema de upervised es donde una función mapea una entrada a una salida basada en pares de entrada-salida. El modelo de aprendizaje automático aprende de los datos de entrenamiento input-output para hacer predicciones sobre datos invisibles (datos de prueba). Una U Problema nsupervisado es donde un modelo busca patrones dentro de un conjunto de datos sin etiquetar.

Los problemas de aprendizaje supervisados se etiquetan como Regresión ( variable de salida es un valor real) o Clasificación (la variable de salida es una categoría) problema—más sobre la diferencia entre ellos aquí . Puede identificar qué métrica/métrica usará para comparar la precisión de los modelos mediante el etiquetado de su problema.

Preprocesamiento

El primer paso es dividir sus datos en conjuntos de datos de trenes y pruebas . Esto es importante, ya que no desea contaminar los datos de entrenamiento con los datos de prueba.
El segundo paso es: Estandarizar o normalizar sus datos si el algoritmo del modelo es sensible a datos no escalados.
Para el tercer paso, los datos de formación y pruebas deben ser: dividido en la variable de destino ( lo que estás tratando de predecir ) variables predictoras ( las características que está utilizando para predecir la variable de destino ).

Modelos de aprendizaje automático

Como se mencionó anteriormente, los modelos de aprendizaje automático se clasifican como supervisados o no supervisados. Voy a esbozar algunos modelos que se utilizan en estas categorías.

Después de la construcción de algunos modelos de aprendizaje automático, el los modelos necesitan ser entrenados afinando los hiperparametros optimizar el rendimiento del modelo. Los hiperparametros son parámetros utilizados para controlar el proceso de aprendizaje y reducir una función de pérdida predefinida. Por comparando las métricas predefinidas para cada modelo , se puede elegir un modelo óptimo.

Por último, es esencial comunicar sus resultados. Esto se puede hacer a través de un presentación, informe oficial o incluso un blog post . El punto es que el mundo tiene que ver el increíble trabajo que has hecho. Algunos puntos clave para recordar:

No atestigüe sus diapositivas (6 artículos máx.)
Uso visualizaciones pertinentes
Conoce a tu público
Asegúrese de que fluye

La ciencia de los datos se trata de comunicar bien sus resultados. Hazlo con pasión, usa un enfoque de narración y muestra a tu audiencia por qué tus hallazgos son tan interesantes.

He intentado crear una guía adaptable para cualquier proyecto de ciencia de datos. Si crees que me he perdido algún paso importante, por favor deja un comentario.