¿Qué tiene de difícil la ciencia de los datos?

En este blog voy a resumir los 3 desafíos más difíciles que me enfrenté haciendo mi primer proyecto de Ciencia de Datos en este cuaderno de Kaggle :

No sabes nada.
La preparación de los datos es crítica y requiere mucho tiempo
Interpreta tus resultados

Las opiniones son mías.

Antes de entrar en detalles, hay una parte esencial que la gente parece pasar por alto durante las explicaciones, o simplemente son parte de sus pequeños códigos de fragmentos. Para que pueda utilizar cualquiera de las bibliotecas avanzadas, tendrá que importarlas a su espacio de trabajo. Es mejor recogerlos en la parte superior de su libro de ejercicios.

Seré generoso. Dado mi curso de estadística en la Universidad hace 8 años, al entrar en este proyecto ya conocía el 10% de ese modelo de regresión. Eso significa que sabía que el 0,25% de todo el cuerpo de conocimiento que sé está ahí fuera. A continuación, añadir una gran cantidad de cosas que no sé que no sé.

Mi universo de conocimiento en Ciencia de Datos se ve algo así:

Como que no es lo suficientemente malo, usted encontrará artículos como estos , describiendo exactamente todas sus deficiencias.

Este proyecto actual me tomó alrededor de 4 semanas y vamos a decir que es una tasa bastante media de aprendizaje de nuevos modelos de ciencia de datos. Me llevará alrededor de 4 / 0,25% = 800 semanas para aprender todos los modelos que he oído hasta ahora y probablemente añadir otras 5 veces ese tiempo para aprender (probablemente ni siquiera cerca de) todo en el campo de la ciencia de los datos.

Lástima que toda mi experiencia previa sea en SQL y Data Scientifics son grandes fans de Pandas. Son tan amantes de los animales.

El desafío aquí es doble: 1) Saber qué hacer, 2) Saber cómo hacerlos.

Incluso con la ayuda que se describe a continuación, la parte de preparación de datos toma alrededor del 80% de su tiempo o más.

Saber qué hacer

Las formas de manipular sus datos para estar listos para la ingestión en sus modelos son infinitas. Va a la parte inferior profunda de las Estadísticas y usted tendrá que entender esto a fondo si usted quiere ser un gran Data Scientist.

Esté preparado para correr a través de estos pasos muchas veces. Voy a dar un par de ejemplos que han funcionado para mí en cada paso.

Cuestiones relativas a la calidad de los datos limpios

El tamaño de la muestra de datos que le permite probablemente debería deshacerse de cualquier valor de NaN en sus datos. No pueden ser ingeridos por el modelo de regresión. Para encontrar la proporción de valores de NaN por columna, use esto:

Tenga en cuenta cómo es importante devolver también la lista de lambdas que fueron utilizados por la transformación de la caja de cox. Los necesitarás para invertir tus coeficientes cuando estés interpretando los resultados.

Normalización

El escalador estándar asume que sus datos ya están normalmente distribuidos (ver ejemplo de transformación de la caja de arriba) dentro de cada característica y los escalará de tal manera que la distribución ahora se centra alrededor de 0, con una desviación estándar de 1.

Mi ejemplo completo a continuación:

Crear variables simuladas

Sus variables categóricas pueden contener parte de la información más valiosa en su conjunto de datos. Para que una máquina los entienda, es necesario traducir cada valor único a una columna con 0 o 1.

1 si es ese valor, 0 si no lo es.

Hay varias maneras de hacer esto. He utilizado el siguiente método:

Multicolinealidad

Puedes comprobar si algunas de tus variables de entrada tienen una correlación entre ellas antes de ponerlas en tu modelo.

Puede comprobar la multicolinealidad como mi ejemplo a continuación y tratar de eliminar algunas variables que no cree añadir ningún valor adicional.

Saber cómo hacerlos

Los fundamentos deben tomar alrededor de 6-8 semanas en promedio de acuerdo a este post .

Por lo tanto, ni siquiera he aprendido a lo básico todavía con mis 4 semanas de experiencia. Además de esa debilidad, estoy tratando de añadir un par de diferentes paquetes de biblioteca especializada en la parte superior, como Nacida en el mar , Sklearn , y Pandas .

“Son fundamentales, independientemente del proyecto que hagas”.

Gracias por todos los ingenieros de Stackoverflow y autoedición que hay, salvaste muchas horas de mi vida.

La salida fácil para mí era tomar una medida de la fuerza relativa de la relación con el precio de la lista, en lugar de comentar sobre el valor real de los coeficientes. Puedes ver los resultados en mis imágenes.

La solución más adecuada es invertir su cox de la caja y otras transformaciones de nuevo a la normalidad, por ejemplo.: