¿Cuántos meses para completar el curso de ciencias de datos?
El viaje de cada uno para convertirse en un científico de datos es diferente, y la curva de aprendizaje variará dependiendo de muchos factores, incluyendo disponibilidad de tiempo, conocimiento previo, las herramientas que utilice, etc. Una estudiante compartió su historia sobre cómo se convirtió en científica de datos en 6 meses con Dataquest. Así es como comenzó su viaje:
Como sugiere el título, este es un proyecto de análisis de mi viaje de Dataquest que me permitió aprender Ciencia de Datos en menos de 6 meses. Estoy muy emocionado de haber terminado este proyecto justo antes del año nuevo. ¿Cuál es una mejor manera de enviar fuera del año que una mirada exhaustiva hacia atrás?
Veo gente de todo el mundo haciendo todo lo posible para aprender y progresar cada día. Así que mi incentivo para hacer este proyecto no sólo es volver a visitar mi viaje, sino animar a los principiantes dándoles un vistazo en el camino por delante. Pero por favor tenga en cuenta que el tiempo y el esfuerzo para completar este camino es altamente relevante para situaciones personales. Explicaré el mío más adelante en este artículo.
Antes de entrar en los detalles de cómo pasé de cero habilidades de codificación a científico de datos en 6 meses, primero quiero compartir mis hallazgos.
Las preguntas que se contestan en este proyecto:
- ¿Cuántos días me tomó terminar este camino? (tiempo, incluyendo intervalos que no gasté en estudiar)
- 175 días . Del 19 de junio al 11 de diciembre.
- ¿Cuál es mi mejor racha de aprendizaje y racha promedio de aprendizaje?
- Mi mejor racha de aprendizaje fue 20 días , y 6,6875 días en promedio . Desde mi experiencia personal, es importante entrar en el surco y seguir adelante. Tuve un descanso de una semana en octubre, y me tomó otra semana volver a la misma eficiencia de aprendizaje que antes.
- ¿Cuánto tiempo se gastó en total?
- El total de horas gastadas en terminar el camino fue 306,4 horas . Esto significa que si estudié 24/7, el camino podría estar terminado en Aproximadamente 13 días . En lugar de eso, me llevó 175 días . Estoy seguro de que los robots se ríen de nosotros los humanos.
- ¿Cuántas horas pasé en promedio en las semanas que estudié?
- Suponiendo que yo estudiara 5 días a la semana en promedio , en el 24 semanas Estudié, habría estudiado para 120 días . Esto significa que gasté 3 horas al día estudiar en Dataquest en promedio. Eso suena bien, pero ten en cuenta que es una estimación aproximada. Además pasé bastante tiempo en la comunidad y leyendo materiales curriculares, esos no se cuentan en este proyecto.
- ¿Cuál es el tiempo promedio empleado para terminar una lección?
- 111,43 minutos , en otras palabras, cerca de 2 horas . Parece que se necesita mucho tiempo para terminar una lección. Pero esto también incluye el tiempo dedicado a proyectos guiados, que consumen mucho más tiempo que simplemente aprender lecciones. No es raro pasar días en un proyecto guiado. Desearía tener más datos granulares sobre el tiempo dedicado a cada lección para poder ver el tiempo promedio dedicado a proyectos y misiones no relacionadas con proyectos, pero no sé si esos datos existen.
- ¿Cuáles son los topes de velocidad en el plan de estudios?
- Pasos 2, 4, 5, 6 Tardaron más semanas que otros en terminar. Entre ellos, Pasos 2 y 6 tener el mayor número de misiones, Medida 2 También tiene el mayor número de proyectos guiados. Eso hace que Pasos 4 y 5 los pasos más largos de todos. Entre los dos, El paso 4 lleva más tiempo que el paso 5 . Lo que refleja mi memoria bastante bien. En el paso 4, la parte que toma mucho tiempo fue SQL , y en el paso 5, fueron los cursos en probabilidad .
Ahora, un poco de contexto sobre mis situaciones personales de aprendizaje:
- Comencé el Ruta del científico de datos en Python el 19 de junio, y lo terminé el 11 de diciembre. Aunque no pasé mucho tiempo en las últimas dos semanas, se dedica principalmente a terminar dos últimos proyectos guiados (cuentos como dos lecciones) y proyectos extracurriculares. Esa es probablemente la razón por la que no conseguí ningún progreso de aprendizaje correos electrónicos después de la última de noviembre.
- Solía ser un gerente de cuenta de marketing digital y tenía casi cero habilidades de codificación. Aprendí los fundamentos de Python de un curso de ciencia de datos en Udemy durante un par de semanas justo antes de decidir cambiar a Dataquest.
- Terminé el curso de aprendizaje automático de Andrew Ng en Coursera unas semanas antes de comenzar el camino. Aprendí Octave básica durante ese curso.
- Actualmente estoy desempleado, así que tengo mucho tiempo libre para aprender.
Una mirada más de cerca al proyecto
A) Recopilación de datos (análisis de correo electrónico y raspado de páginas web)
Los datos que utilicé en este proyecto se recopilan de dos fuentes:
- Los datos de progreso en este proyecto provienen del correo electrónico de realización semanal que recibo de Dataquest los lunes si hice suficiente progreso la semana anterior. Se compone de:
- fecha: recepción de la fecha del correo electrónico — siempre un lunes
- missions_completed: número de lecciones completadas
- mission_increment_pct: porcentaje de aumento/disminución en comparación con la semana pasada sobre el número de lecciones aprendidas
- minutes_spent: minutos dedicados al aprendizaje
- minutes_increment_pct: porcentaje de aumento/disminución en comparación con la semana pasada en los minutos pasados
- learning_streak(días): número de días consecutivos dedicados al aprendizaje
- best_streak: mejor racha de aprendizaje
- Para obtener los correos electrónicos semanales, primero creé una etiqueta en mi Gmail para agrupar los correos electrónicos que quiero y luego fui a Google para llevar para descargarlos. Puede elegir el formato de archivo en el proceso — lo que había descargado era un archivo.mbox. Python tiene una biblioteca para analizar este tipo de archivo llamado buzón . Encontrará el código utilizado en este proyecto en el enlace GitHub al final del post. (Una captura de pantalla del correo electrónico de logro semanal está a continuación)
- Los datos curriculares de este proyecto provienen del panel de Dataquest para la ruta Data Scientist. Consta de 8 pasos, 32 cursos y 165 lecciones, incluyendo 22 proyectos guiados en orden jerárquico. Como se mencionó al principio del post, Usé Selenio y ChromeDriver por primera vez. La página del tablero donde reside la información del currículo contiene una cuadrícula de pasos y listas colapsables de cursos y misiones; hubo auto-login y muchos clics involucrados. Probablemente escribiré otro artículo sobre el raspado de esta página más adelante.
B) Imputación de datos
El conjunto semanal de datos de correo electrónico en este proyecto es muy pequeño, con sólo 16 filas que contienen datos de 16 semanas. Pero mi período de aprendizaje fue de hecho 26 semanas. Hubo semanas en las que no estudié en absoluto, pero aún así, para un conjunto de datos tan pequeño, realmente no puedo permitirme perder 10 semanas de datos.
Por suerte, en el perfil página, Dataquest proporciona la curva de aprendizaje a lo largo de una ruta. Así que se me ocurrió una estrategia de imputación: rellenar los espacios en blanco cuando sea posible, trazar los datos existentes luego comparar con la curva de aprendizaje generada Dataquest, e integrar con mi experiencia personal (por ejemplo, imágenes y recuerdos de tomar vacaciones y flojo ) para imputar el número de lecciones perdidas datos completados. Luego imputar los minutos pasados sobre la base de los minutos promedio pasados en una lección. Es más detallado en el proyecto.
C) Visualizaciones en este proyecto:
Yo lo usé. Plotly para trazar todas las visualizaciones en este proyecto. Estoy bastante contento con la trama de Horas Pasadas vs Misiones Completada a continuación. Me ayudó a hacer algunas observaciones interesantes y respondió a las preguntas relacionadas con el plan de estudios al comienzo de este post. De nuevo, puedes leer los detalles en el enlace GitHub al final del post.
Para compartir las parcelas en posts como este, también probé Estudio de gráficos . Las parcelas de abajo son de la nube del estudio de gráficos e incrustadas usando el html generado del estudio de gráficos.
- Mi curva de aprendizaje
- Horas semanales y el número correspondiente de lecciones completadas y los pasos a los que pertenecen
- Número de lecciones y proyectos guiados en cada etapa de aprendizaje
- Tabla curricular completa de la ruta Data Scientist en Python en Dataquest
Aparte de responder a todas las preguntas al comienzo de este proyecto. También quiero añadir a los principiantes de este curso que lo que he hecho en este proyecto es más recopilación de datos, limpieza de datos, e imputación, que usted aprenderá en los primeros cuatro pasos. ¡Eso significa que estarán equipados para hacer todo esto a la mitad a través del camino de los científicos de datos!
P.D.: Si alguien tiene más preguntas sobre este proyecto o el camino científico de datos de DQ, siéntase libre de preguntarme en los comentarios o contactarme en [email protected] . Haré todo lo posible para responder a su pregunta.
Comunidad de la Dataquest
Un miembro de la Comunidad de Dataquest contribuyó con este artículo. Dataquest Direct es su amigable revista escolar para leer artículos escritos por sus pares en la Comunidad de Ciencia de Datos. Súbete a ver algunos escritos largos y reflexivos creados por nuestra increíble comunidad de estudiantes de Ciencia de Datos.
Artículos Relacionados: