¿Cómo aprendería la ciencia de los datos si tuviera que empezar de nuevo?

Lecciones aprendidas de mi recorrido por la ciencia de los datos

Yo diría que mi trayectoria de aprendizaje de la ciencia de los datos era bastante tradicional. Hice mi licenciatura en economía y tengo maestría en comercio global y ciencias de la computación (concentración en aprendizaje automático e inteligencia artificial). Aprendí mi perspicacia empresarial a partir de mis cursos durante mi grado de comercio y recogí la mayoría de los elementos técnicos de mi maestría en CS. Tuve una pasantía en ciencias de datos, y estaba en camino.

Mirando hacia atrás, no había nada malo en mi camino, pero sabiendo lo que hago ahora, ¿qué cambiaría acerca de mi viaje de aprendizaje? Esta pregunta es particularmente relevante para las personas que son nuevas en el campo. Muchas cosas han cambiado desde que empecé. Las posiciones son más competitivas y hay muchas más opciones de aprendizaje. Espero que mi experiencia pueda ayudar a otros a aprender la ciencia de los datos más rápido, más completamente, y darles mejores oportunidades de trabajo.

Voy a advertir a este artículo diciendo que el aprendizaje es un poco diferente para todos. Mi palabra no es evangelio, y hay una buena posibilidad de que encuentres algo que funcione un poco mejor para ti. Sin embargo, espero que este sea un buen fundamento para construir. Espero que inculque en ustedes las grandes prioridades que son relevantes a la hora de aprender este campo.

Este artículo se centra más en cómo aprender que en dónde aprender (cursos, campos de entrenamiento, grados, etc.). Recomiendo estos dos artículos para cursos específicos y recursos en línea para aprender el campo.

Lección 1: Derríbalo

Cuando empecé a aprender ciencia de datos estaba abrumado con el tamaño del campo. Tuve que aprender lenguajes de programación y conceptos de estadísticas, álgebra lineal, cálculo, etc. Cuando me enfrenté a estas muchas opciones, no sabía por dónde empezar.

Afortunadamente para mí, tenía cursos para guiar mis estudios. Los grados que hice descomponeron muchos de los conceptos en trozos más pequeños (clases) por lo que eran digestibles. Mientras esto funcionó para mí, encuentro que las escuelas tienen un enfoque único para todo esto. También incluyen muchas clases extrañas que en realidad no necesitas. Si pudiera volver, definitivamente podría romper mi viaje de aprendizaje de la ciencia de datos en trozos mejor adaptados para mí.

Antes de sumergirse en la ciencia de los datos, tiene sentido entender los componentes que se utilizan en el campo. En lugar de dividir las cosas en “cursos”, puedes convertir la ciencia de los datos en trozos aún más pequeños y más digeribles.

Al dividir la ciencia de los datos en sus componentes, se transforma de ser un concepto abstracto en pasos concretos.

Lección 2: Comience en alguna parte

Cuando estaba empezando, estaba obsesionado con aprender cosas en la secuencia “correcta”. Después de entrar en el campo, descubrí que muchos científicos de datos aprendieron sus habilidades en órdenes drásticamente diferentes. Conocí a los doctores que habían estudiado las matemáticas primero, y sólo aprendí los conceptos de programación después de tomar un campo de entrenamiento. También conocí ingenieros de software que eran programadores increíbles, y aprendí las matemáticas más tarde a través de auto estudio y aplicación.

Ahora me doy cuenta de que es más importante empezar en alguna parte, preferiblemente con un tema en el que usted está interesado. Descubrí que el aprendizaje es aditivo. Si aprendes una cosa, no estás renunciando a aprender otro concepto.

Si tuviera que volver atrás, comenzaría con los conceptos que eran más interesantes para mí en ese momento. Una vez que aprendas un solo concepto, puedes construir sobre ese conocimiento para entender a los demás. Por ejemplo, si aprendes una regresión lineal simple, una regresión lineal múltiple es un paso bastante fácil.

Sin embargo, probablemente no saltaría directamente y empezaría con el aprendizaje profundo. Ayuda a empezar de pequeño y simple y construir sobre esa base.

Lección 3: Construir conocimientos mínimos viables (MVK)

Con el tiempo, he tenido un cambio de opinión sobre cuánto conocimiento fundacional necesitas. Después de experimentar muchos tipos diferentes de aprendizaje yo mismo, creo que aprender haciendo proyectos del mundo real es la manera más efectiva de captar un campo. Creo que deberías entender lo suficiente de estos conceptos para poder empezar a explorar tus propios proyectos.

Aquí es donde entran en juego los conocimientos mínimos viables. Usted debe comenzar por aprender lo suficiente para ser capaz de aprender a través de la práctica. Esta etapa es bastante difícil de identificar. Generalmente, sentirá que no está listo cuando llegue aquí por primera vez. Esto es una buena cosa, sin embargo, significa que usted está empujando a sí mismo fuera de su zona de confort.

Para llegar a este paso, todo lo que realmente necesita entender es lo básico de la pitón o R y tener una familiaridad de los paquetes utilizados. Usted puede empezar a aprender las matemáticas más tarde mediante la aplicación de algunos de los algoritmos a los datos del mundo real.

Lección 4: Ensucie sus manos

Con sus conocimientos básicos, recomiendo entrar en proyectos lo más rápido posible. De nuevo, esto suena aterrador, pero un proyecto se trata de cómo lo defines.

En las primeras etapas, un proyecto podría ser algo tan simple como experimentar con un bucle for. A medida que progresas, puedes graduarte en proyectos usando datos de kaggle, y eventualmente usando datos que hayas recopilado.

Soy un gran creyente de que la mejor manera de aprender la ciencia de los datos es hacer la ciencia de los datos. Creo que la teoría es MUY importante, pero nadie dice que tienes que entenderlo todo antes de empezar a aplicarlo. La teoría es algo a lo que puedes volver después de tener una comprensión funcional de los algoritmos. Para mí, los ejemplos del mundo real siempre fueron lo que hizo que las cosas hicieran clic. Si empiezas con los ejemplos del mundo real a través de proyectos, creo que las cosas tienen una probabilidad mucho mayor de que las cosas “hagan clic” cuando empiezas a aprender la teoría.

Los proyectos también tienen el poder de reducir la ciencia de los datos. Uno de los mayores desafíos que veo para los nuevos estudiantes es que el campo de la ciencia de datos puede ser abrumador. Confinar las cosas que estás aprendiendo al tamaño de un pequeño proyecto te permite romper las cosas aún más lejos de lo que lo hiciste en Lección 1 .

Los proyectos ofrecen un beneficio adicional. Te dan retroalimentación inmediata sobre dónde necesitas mejorar. Si usted está trabajando en un proyecto y se encuentra con un bloqueo sobre qué paquete, algoritmo o visual utilizar, ahora usted sabe que probablemente debería estudiar más a fondo esa área del campo.

Lección 5: Aprenda del código de otras personas

Mientras que hacer sus propios proyectos es genial, a veces no sabes lo que no sabes. Recomiendo encarecidamente pasar por el código de los científicos de datos más experimentados para obtener ideas sobre qué aprender a continuación y para entender mejor la lógica o la sintaxis.

En Kaggle y GitHub hay miles (quizás millones) de núcleos donde la gente ha compartido el código que utilizó para analizar conjuntos de datos. Ir a través de estos es una gran manera de complementar sus proyectos.

Recomiendo hacer una lista de los paquetes, algoritmos y visuales que ves siendo usados. Usted debe ir a la documentación para los paquetes y ampliar sus conocimientos allí. Casi siempre tienen ejemplos en los documentos de cómo deben ser utilizados. De nuevo, esta lista se puede utilizar para ayudarle a pensar en nuevas ideas de proyectos y experimentos.

Lección 6: Construir algoritmos desde cero

Este es un rito de paso para la mayoría de los científicos de datos. Después de haber aplicado un algoritmo y entender cómo funciona en la práctica, recomiendo tratar de codificarlo desde cero. Esto le ayuda a entender mejor las matemáticas subyacentes y otros mecanismos que hacen que funcione. Al hacer esto, sin duda usted tendrá que aprender la teoría detrás de ella también.

Personalmente creo que aprender en esta dirección es mucho más intuitivo que tratar de dominar la teoría y luego aplicarla. Este es el enfoque que Fastai ha tomado con su mooc libre. Lo recomiendo encarecidamente si usted está interesado en el aprendizaje profundo.

Para esto, recomiendo generalmente comenzar con regresión lineal. Esto le ayudará a entender mejor el descenso de gradiente, que es un concepto extremadamente importante para construir.

A medida que avanzas en tu carrera científica de datos, creo que la teoría se vuelve cada vez más importante. Usted aporta valor haciendo coincidir el algoritmo correcto con el problema. La teoría asociada con el algoritmo facilita enormemente este proceso.

Lección 7: Nunca deje de aprender

La belleza del viaje de la ciencia de los datos es que nunca termina. Usted tendrá que seguir aprendiendo a mantenerse al tanto de los nuevos paquetes y avances en el campo. Recomiendo hacer esto a través de (lo adivinaste) más proyectos. También recomiendo continuar con la revisión del código y la lectura de la nueva investigación que se publica.

Esto es más una recomendación de mentalidad que cualquier cosa práctica. ¡Si crees que hay un pináculo, te sorprendes!