¿Por qué es tan difícil entrar en la ciencia de los datos?

Primeros pasos de la ciencia de los datos

Con la popularidad y la demanda de los científicos de datos, y el bien documentado escasez de mano de obra calificada , más gente está interesada en la ciencia de los datos como una carrera. Con el tiempo, he recibido un número cada vez mayor de preguntas sobre cómo empezar como científico de datos. Al igual que muchos otros papeles, conseguir el primer trabajo es típicamente el más difícil, ya que tener alguna experiencia bajo su cinturón es obligatorio para muchos empleadores. Esto puede crear una captura viciosa 22: ¿cómo consigues tu primer trabajo si todos requieren experiencia previa?

En este post, voy a tratar de darle algunos consejos — basados en mi propia experiencia en la ciencia de datos hace varios años, y mi experiencia actual gestionando un departamento de ciencia de datos, entrevistando a docenas de candidatos y revisando cientos de solicitudes cada año.

Desde mi experiencia, las personas que intentan comenzar una carrera en ciencias de datos pueden dividirse en tres grupos relativamente distintos. Es importante identificar cuáles de estos son los más similares a, con el fin de averiguar sus mejores pasos a continuación.

  • El cambio de carrera STEM — Se trata de personas con un título académico avanzado en un campo técnico/científico que pueden tener ya varios años de experiencia laboral en un campo adyacente. A medida que el bombo alrededor de la ciencia de los datos ha crecido, han empezado a considerar la opción de la transición. Típicamente tienen un fuerte fondo de matemáticas e investigación y pueden seguir el álgebra lineal y las estadísticas detrás de los modelos de aprendizaje automático. Tienen experiencia leyendo artículos académicos y no se sienten intimidados por las fórmulas. Sus habilidades transferibles pueden ayudarles a convertirse en buenos científicos de datos relativamente rápidamente.
  • El nuevo graduado de la ciencia de los datos — Aunque ha tomado unos años, las universidades han comenzado a atender la demanda de la industria y varias facultades están ofreciendo ahora programas de MSc en ciencia de datos. Dependiendo de la universidad, estos podrían incluir los departamentos de estadística, ingeniería eléctrica o ingeniería industrial. Aunque estos grados no pueden cubrir todo, se están convirtiendo rápidamente en un estándar de oro para el entrenamiento integral de ciencia de datos que un campamento de arranque de 3 o 6 meses no puede cumplir. Un buen programa también incluirá una tesis (y publicación/s), que da al empleador la oportunidad de discutir su trabajo con mayor detalle. Cada vez que entrevisto a nuevos graduados me sumerjo profundamente en su tesis, asegurándome de que entiendan enfoques alternativos, discutan por qué tomaron ciertas decisiones y averigüen cómo manejan la retroalimentación. Debido al alcance de una tesis, por lo general es una gran manera de evaluar cómo alguien realiza la investigación y lo bien que realmente saben su material, de una manera que un proyecto de Kaggle que hizo hace un tiempo no puede lograr.
  • El optimista — Esta es una persona que no ha pasado por una formación formal en ciencia de datos ni tiene un amplio historial estadístico/math. Pueden tener varios años de experiencia en análisis de datos dentro de una vertical específica (finanzas, asistencia sanitaria, etc.) y quieren complementar sus habilidades actuales para pasar gradualmente a un papel de ciencia de datos. En el pasado, varias personas se dirigieron a mí para consultar sobre su posibilidad de ser un científico de datos en fintech o algún otro vertical específico. Mientras que la perspicacia empresarial y la experiencia en la vertical es importante, esta es la mentalidad mental equivocada. La similitud entre los roles de la ciencia de datos en varias verticales es significativa: las herramientas y algoritmos resuelven problemas matemáticos genéricos, no específicos de la vertical. Es más fácil enseñar a un buen científico de datos sobre un nuevo dominio que formar a un analista de negocios con conocimientos de dominio cómo programar, enseñarles estadísticas y aprendizaje automático. Si usted quiere ser un científico de datos — usted quiere ser justo eso, no un fintech científico de datos.

Si usted ha leído hasta aquí, usted sabe probablemente que hay una gran cantidad de cursos en línea que enseñan todo lo relacionado con la ciencia de los datos. Aunque esos cursos son fundamentales y ofrecen un montón de contenido, la gran mayoría trata de dar la información más práctica lo más rápido posible. Esto típicamente significa que vas a aprender un montón de modelos de aprendizaje automático, pero sólo obtener la explicación de 30K pie de cómo el algoritmo realmente funciona. Muchos cursos no complicarán las cosas con matemáticas complejas para que puedan permanecer accesibles a una audiencia tan grande como sea posible. Si bien es definitivamente posible entrenar modelos y ‘hacer ciencia de datos’ sin entender las complejidades del algoritmo, sus capacidades serán limitadas. Con la tendencia de recogida automática de ML , conectar un algoritmo y probar algunas opciones estándar no requerirá un científico de datos en un futuro próximo. Al igual que muchas otras profesiones, los científicos de datos también tendrán que mantener una ventaja sobre los sistemas automatizados para mantener sus trabajos, lo que típicamente significará una comprensión mucho más profunda de los algoritmos.

Debido a la naturaleza muy accesible de la formación en ciencias de los datos y a la falta de cualificaciones estándar requeridas para practicar la ciencia de los datos, cualquier persona que haya cursado un curso de 50 horas puede autodesignarse como científico de datos. Al igual que en otros lugares, cuando una función está en alta demanda, la oferta aumentará para satisfacer la demanda y comenzará a aumentar la afluencia de nuevos candidatos. Para tener una oportunidad seria de hacerlo sobre el terreno, se requiere una inversión significativa de tiempo.

Hay diferentes maneras de obtener la experiencia y el conocimiento mínimos para obtener su primera posición en ciencia de datos. Al contratar para un puesto junior, el entrevistador va a buscar algunas cosas:

  • ¿Entiendes los fundamentos y la teoría del aprendizaje automático?
  • ¿Tiene las habilidades de codificación necesarias (generalmente Python o R)?
  • ¿Puede demostrar ambos puntos (por ejemplo. caminar la caminata, no sólo hablar de la charla)?

Como candidato, es necesario recordar que la función de pérdida de la empresa es asimétrica — la contratación de un mal candidato puede tener un resultado mucho peor que rechazar un buen contrato. Esto significa que las empresas van a ser cautelosas sobre tomar riesgos en alguien que carece de un historial. Usted necesita ayudar al gerente de contratación tanto como sea posible para demostrar que usted es un contrato de bajo riesgo y alto potencial. Esto también significa que tus posibilidades pueden ser relativamente bajas y necesitas estar preparado emocionalmente para muchos rechazos antes de recibir una oferta.

Hay 3 maneras principales de obtener el conocimiento teórico y la experiencia necesaria para su primer papel, y se pueden combinar en varios métodos:

  • Máster (con tesis) - Como se mencionó anteriormente, este es probablemente el estándar de oro para el entrenamiento hoy en día. Aunque puede tomar de 1 a 2 años, es tiempo bien gastado, especialmente si estudia en una universidad bien conocida. Los pedigrees universitarios varían según la ubicación, por lo que ayuda a entender lo que se considera una buena universidad en sus alrededores.
  • Bootcamp — estos normalmente se ejecutan de 3 a 6 meses para programas inmersivos a tiempo completo y mucho más tiempo si son a tiempo parcial. Es mejor prestar mucha atención al incentivo financiero que tiene el programa con respecto a su futura carrera. En algunos campamentos de entrenamiento es muy sencillo — usted paga por el entrenamiento. Por otro lado, los mejores campamentos también ofrecerán acuerdos de renta compartida. En este escenario, después de que el campo de entrenamiento está completo les pagas un porcentaje de tu salario sólo si está por encima de un umbral. El acuerdo suele estar en vigor durante 2-4 años y tiene un límite máximo (por ejemplo: 1.5-2X el costo inicial de la matrícula). En Israel, CCI y Datos Y operar de esta manera y poner un mayor énfasis en ayudar a sus estudiantes a obtener su primer papel. Otros campos de entrenamiento funcionan manteniéndote en su nómina durante 2 años después del período de entrenamiento, durante el cual trabajas en un proyecto para sus empresas clientes (p. ej. Experis Academy en Israel). El campo de entrenamiento paga su salario directamente y embolsa la diferencia entre él y su cuota de outsourcing, mientras que típicamente ofrece al empleado una cláusula de salida (que cubre sus gastos de capacitación). En términos generales, estos campos de entrenamiento cubren una amplia gama de temas e incluyen conocimientos teóricos de aprendizaje automático, habilidades de codificación, estadísticas y (al menos uno) proyecto capstone. Como usted puede entender, diferentes campos de entrenamiento tienen varios niveles de incentivo para asegurar su colocación exitosa después de su entrenamiento. En algunos casos, puede valer la pena invertir el tiempo en un campo de entrenamiento, incluso si una buena parte del material ya se conoce sólo para beneficiarse de su ayuda en el aterrizaje de la primera posición.
  • Cursos en línea: la cantidad y calidad de estos cursos ha sido transformadora, lo que ha permitido a cualquier persona de todo el mundo aprender de los mejores expertos. El hecho de que este contenido de alta calidad sea ahora libremente accesible para cualquier persona ha reducido drásticamente la barrera a la entrada. En un nivel muy alto se pueden separar estos cursos en dos tipos: cursos de introducción que tratan de cubrir un poco de todo en el aprendizaje automático, y cursos más avanzados que se sumergen más profundamente en áreas específicas. Varios de los populares cursos de introducción se pueden completar en menos de 80 horas de esfuerzo dedicado. Aunque esto requiere dedicación (especialmente para algo que hace esto en la parte superior de un trabajo de tiempo completo), es una inversión de tiempo relativamente trivial en comparación con muchas otras profesiones de alto sueldo (por ejemplo,. pensar en el tiempo necesario para convertirse en piloto, abogado o médico). He visto algunos solicitantes que ponen abajo El infame curso de aprendizaje automático de Andrew Ng como su único entrenamiento en el campo. Estoy de acuerdo en que es un gran curso (fue el primero que tomé al pasar a la ciencia de datos), pero definitivamente no fue suficiente para calificar como científico de datos. Deberías ser muy cauteloso de cualquier curso que diga enseñarte el A-Z de ML. Podrían ser una gran introducción al campo, pero deberías tratarlos como el primer paso en un largo viaje.

El cambio de carrera STEM — De los tres caminos este es probablemente el más rápido, y si inviertes suficiente tiempo, tus posibilidades de éxito son bastante buenas. Además, cuanto más cerca esté de la ciencia de los datos, mejor. Dependiendo de sus antecedentes, es posible que ya tenga la mayoría de los antecedentes matemáticos y la necesidad de invertir más en sus habilidades de programación. Como empleador, discutir la tesis o disertación de alguien puede ayudar a mostrar lo bien que captan temas de investigación complejos. ¿Pueden meterse en la maleza y retroceder hasta 30 mil pies rápidamente? ¿Realmente entienden por qué tomaron decisiones diferentes o usaron ciertos algoritmos? ¿Qué valor podría tener su investigación? Si bien las fuertes capacidades de investigación no son suficientes para un científico de datos, comprobar estas marcas puede ayudar a des-riesgo un nuevo candidato, especialmente uno con experiencia directa limitada en el campo. Como alguien que pasó por este camino hace varios años (mi MSc estaba en física aplicada), sigo viendo cómo mi educación me da un punto de vista diferente en la resolución de problemas en comparación con los colegas con estudios de matemáticas, estadística, economía o biología.

Alguien que va a través de este camino también tiene el beneficio de ser capaz de recoger material más avanzado rápidamente. Una vez que te mojes los pies, querrás entender los algoritmos en gran medida y desarrollar una visión para los hiperparametros. Esto es mucho más fácil si usted está acostumbrado a las matemáticas avanzadas.

Consejo Pro — si usted es capaz de destacar la ciencia de datos / trabajo de aprendizaje automático que ha hecho antes de comenzar oficialmente como científico de datos, usted podría ser capaz de obtener años adicionales de su experiencia reconocida como relevante al negociar compensación. Si bien no desea embellecer su trabajo pasado, es útil señalar su experiencia de programación, análisis de datos, estadísticas avanzadas, diseño experimental, desarrollo de algoritmos u otros tipos de trabajo adyacentes.

El nuevo graduado de la ciencia de los datos — suponiendo que todavía tenga tiempo para completar sus estudios, busque cualquier actividad extracurricular que pueda ayudarle a adquirir experiencia. Idealmente, esto implicaría una pasantía dentro de un equipo de ciencia de datos. Uno de mis antiguos empleadores traía regularmente pasantes cada verano y hacía ofertas al final de la temporada a los más prometedores. Este fue un gran ganar-ganar y una gran parte de los contratos de la compañía llegó a través de ese programa. Si una pasantía no es posible, tu universidad puede tener un proyecto de capitalización en el que puedes invertir. En Riesgos hemos colaborado con una universidad local, dando a uno de sus equipos un proyecto abierto para trabajar con nuestra guía como su capital. Si los estudiantes invierten y hacen un trabajo realmente bueno (es decir, No sólo para aprobar su curso, pero algo que calificaría como buen trabajo en la empresa), podríamos estar interesados en contratar o al menos escribir una carta de recomendación para los futuros empleadores.

Consejo Pro — Al trabajar en la ciencia de los datos (como en casi cualquier carrera), necesitarás ser capaz de explicar cosas a personas fuera de tu dominio (nota de lado: nunca cometas el error de pensar que las personas no técnicas no son tan inteligentes como tú). Durante sus entrevistas, se le va a preguntar un poco sobre su tesis. Encuentre un amigo inteligente con conocimientos limitados en el aprendizaje automático para preguntarle sobre esto. ¿Puede explicarles lo que hizo y cómo fue diferente de las soluciones existentes? He entrevistado a varios graduados nuevos que podrían describir todos los detalles de su investigación, pero fueron perplejos por algunos de alto nivel, preguntas de introducción (por ejemplo,. ¿Por qué es importante esta investigación?).

Por último, no olvides que el éxito requiere aprendizaje permanente y que hasta ahora solo has completado una fase de tu formación. Seguir aprendiendo en el trabajo es igual de importante y puede ser más difícil, ya que no está tan estructurado.

Los optimistas — Hay mucha gente aprendiendo a convertirse en científicos de datos a través de cursos en línea y campos de entrenamiento. La competencia es dura y no vas a conseguir un trabajo en el campo después de invertir 80 horas. Los empleadores van a ver la duración de tus clases/bootcamp y lo familiares que son: los nanogrados en EdX o un bootcamp de 6 meses van a ser mucho más impresionantes que un solo curso en Udemy o Coursera.

En mi opinión, la ventana de oportunidad para la transición a la ciencia de los datos sin una amplia formación formal (por ejemplo, cursos en línea autodidactas) se está reduciendo. Si bien todavía es factible, es necesario darse cuenta de que hay un montón de personas con conocimiento superficial del campo y el aterrizaje de su primer trabajo requerirá mucho más (a septiembre de 2020 el curso de Andrew Ng ha tenido 3.5M estudiantes matriculados). Si quieres seguir por este camino, probablemente te llevará varios meses (leer: cientos de horas) de trabajo y proyectos prácticos con una buena dosis de suerte.

Consejo Pro — si es posible, considere los campos de entrenamiento que tienen un historial probado de ex-alumnos que comienzan posiciones de ciencia de datos (si su incentivo financiero depende de esto, aún mejor). Mientras que varios meses de estudio a tiempo completo podría ser más que la inversión que estaba considerando que podría hacer toda la diferencia.

Debido a la lenta pero constante tendencia de autoML, también significa que usted necesita seguir estudiando y aumentar su experiencia después de haber conseguido su primer papel. Siempre tienes que estar unos años por delante de la automatización y un poco de paranoia puede ser saludable para la seguridad laboral a largo plazo.

En comparación con otros altos ingresos, profesiones de alta demanda, usted no tiene que pasar varios años en la escuela de medicina o registrar mil horas de vuelo antes de que se le permite practicar la ciencia de datos. Si bien la demanda de científicos de datos es alta, la mayoría de esa demanda es para personas muy calificadas que pueden demostrar su valor. Es necesario tener en cuenta que a pesar de la falta de barreras regulatorias, las fuerzas del mercado todavía existen y las empresas no pagarán el mejor dólar por alguien con experiencia limitada. Más aún, los nuevos científicos de datos requieren mucha atención, capacitación y apoyo de científicos de datos más experimentados. Como los primeros meses son casi toda la inversión de la empresa, podría tardar un año hasta que la contribución de un nuevo científico de datos vuelva a cero. Paradójicamente, este problema se ve exacerbado por la falta de científicos de datos experimentados, que son realmente necesarios trabajando en problemas ahora y sólo pueden pasar una cierta cantidad de tiempo entrenando a nuevas personas.

No es un camino fácil, pero es definitivamente gratificante. El mundo necesita más grandes científicos de datos, así que llegar a él!

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +