¿Es difícil la ciencia de los datos para los estudiantes que no son CS?
Harvard Business Review describió a Data Science como el trabajo más sexy del siglo XXI.
Data Science trata de manipular fuentes de datos grandes y no estructuradas y crea ideas a partir de ellas.
Data Scientist se ha convertido en una de las disciplinas más buscadas en nuestro mundo de aumentar los datos. Y los científicos de datos parecen provenir de los diversos antecedentes educativos. A pesar de que la gente hace preguntas como,
“¿Puede alguien de un fondo de ciencia no-computadora ser un científico de datos?”
“¿Cómo puedo ser un científico de datos con antecedentes no informáticos?”
Las preguntas más comunes de algunos aspirantes a científicos de datos. De hecho, las mismas preguntas que googleé hace 7 meses.
Hay tanta gente de diversos orígenes tratando de conseguir este trabajo más caliente. Algunos de ellos piensan que este trabajo es para gente de la ciencia de la computación. Mis estudios están en Finanzas y Contabilidad. Cuando empecé a pensar en una carrera en ciencia de datos, tenía un montón de preguntas volando sobre mi cabeza. ¿Qué lenguaje de programación tengo que aprender? ¿Qué fuente en línea me ayudará a aprender a programar? etc..
Pensé que sería mejor que obtuviera respuestas para estas preguntas de personas que actualmente están trabajando como científicos de datos y de los antecedentes de ciencias no informáticas. Pero no pude conectarme con nadie así para despejar mis dudas.
Cuando me encontré con el Kaggle Data Science & Machine Learning Survey 2018 , decidí hacer un análisis exploratorio de los datos. Especialmente, sobre las respuestas de personas que ya trabajan como científico de datos y con una especialización en ciencias no informáticas. Este es mi primer proyecto independiente de análisis de datos. Haciendo este análisis, yo estaba tratando de narrar algunas maneras que podrían ayudar a los científicos de datos aspirantes sin un fondo de la ciencia de la computación para lograr su sueño.
Tipos de científicos de datos
La ciencia de los datos es un campo complejo y a menudo confuso. La ciencia de los datos combina varias disciplinas, como la estadística, el análisis de datos, el aprendizaje automático y la informática. De acuerdo con una característica artículo En Udacity, hay cuatro tipos de trabajos de ciencia de datos.
1. El analista de datos
Hay algunas empresas donde ser un científico de datos es sinónimo de ser un analista de datos. Su trabajo puede consistir en tareas como extraer datos de bases de datos SQL, convertirse en un maestro de Excel o Tableau y producir visualizaciones básicas de datos y paneles de información. En ocasiones puede analizar los resultados de una prueba A/B o tomar la iniciativa en la cuenta de Google Analytics de su empresa.
2. El ingeniero de datos
Algunas empresas llegan al punto en que tienen un montón de tráfico (y una cantidad cada vez mayor de datos), y comienzan a buscar a alguien para configurar una gran parte de la infraestructura de datos que la empresa necesitará para avanzar. También están buscando a alguien que proporcione análisis. Verá las publicaciones de trabajo en la lista de “Data Scientist” y “Data Engineer” para este tipo de posición. Puesto que usted sería (uno de) los primeros contratos de datos, las estadísticas pesadas y la experiencia de aprendizaje automático es menos importante que las habilidades de ingeniería de software fuertes.
3. El ingeniero de aprendizaje automático
Hay una serie de empresas para las que sus datos (o su plataforma de análisis de datos) es su producto. En este caso, el análisis de datos o el aprendizaje automático pueden ser bastante intensos. Esta es probablemente la situación ideal para alguien que tiene una formación formal de matemáticas, estadísticas o física y espera continuar por un camino más académico.
4. El Generalista de la Ciencia de los Datos
Muchas empresas están buscando a un generalista para unirse a un equipo establecido de otros científicos de datos. La empresa que está entrevistando para preocupaciones sobre los datos, pero probablemente no es una empresa de datos. Es igualmente importante que pueda realizar análisis, tocar código de producción, visualizar datos, etc.
“Algunas de las habilidades ‘generalistas de datos’ más importantes son la familiaridad con herramientas diseñadas para ‘grandes datos’ y la experiencia con conjuntos de datos desordenados y ‘reales’”.
Nota: A lo largo de este análisis, Data Scientists se refiere a las personas que respondieron a su título o rol actual como científico de datos, analista de datos o ingeniero de datos en la encuesta.
Se asume ampliamente que usted necesitará una educación formal en Ciencias de la Computación para seguir una carrera en ciencias de datos. La definición y la descripción del trabajo de los científicos de datos varían de una empresa a otra. Pero está claro que un científico de datos debe ser capaz de manipular datos grandes y no estructurados y crear ideas a partir de ellos. Los estudios han demostrado que los científicos de datos provienen de diversos orígenes.
De las 23859 respuestas en la encuesta Kaggle 2018, El 25% de los encuestados trabajan actualmente como científicos de datos .
Creo que usted tiene la respuesta a la primera pregunta.¿Puede alguien de un fondo de ciencia no-computadora ser un científico de datos?
¡Por supuesto, sí!
El 67% de los científicos de datos provienen de ciencias sin ordenador. Son de diversos orígenes como ciencias sociales, matemáticas y estadísticas, disciplinas empresariales, bellas artes, humanidades, etc.
Es hora de saber cómo convertirse en un científico de datos sin una especialización en ciencias de la computación.
1. Averigüe si realmente es para usted
Sabemos que los científicos de datos son de diversos orígenes educativos. Antes de buscar cómo aprender las habilidades necesarias, asegúrese de que es realmente para usted. Requiere el aprendizaje continuo y la práctica de conceptos complejos. Vamos a conocer a los científicos de datos seleccionados en detalle.
Educación
Identificamos un conjunto de científicos de datos de trabajo con una especialización en ciencias no informáticas de los datos de la encuesta de kaggle. Son 4073 en total. ¿Qué hay de su nivel más alto de educación formal?
El 95% de los científicos de datos tienen al menos una licenciatura.
Actividades importantes como científico de datos
Es importante saber las actividades diarias que tendrá que hacer en su trabajo una vez que sea un científico de datos.
Las actividades importantes de un científico de datos son: analizar y entender los datos para influir en las decisiones de productos o negocios . Junto con, es posible que tenga que hacer lo siguiente:
- Construir prototipos para explorar la aplicación del aprendizaje automático a nuevas áreas
- Cree y/o ejecute un servicio de aprendizaje automático que mejore operativamente mi producto o flujos de trabajo
- Cree y/o ejecute la infraestructura de datos que mi negocio utiliza para almacenar, analizar y poner en funcionamiento los datos
- Hacer una investigación que avance el estado del arte del aprendizaje automático
Tiempo dedicado a la codificación
El 58% de los científicos de datos utilizan más de la mitad de su tiempo para codificar activamente . Si quieres ser un científico de datos, es obvio que tendrás que pasar algún tiempo codificando.
Herramientas primarias e IDE
Más de la mitad de los científicos de datos utilizan entornos de desarrollo locales o alojados como R Studio, Jupyter Lab, etc.
El 35% de los científicos de datos utilizan Jupyter Notebook/ IPython y RStudio.
Idiomas de programación
Python toma la posición de liderazgo entre los científicos de datos . El 70% de los científicos de datos utilizan cualquiera de Python, SQL y R para la programación. El 78% de los científicos de datos utilizan Python o R regularmente en el trabajo.
Python es el lenguaje más popular entre los científicos de datos. ¿Qué lenguaje de programación recomendarían como científico de datos aspirante a aprender primero?
¡Sí, es Python!
Datos Los científicos que utilizan R más a menudo también recomiendan fuertemente Python para aprender primero.
Si todavía necesitas una carrera en Ciencia de Datos, mejor empieza con el aprendizaje de Python.
2. Adquirir habilidades adicionales
A pesar de que usted no es de un fondo de la ciencia de la computación, usted puede saber algunos lenguajes de programación. Comprende qué habilidades tienes y qué no. Hay muchas maneras de ganar conocimiento y construir una carrera en ciencia de datos, incluyendo cursos en línea, blogs, videos de YouTube y más.
Plataformas de aprendizaje en línea
- Coursera
Coursera los cursos duran aproximadamente de cuatro a diez semanas, con una a dos horas de video conferencias a la semana. Estos cursos ofrecen cuestionarios, ejercicios semanales, tareas con calificación de pares y, a veces, un proyecto o examen final. También se ofrecen cursos bajo demanda, en cuyo caso los usuarios pueden tomarse su tiempo para completar el curso con todo el material disponible a la vez.
- Datacamp
DataCamp es una plataforma de aprendizaje de la ciencia de los datos en línea flexible en el tiempo que ofrece tutoriales y cursos en ciencia de los datos. Puedes aprender idiomas como Python y R. Además de tutoriales puedes hacer proyectos en DataCamp. Esta es una de mis plataformas favoritas para aprender ciencia de datos.
- Udemy
Udemy es una plataforma de aprendizaje. A diferencia de los programas académicos MOOC impulsados por cursos colegiados tradicionales, Udemy ofrece una plataforma para expertos de cualquier tipo para crear cursos que se pueden ofrecer al público, ya sea sin cargo o por una cuota de matrícula. Udemy proporciona herramientas que permiten a los usuarios crear un curso, promoverlo y ganar dinero con los gastos de matrícula de los estudiantes.
- edX
edX es un Massive Open Online Course (MOOC) proveedor. Los cursos pueden consistir en contenido de vídeo y texto, foros de discusión, y una serie de tipos de problemas y evaluación. La mayoría de los cursos de edX son totalmente gratuitos y la mayoría también ofrecen una pista de certificado verificada opcional por una tarifa que varía por curso.
- Udacity
Udacity se construye con especializaciones temáticas llamadas “Nanogrados”, y cada una de estas pistas están en colaboración con grandes empresas y proyectos de ML, como Amazon, Google, IBM Watson, etc.
Udacity es una buena plataforma en general, y hacen un gran trabajo ayudando a los estudiantes a construir una cartera durante cada programa.
- Kaggle Learn
Kaggle aprender es un curso práctico gratuito que cubre los requisitos mínimos necesarios para comenzar rápidamente en el campo. todo se hace usando los núcleos de Kaggle. Esto significa que puedes interactuar y aprender.
El 80% de los científicos de datos han utilizado al menos una plataforma en línea de Coursera, DataCamp, Udemy, Udacity, edX y Kaggle Learn. Más de la mitad de ellos han pasado la mayor parte de su tiempo aprendiendo de Coursera y DataCamp.
Otras fuentes en línea
El campo de la ciencia de los datos es amplio y en constante evolución. Tanto si eres estudiante como si eres un nuevo profesional que trabaja en el campo de la ciencia de los datos, algunos recursos son valiosos para descubrir las últimas oportunidades de empleo, encontrar tutoriales para los procesos y sistemas que utilizas a diario, aprender hacks y trucos para mejorar tu rendimiento y conectarte con otros profesionales de tu campo.
Obtendrá grandes historias y actualizaciones sobre la ciencia de los datos de Media, Foros Kaggle, blog de KDnuggets, etc.
Su conocimiento sobre la ciencia de los datos necesita ser actualizado. Puede obtener conocimientos sobre el tema de la ciencia de los datos siguiendo los medios de comunicación como foros de Kaggle, medio, blog de KDnuggets, etc. Siempre es mejor seguir múltiples medios.
3. Proyectos de extremo a extremo
La adquisición de conocimientos básicos de análisis y programación, y la certificación del curso no es suficiente para conseguir un trabajo. Hacer proyectos en el mundo real ayuda a aumentar tu conocimiento e iniciar tu carrera en ciencia de datos.Al mostrar estos proyectos en tu cartera, los reclutadores pueden evaluar fácilmente tu potencial. El primer paso es encontrar un conjunto de datos con el que trabajar. Usted puede descargar un montón de conjuntos de datos públicos de varios sitios.
Los científicos de datos se ocupan de diferentes tipos de datos como, numérica, categórica, series temporales, texto, etc. Si usted encuentra conjuntos de datos públicos la mayoría de los conjuntos de datos serán cualquiera de estos tipos. Estos proyectos pueden incluir, datos de limpieza, forcejeo de datos, formación de un modelo con aprendizaje automático, creación de visualizaciones, etc. Pero esto sin duda aumentará sus habilidades de ciencia de datos.
Si le preguntamos a los científicos de datos acerca de hacer proyectos, la mayoría de su opinión es que el proyecto independiente es importante más que los logros académicos.
El factor importante que te resaltará como científico de datos son los proyectos que has hecho.
Conclusión
La ciencia de los datos es interesante, a la vez que una carrera desafiante.No importa de qué nivel educativo eres. Si quieres seguir una carrera en ciencias de datos, adquiere las habilidades que no tienes y realiza proyectos en el mundo real para pulir tus habilidades. La parte importante es mostrar tus habilidades a través de proyectos.
Escoge un tema sobre el que tengas curiosidad, cava más profundo, ensucia tus manos con datos.
Artículos Relacionados: