¿Cuáles son las tres áreas principales incluidas en el conjunto completo de conocimientos científicos de datos?

En este artículo encontrarás:

  • ¿Qué habilidades se requieren para un científico de datos?
  • ¿Cuáles son las cualidades de un buen científico de datos?

Vamos a esbozar lo que la práctica de la ciencia de los datos cubre y esbozar la clave skillsets buscar candidatos en el trabajo o desarrollar en sus empleados.

Habilidades necesarias para ser un científico de datos

Antes de entrar en habilidades específicas, vamos a abordar algunas definiciones básicas.

¿Qué es un científico de datos?

El campo de la ciencias de los datos ha existido durante al menos una década en su forma actual. Uno pensaría que a estas alturas sería obvio lo que es y hace exactamente un “científico de datos”. En cierta medida, hay acuerdo sobre qué competencias y responsabilidades constituyen este papel.

Los científicos de datos son expertos en datos que tienen las habilidades analíticas y técnicas para explorar y resolver problemas empresariales complejos. Entre otras cosas, gestionan los datos y encuentran tendencias en ellos.

Durante el transcurso de un día típico, un científico de datos puede asumir muchos papeles diferentes desde ingeniero de software a minero de datos a comunicador de negocios.

En los últimos años, el rápido crecimiento de la inteligencia artificial y las aplicaciones de aprendizaje automático ha seguido desarrollando las competencias requeridas a un científico de datos.

El carácter variado de la ciencia de los datos, junto con el cambio continuo de los instrumentos técnicos, pueden dificultar la identificación de las aptitudes necesarias por parte de las organizaciones y los particulares.

Por esta razón, vemos que en muchos casos las descripciones de trabajo de los científicos de datos se centran demasiado en calificaciones muy específicas, lo que hace difícil que las habilidades de una persona coincidan con el trabajo. En otros casos, se está contratando a candidatos que carecen del nivel requerido para desempeñar funciones de ciencia de datos.

Así que es importante tener una comprensión de la fundación conocimientos de alfabetización en materia de datos – las habilidades “debe-tener” que son cruciales para construir un éxito Equipo de ciencias de los datos o convertirse en un científico de datos de primer nivel, independientemente de los nuevos desarrollos en el campo.

¿Qué es la ciencia de los datos?

La ciencia de los datos es un conjunto multidisciplinario de competencias y funciones. Implica, en mayor o menor medida, estadísticas, programación y conocimientos empresariales o industriales.

El objetivo de cualquier persona que trabaja en la ciencia de datos es descubrir patrones ocultos y percepciones de los datos.

A diferencia del “análisis de datos”, que normalmente se centra en explicar patrones en conjuntos de datos estructurados existentes, la ciencia de los datos hace predicciones y decisiones sobre el futuro sobre la base de patrones que aún no se han identificado en cualquier tipo de datos estructurados o no estructurados.

La ciencia de los datos, en esencia, se centra en descubrir respuestas a preguntas que una organización aún no ha pensado.

¿Qué hace un científico de datos?

Abajo hay un diagrama publicado en 2020 por IBM representación del flujo de trabajo de la ciencia de los datos. Datos Los científicos normalmente participan en todas estas actividades, cada una de las cuales requiere un conjunto de habilidades.

Primero entienden una oportunidad de negocio o contexto trabajando con la dirección.

Luego trabajan en toda la organización para identificar y descubrir múltiples fuentes de datos que se relacionan con el contexto empresarial de un proyecto.

Trabajar con las tecnologías de la información y la comunicación Ingenieros de datos se asegurarán de que sus fuentes de datos son lo suficientemente fiables como para basar las decisiones empresariales en.

Una vez que se limpian los datos necesarios y están listos para su uso, los científicos de datos construyen y capacitan modelos predictivos utilizando algoritmos y una variedad de técnicas de modelado.

Eventualmente, después de varias iteraciones, cuando un modelo es validado, y por lo tanto valioso para la organización, ellos ayudarán en el despliegue, o uso, del modelo en partes apropiadas de la organización.

A continuación, supervisarán estos modelos para el éxito y el rendimiento a lo largo del tiempo y garantizar que el modelo mantiene la precisión.

Finalmente, comunicarán cualquier hallazgo y resultado, generalmente a través de técnicas y herramientas de visualización.

Conocimientos básicos de la ciencia de los datos

Hay una larga lista de habilidades académicas, técnicas y blandas que pueden o no ser requeridas para cualquier papel de Data Scientist. Recursos básicos conocimientos científicos en materia de datos, Sin embargo, caen en tres cubos: matemáticas/estadísticas, programación/codificación, y habilidades de negocio/dominio.

Habilidades matemáticas

Las habilidades matemáticas pueden ser algunas de las competencias más difíciles de obtener para un equipo de ciencia de datos. La razón no está clara, pero a veces pensamos que es porque muchas matemáticas se enseñan teóricamente, pero la ciencia de los datos se trata de aplicar matemáticas. Las competencias en matemáticas en lo que se refiere a la ciencia de los datos se centran principalmente en las estadísticas, el álgebra lineal y el cálculo diferencial.

Estadísticas/probabilidad

La base de la ciencia de los datos implica métodos estadísticos descriptivos e inferenciales y la probabilidad. El conocimiento en estas áreas proporciona técnicas fundamentales a utilizar cuando se trabaja con datos. La estadística es el proceso de trabajo y análisis de un conjunto de datos para identificar características matemáticas únicas (es decir. medias o varianzas). Estas características permiten a los científicos de datos tomar decisiones basadas en esas características de datos.

Las estadísticas y la probabilidad son las más fundamentales conocimientos especializados en ciencias de los datos requerido para ser un científico de datos. Sólo algunas de las muchas habilidades requeridas en esta área incluyen:

  • Distribución de probabilidades
  • Significado estadístico
  • Pruebas de hipótesis
  • Regresión
  • Conceptos bayesianos
  • Teorema del límite central
  • Diseño experimental
  • Métodos de muestreo

Álgebra lineal

Muchos conceptos de aprendizaje automático están vinculados al álgebra lineal. Junto con el cálculo, el álgebra lineal forma la columna vertebral de los algoritmos, por lo que al menos se requiere una comprensión general de las funciones algebraicas de los científicos de datos. En el caso del ingeniero de aprendizaje automático o de alguien que trabaja con algoritmos de aprendizaje profundo, los conceptos de álgebra lineal son críticos.

Cálculo

Al igual que el álgebra lineal, el cálculo es un campo de matemáticas clave para los algoritmos de aprendizaje automático. Datos Los científicos lo utilizan en la máquina y el aprendizaje profundo para formular las funciones utilizadas para entrenar algoritmos para alcanzar su objetivo.

Entre las aptitudes relacionadas con la ciencia de los datos figuran las siguientes:

  • Cálculo univariado y multivariado
  • Derivados
  • Descenso gradual

Habilidades de programación

La codificación permite a un científico de datos convertir el conocimiento teórico (es decir, de las estadísticas) en aplicaciones prácticas. Ahora es ampliamente aceptado que cada científico de datos debe conocer Python. R es también una opción, pero está perdiendo terreno ante Python.

Una comprensión sólida de conceptos de programación, estructuras de datos como árboles y gráficos, y el conocimiento de algoritmos de uso común es necesario para hacer el trabajo.

Otras técnicas de programación fundamentales que un científico de datos debe conocer son:

  • Sintaxis básica y funciones
  • Declaración de control de flujo
  • Programación orientada a los objetos
  • Bibliotecas como Nuppy y Pandas
  • Documentación (lectura y escritura)

Capacidades empresariales/dominales

Con el fracaso de muchas iniciativas de ciencia de datos en los primeros días del big data, las organizaciones reconocen ahora que los científicos de datos deben tener una comprensión de conceptos básicos de negocios. También es muy recomendable que usted contrate o desarrolle científicos de datos que tengan algún conocimiento o experiencia en su industria particular.

Este es un argumento para construir su equipo de ciencia de datos mediante el desarrollo de empleados internos que ya tienen experiencia de dominio y contexto.

En cualquier caso, los científicos de datos deben estar dispuestos y capaces de enmarcar su trabajo en el contexto de los objetivos estratégicos de negocio de una empresa.

9 Principales habilidades en ciencia de datos

Además de estos amplios cubos de competencias básicas, hay otra capa o lista de habilidades debajo de estas que normalmente redondean el “top” conocimientos especializados en ciencias de los datos la mayoría de los equipos de datos necesitan. A menudo se dividen en conocimientos técnicos y no técnicos.

Conocimientos científicos de datos técnicos

Rastreo de datos

(Fuente: I2tutorials)

El forcejeo de datos constituye una serie de tareas que pueden tomar la mayor parte del tiempo de un científico de datos. Es fundamental que un científico de datos sea experto en tareas de forcejeo de datos porque es a menudo durante esta fase que se hacen descubrimientos importantes.

En todos los proyectos de ciencia de datos, los datos deben ser cazados de una variedad de fuentes, combinados y formateados de tal manera que sean lo suficientemente fiables como para usarlos para la toma de decisiones. Este proceso de múltiples pasos se llama forcejeo de datos.

  • Comprender la pregunta empresarial y aclarar los aspectos de datos relacionados, como los tipos de datos a recopilar y el marco temporal.
  • Reunión de datos, que implica solicitar y acceder a diversas bases de datos en toda la organización.
  • Preparación de datos (limpieza) que implica la manipulación y limpieza de datos y el tratamiento de anomalías como valores y valores atípicos y redundancias.
  • Identificación de las relaciones en los datos
  • Creación de máquinas de aprendizaje de características mediante el relleno de datos faltantes
  • Exploración de datos a través de visualización e informes

Esencialmente, un científico de datos debe saber cómo obtener los datos adecuados para un proyecto y saber cómo ponerlo en una forma utilizable y valiosa.

Construcción y despliegue del modelo

La construcción de modelos está en el centro de la ejecución de iniciativas de ciencia de datos.

Datos Los científicos necesitan conocer múltiples técnicas de modelado, validación de modelos y técnicas de selección de modelos. También necesitan saber cómo implementar un modelo validado y monitorearlo para mantener la precisión de los resultados.

Algunos tipos específicos de habilidades asociadas con la construcción de modelos incluyen:

  • Una mentalidad predictiva
  • Una comprensión de las técnicas predictivas (regresión, clasificación) y por qué usarlas.
  • Pensamiento crítico sobre los atributos
  • Comprender cómo interpretar los resultados y validar un modelo (K doblez, dejar uno fuera)

Los científicos de datos de alto rendimiento se diferencian por su capacidad de entender el uso de diferentes metodologías de modelado para obtener información de los datos que se traducen en valor para el negocio.

También son capaces de defender con confianza su análisis y explicar lo que hicieron y cómo funciona su técnica.

SQL

Las habilidades SQL son un prerrequisito de larga data para el éxito.

Esto es porque ser capaz de hacer la búsqueda correcta de datos puede crear una gran cantidad de valor de esos datos. Tener buenas habilidades SQL permite a un Data Scientist explorar las vastas franjas de datos heredados y basados en listas que no se utilizan y encontrar el tipo correcto de información mediante consultas.

Visualización de datos

Los científicos de datos utilizan la visualización para explorar datos y también para comunicar la historia que los datos cuentan.

Para comunicar los resultados de los modelos y los resultados analíticos, los científicos de datos deben ser capaces de presentar lo que podrían ser miles de filas de datos de una manera que sea comprensible. Lo hacen utilizando herramientas y técnicas de visualización de datos.

Parte de las habilidades de visualización consiste en determinar qué visualización se ajusta mejor al conjunto de datos y lo expresa con mayor eficacia. Las habilidades básicas de nivel incluyen crear gráficos, gráficos y otras imágenes gráficas. Estos incluyen barras, gráficos de dispersión y líneas, mapas de calor y nubes de palabras.

Las habilidades de visualización también incluyen la comprensión de los componentes de la buena visualización de datos: datos, geométricos, mapeo, escala y etiquetas.

Para crear visualizaciones, los científicos de datos pueden necesitar usar Python u otros lenguajes de codificación o saber cómo usar herramientas como Tableau, Highcharts, PowerBI y bibliotecas Python.

Para el consumo de usuarios finales, los científicos de datos deben ser capaces de transformar los datos en una pantalla más interactiva que comunique los conocimientos de manera clara y eficaz para su uso en toda la organización.

Para hacer esto un científico de datos necesita ser capaz de responder a la pregunta, ¿cuál es el usuario final tratando de responder con estos datos?

Aprendizaje automático

En esta era de inteligencia artificial, las habilidades de aprendizaje automático se han convertido en indispensables para los científicos de datos. Pero, ¿cuáles son estas habilidades exactamente?

Se trata principalmente de estar familiarizados con algoritmos supervisados y no supervisados. Algunos de los algoritmos clave con los que un científico de datos debería estar familiarizado son:

  • Algoritmos de regresión básicos, múltiples y logísticos
  • Modelo lineal
  • Soporte de la máquina vectorial
  • K vecino más cercano
  • Árboles de decisiones
  • Redes neuronales
  • K significa agrupación

Además, cualquier persona que haga el aprendizaje automático debe estar bien versant en Python.

Capacidades no técnicas

La ciencia de los datos tiene tanto que ver con las personas, el trabajo en equipo y las habilidades no técnicas como con las matemáticas de tuercas y tornillos. Entonces, ¿cuáles son las cualidades de un buen científico de datos que no implica habilidades técnicas?

El proceso de la ciencia de los datos

Hay una metodología de ciencia de datos y flujo de trabajo que todos los profesionales deben entender y seguir. En cualquier entrevista, se debe pedir a los candidatos que la describan.

Los pasos básicos son:

  • Caracterizar y entender un problema de negocio
  • Formular una hipótesis
  • Elija y utilice una variedad de metodologías en el ciclo de análisis
  • Plan de ejecución de análisis

Los dos últimos pasos se muestran en el esquema de abajo. Cubre gran parte de las competencias técnicas descritas anteriormente.

Los flujos de trabajo de la ciencia de datos podrían verse ligeramente diferentes para diferentes equipos, empresas y científicos de datos individuales. En general, los científicos de datos deben saber cómo organizar su trabajo, dónde poner los datos y el código, qué herramientas utilizar y por qué.

Fuente: Konstantin, hacia la ciencia de los datos

Problemas para resolver las habilidades

Datos Los científicos deben tener un enfoque riguroso de resolución de problemas basado en datos para su pensamiento. Datos principales Los científicos son capaces de discernir qué problemas son importantes para resolver y luego modelar lo que es crítico para resolver el problema.

No hay plantilla para resolver un problema de ciencia de datos. La ruta para resolver un problema de negocio cambia con cada nuevo conjunto de datos.

Además, la práctica de la ciencia de los datos está plagada de desafíos como los valores de datos que faltan, las partes interesadas que no cooperan y los errores de codificación.

Datos Los científicos necesitan estar cómodos con esta incertidumbre del trabajo.

Comunicación

Junto con ser capaz de crear grandes visualizaciones para comunicar los resultados a los usuarios finales, los científicos de datos deben poseer habilidades de comunicación persuasivas y fuertes habilidades interpersonales para ver un proyecto de principio a fin.

En su papel, pueden tener que interactuar con una variedad de personalidades e interesados, desde ingenieros técnicos de TI y software hasta gerentes de marketing y otro personal funcional hasta gerentes de C-suite. Ciertamente, para progresar en las filas como Data Scientist, las habilidades de comunicación necesitan ser fuertes.

Curiosidad

Albert Einstein dijo famosamente:

“No tengo talento especial, sólo soy apasionadamente curioso”

Lo mismo puede decirse de los buenos científicos de datos. Este rasgo de la personalidad es a menudo un diferenciador clave en las entrevistas de trabajo.

Los datos son complicados y complejos. Nadie sabe qué ideas tiene. Depende de los científicos de datos tener curiosidad sobre qué datos pueden decir a un negocio y encontrar una manera de averiguarlo.

Para ello, deben ser naturalmente curiosos, creativos y ansiosos por probar cosas nuevas, experimentar y aplicar nuevos conceptos a su trabajo.

Resumen

Hemos cubierto un montón de conjuntos de habilidades y competencias en esta guía, sin embargo, realmente sólo hemos arañado la superficie. Hemos dejado fuera muchas otras habilidades altamente específicas como Hadoop, TensorFlow, el aprendizaje profundo y otras habilidades “agradables de tener” tales como habilidades de software en la nube y ética de datos.

El hecho es que hay más de 50 habilidades y herramientas potenciales que podrían ser requeridas de un Data Scientist para un papel o empresa en particular. Es imposible cubrirlos a todos.

Estos 3 amplios cubos de habilidades de ciencia de datos y 9 habilidades adicionales son lo que consideramos que son habilidades básicas para los candidatos de hoy en día a la Ciencia de Datos que les permitirá golpear el suelo funcionando y crecer y aprender en su papel para adquirir las muchas otras habilidades por ahí.

Es por eso que quizás la habilidad más importante de todas para un Científico de Datos es el deseo de aprender y mejorar sus habilidades en ciencia de datos.

Si desea leer más detalles sobre conocimientos especializados en ciencias de los datos eche un vistazo a nuestro artículo esbozando “ 50 Preguntas de Entrevista de Ciencia de Datos “, lo que le dará una idea de qué áreas de habilidades a evaluar.

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +