¿Qué nivel de matemáticas se requiere para la ciencia de datos?
“Cuando estamos frente a un pizarrón, lo llamamos estadísticas ; cuando en frente de un ordenador, se convierte en aprendizaje automático ; y en una presentación de negocios, nos referimos al proceso como inteligencia artificial ”.
A menudo me preguntan cuál es el papel de las matemáticas en la industria de los datos. Este post es un intento honesto de tratar de responder a esa pregunta. Honestamente, es una buena idea dejar de hacer que las cosas parezcan más complicadas de lo que realmente son. Creo que Data Science se trata principalmente de codificación, estadísticas y conocimiento específico del dominio.
Por cierto, mi educación formal ha sido un MSc y un doctorado en Matemáticas Aplicadas. Adquirí lo que ahora llamamos Competencias en materia de datos mayormente en Estadísticas computacionales cursos, utilizando el método anticuado de leer libros, y hacer la investigación. La mayor parte del trabajo que he estado haciendo recientemente se encuentra en el campo de la teleobservación, tratando de dar sentido a grandes cantidades de datos satelitales.
Análisis de datos: Dar sentido a los datos
El análisis de datos implica buscar patrones y tendencias en grandes cantidades de datos con el objetivo de proporcionar información que pueda ayudar a resolver problemas y mejorar las decisiones empresariales. Para realizar el análisis de datos, necesita entender cómo recopilar y organizar los datos, cómo extraer la información que desea y cómo interpretar los resultados.
Las habilidades que probablemente deberías tener ganas de aprender son:
- Codificación básica . Aprende lenguajes fáciles como Python y R. Te sugeriría R en caso de que empieces desde cero, y Python si tienes al menos algún fondo de programación.
- Visualización de datos . El pan y la mantequilla de casi cualquier tipo de trabajo de Data Science. Usted debe familiarizarse trabajando con herramientas como ggplot2 (en R), o pyplotlib de matplotlib (en Python).
- Estadísticas con R . Usted no necesita tomar un curso de estadística clásica con nada más que teoremas a menos que usted mismo quiera convertirse en un estadístico/matemático. Sin embargo, la estadística clásica se basa en una sólida tradición y en una sólida base teórica. Una combinación de codificación en un lenguaje simple como R, con algunos antecedentes teóricos sobre estadísticas debe ser un buen ajuste, y hay muchos cursos que consiguen esta mezcla justo a la derecha.
Entonces... ¿hay muchas matemáticas aquí? Honestamente, para este papel lo que necesitas es una comprensión práctica de las estadísticas, no de las estadísticas teóricas.
Tenga en cuenta que incluso las habilidades básicas de análisis de datos, combinadas con la experiencia de dominio sensible, pueden ser una herramienta muy poderosa en el entorno actual. Puedes leer más en mi post sobre conocimiento de dominio en ciencia de datos .
Ciencia de los datos: Hacer predicciones basadas en datos
Ciencias de los datos es el papel en la industria de los datos que requiere las habilidades matemáticas más avanzadas. Como resulta que este es el papel más conocido en la industria, esto lleva a la idea de que los requisitos matemáticos impregnan todo el campo, lo que sin embargo no es el caso.
Como científico de datos, su trabajo es descubrir patrones y hacer conexiones entre los datos para resolver problemas complejos. Esta tarea requiere una amplia base de conocimientos matemáticos y de programación. Específicamente, necesitará estar cómodo trabajando con visualización de datos, análisis estadísticos, aprendizaje automático, lenguajes de programación y bases de datos.
La diferencia entre un analista de datos y un científico de datos, es que, mientras que un analista de datos es más de un generalista que utiliza análisis y conocimientos de dominio para obtener información y hacer y recomendaciones, un científico de datos es un especialista que se esfuerza por utilizar análisis avanzados para resolver problemas de manera más automatizada.
La diferencia fundamental entre estos roles reside en la capacidad de un científico de datos para crear modelos predictivos .
De hecho, los modelos predictivos tienen una larga historia en estadística. A menudo se les llama “previsiones”, y los estadísticos los han estado haciendo durante mucho más de un siglo. Pero, por supuesto, es la herramienta moderna lo que hace que este campo tan emocionante.
Las habilidades requeridas aquí se pueden clasificar probablemente en dos categorías: dominar las técnicas estadísticas clásicas, y acercarse a las herramientas computacionales más avanzadas.
Hecho importante: si no sabes dónde las técnicas clásicas se quedan cortas, no sabrás por qué estás aplicando las más sofisticadas, y ese no es un buen lugar para estar. Definitivamente, los fundamentos del aprendizaje son una clave para la comprensión a largo plazo de las diversas herramientas que aparecen regularmente en la zona.
Con esto en mente, aquí está una lista de lo que probablemente es lo más importante para saber:
- Cálculo básico . La ciencia de los datos en realidad no requiere mucho cálculo, aparte de como un prerrequisito para la teoría de la probabilidad y estadística.
- Álgebra lineal , ya que es la base de la informática práctica moderna. Los mínimos cuadrados, la reducción de la dimensión, la colinealidad, y más, todo se puede entender en términos de álgebra lineal.
- Modelos estadísticos lineales . Un segundo curso sobre estadística es generalmente acerca de los llamados “Estatos multivariables” – es decir. dominar técnicas de mínimos cuadrados en estadística. Y al menos cuadrados es una de esas herramientas engañosamente simples, y sin embargo más poderosas por ahí. Creo que es común que la gente se entusiasme con técnicas más sofisticadas y temas candentes, antes de que hayan agotado los más simples, y eso es un error. Usted puede, por supuesto, crear pronósticos, y resolver problemas de clasificación usando nada más que mínimos cuadrados. Así que no me saltaría este tema en absoluto.
- Aprendizaje automático/aprendizaje profundo/IA . Estas son técnicas predictivas más avanzadas. Creo que lo mejor es centrarse en estudios de casos y áreas de aplicaciones para aprender estas técnicas, ya que la comprensión teórica de estas herramientas está muy detrás del estado de la práctica de la industria.
Ingeniería de datos e nube: cuando las aplicaciones de datos se hacen realidad
Los ingenieros de datos, como todos los ingenieros, son llamados cuando las cosas “se hacen reales”. Es decir, cuando los modelos tienen que ser implementados a gran escala, con cantidades masivas de datos, y se ejecutan en tiempo real.
Para ello, tenemos “la nube”. La nube es esta increíble innovación técnica y comercial que permite la posibilidad de alquilar infraestructura de servidores masivos “por el segundo” (¿o ya es por milisegundo?). Esto ha creado tantas posibilidades que ni siquiera puedo empezar. Interactuar con aplicaciones de Data Science es sólo una de estas nuevas posibilidades.
- Bases de datos: Conozca cómo se almacenan y acceden los datos a gran escala. El paradigma principal es SQL, y también está el nuevo noSQL.
- Virtualización: esto es lo que hace posible ejecutar código en la nube. Necesitará saber acerca de máquinas virtuales, contenedores, Kubernetes y Microservicios.
- Big Data: Cuando la escala de los datos con los que estás trabajando se vuelve realmente pero realmente grande, tendrá que familiarizarse con herramientas como Hadoop, Spark, y BigQuery de Google.
Entonces, ¿realmente necesitas muchas matemáticas para convertirte en un ingeniero de datos? Francamente, no realmente.
Conclusión
Iniciar una carrera en la industria de los datos puede ser bastante competitivo. Pero a medida que el uso de datos por las empresas continúa creciendo, también lo hará la demanda de profesionales con conocimiento de datos.
Tenga en cuenta que hay muchos papeles profesionales dentro de esta industria, y hay un grado variable de matemáticas involucrados con cada uno.
Artículos Relacionados: