¿La ciencia de los datos es buena para los antecedentes no técnicos?
Este artículo se basa en mis experiencias como un especialista en contabilidad y economía que se aventuró en la ciencia de los datos hace menos de un año y todavía está aprendiendo. Todo lo que voy a compartir aquí se limita a mi experiencia y algunas investigaciones independientes que he hecho.
1. Comience con Excel
Excel como un software de negocios muy popular se utiliza más para recopilar y almacenar datos. Como resultado, la mayoría de los datos con los que puede trabajar se pueden encontrar en Excel. Como alguien de antecedentes no técnicos que probablemente no tiene experiencia en programación, poder entender cómo manipular y analizar datos en Excel es una ruta más fácil de iniciar y será una base muy útil en su viaje como científico de datos.
Puedes empezar aprendiendo conceptos básicos de Excel como referenciación de celdas, escribir fórmulas básicas y usar funciones agregadas como SUM, AVERAGE, MAX, MIN y funciones lógicas como SI, AND, OR. Una vez que entienda los conceptos básicos, puede empezar a aprender a recuperar información de datos utilizando funciones agregadas condicionales como COUNTIF(S), SUMIF(S), AVERAGEIF(S) y funciones de búsqueda como INDEX/MATCH, VLOOKUP, NESTED IFS, etc. Después de esto, el siguiente paso será aprender a trabajar con las Tablas Pivot, lo que le ayudará a resumir y agregar datos de una manera más fácil y estructurada. Además de las Tablas Pivot, puedes aprender a crear gráficos y tableros usando gráficos Pivot, cortadores, filtros, etc. Aprender estos conceptos le dará una comprensión básica sobre cómo obtener significado de los datos brutos y presentar sus hallazgos a través de la visualización.
2. Haga más con datos con Power BI
Después de obtener la esencia de trabajar con datos en Excel, el siguiente paso que puedes dar es replicar conceptos aprendidos en Power BI. Aunque Power BI funciona de manera similar a Excel con respecto a la limpieza, el análisis y la visualización de datos, tiene características más avanzadas para trabajar con datos.
Como principiante, puede centrarse en cómo utilizar Power Query para conectarse a los datos, limpiar y realizar transformaciones básicas. Puedes aprender cómo modelar las relaciones entre tablas de datos usando la función de modelado de datos de Power BI. También puede aprender cómo crear cálculos y modelar sus datos usando DAX. Después de esto, será útil ver cómo crear visualizaciones y paneles de control en Power BI utilizando tanto visualizaciones integradas y personalizadas, así como características como filtros, cortadores, marcadores, navegación de páginas, etc. Otro consejo útil sería tener una comprensión básica de cómo funciona el Servicio Power BI para ayudar a compartir y colaborar en los informes Power BI.
3. Aprender Python introductorio
Aunque Power BI y Excel son excelentes herramientas para analizar y visualizar datos, el lenguaje de programación python contiene una amplia gama de paquetes que son ampliamente utilizados por los científicos de datos para realizar análisis de datos descriptivos, prescriptivos y predictivos más avanzados, incluido el aprendizaje automático.
Para empezar a usar python para estas funciones de análisis de datos, primero necesita entender algunos conceptos básicos del lenguaje python como la sintaxis general, trabajando con variables y expresiones, flujo de control (loops y declaraciones condicionales), funciones, tipos de datos y estructuras de datos. Una buena comprensión de estos conceptos le ayudará a crear programas basados en la lógica simple con pitón y le dará una base sólida para aprender pitón para la ciencia de datos.
4. Comprender los fundamentos de Python para la ciencia de datos
Después de entender esos conceptos básicos de python, puede comenzar con python para la ciencia de datos, donde youâ € TM ll aprender varias bibliotecas de python que puede utilizar para trabajar con datos. Los más importantes son los Pandas, Numpy, Matplotlib, Seaborn. Los dos primeros son para cálculos matemáticos y estadísticos, mientras que los segundos son para visualizaciones.
Parte de la pitón para la ciencia de datos es Análisis de datos exploratorio, donde se puede utilizar estos paquetes para extraer, limpiar, analizar y visualizar datos. EDA depende en gran medida de las estadísticas para hacer el significado de los datos, por lo que es posible que desee tomar lecciones de estadística introductoria si no es su fuerte. Un paquete adicional de pitón que puede ser útil para el análisis estadístico y matemático es SciPy.
5. Aprender el aprendizaje de la máquina de introducción
Una vez que youâ € TMre familiarizado con el análisis de datos exploratorio, que es más de un análisis descriptivo, se puede pasar al aspecto predictivo de la ciencia de datos mediante el aprendizaje automático. Puede empezar aprendiendo algoritmos comunes de aprendizaje automático supervisados para la regresión (regresión lineal) y la clasificación (regresión logística). Necesitará conocer el paquete python scikit-learn para ayudarle a implementar estos algoritmos sin codificar desde cero.
Después de obtener la esencia de estos dos algoritmos, puede aprender más algoritmos de clasificación como Árboles de Decisión, Bosque Al azar, Bahías Naive y Máquinas Vectoras de Soporte. Otros algoritmos de regresión incluyen Regresión de Árboles de Decisión y Regresión LASSO.
6. Aprender SQL
Cuando youâ € TM s más cómodo con el trabajo con datos en Excel otras fuentes de datos comunes, es posible que desee buscar en el aprendizaje SQL para trabajar con bases de datos relacionales. SQL es comúnmente utilizado por las empresas para almacenar datos estructurados y puede contener grandes cantidades de datos que usted entrará en contacto con muchas veces como científico de datos. El software SQL más común que recomiendo que aprendas son PostgreSQL y MySQL. Como principiante, puedes empezar con uno de estos.
7. Muévete a las áreas avanzadas
Todas estas áreas que compartí anteriormente fueron para proporcionarles un comienzo introductorio para que puedan tener un poco de comprensión y experiencia con los diversos aspectos de una cartera de ciencia de datos. Después de esto, todavía hay mucho más que aprender, y usted puede aventurarse en cualquiera de estas áreas más avanzadas:
Aunque estas áreas avanzadas pueden parecer abrumadoras, creo que la mejor manera de hacerlo es escoger áreas específicas y especializarse en ellas en función de su interés, y después de especializarse puede pasar a las otras áreas si desea ser un científico de datos más completo.
Un aspecto importante del trabajo de un científico de datos es colaborar con otros y compartir información. Herramientas de control de versiones como Git y GitHub te ayudan a hacer un seguimiento de los cambios en tu código, ya sea trabajando solo o colaborando en equipo.
Además, la plataforma de colaboración en línea y foros como Kaggle y Towards Data Science proporcionan una fuente de comunidad donde puedes conocer a otros científicos de datos, aprender de ellos y compartir conocimientos. Kaggle en particular tiene una amplia gama de conjuntos de datos y códigos de ciencia de datos que puede utilizar para practicar.
Artículos Relacionados: