¿Qué actividades participan en el análisis de datos?
Como cualquier disciplina científica, el análisis de datos sigue un riguroso proceso paso a paso. Cada etapa requiere diferentes habilidades y conocimientos. Sin embargo, para obtener ideas significativas, es importante entender el proceso en su conjunto. Un marco subyacente es invaluable para producir resultados que resisten el escrutinio.
En este post, exploraremos los principales pasos en el proceso de análisis de datos. Esto cubrirá cómo definir su objetivo, recopilar datos y llevar a cabo un análisis. Cuando proceda, también utilizaremos ejemplos y destacaremos algunas herramientas para facilitar el viaje. Cuando termines, tendrás una mejor comprensión de lo básico. Esto le ayudará a ajustar el proceso para adaptarse a sus propias necesidades.
A petición popular, también hemos desarrollado un video basado en este artículo. Desplácese más a lo largo de este artículo para ver eso.
¿Listo? Comencemos con el primer paso.
1. Primer paso: Definir la pregunta
El primer paso en cualquier proceso de análisis de datos es definir su objetivo. En la jerga de análisis de datos, esto a veces se llama la ‘declaración de problema’.
Definir su objetivo significa llegar a una hipótesis y averiguar cómo probarlo. Empieza preguntando: ¿Qué problema de negocios estoy tratando de resolver? Aunque esto puede sonar sencillo, puede ser más complicado de lo que parece. Por ejemplo, la alta dirección de su organización podría plantear un problema, como: “¿Por qué estamos perdiendo clientes?” Sin embargo, es posible que esto no llegue al núcleo del problema. El trabajo de un analista de datos es entender el negocio y sus metas con suficiente profundidad como para poder enmarcar el problema de la manera correcta.
Digamos que trabajas para una compañía de ficción llamada TopNotch Learning. TopNotch crea software de entrenamiento personalizado para sus clientes. Si bien es excelente para asegurar nuevos clientes, tiene un negocio de repetición mucho menor. Como tal, su pregunta podría no ser, “¿Por qué estamos perdiendo clientes?” pero, “¿Qué factores están impactando negativamente la experiencia del cliente?” o mejor aún: “¿Cómo podemos aumentar la retención del cliente mientras minimizamos los costos?”
Ahora que ha definido un problema, es necesario determinar qué fuentes de datos le ayudarán mejor a resolverlo. Aquí es donde vuelve tu perspicacia de negocios. Por ejemplo, tal vez haya notado que el proceso de ventas para nuevos clientes es muy hábil, pero que el equipo de producción es ineficiente. Sabiendo esto, usted podría hipotetizar que el proceso de ventas gana un montón de nuevos clientes, pero la experiencia posterior del cliente es deficiente. ¿Podría ser por esto que los clientes no vuelven? ¿Qué fuentes de datos le ayudarán a responder a esta pregunta?
Herramientas para ayudar a definir su objetivo
Definir su objetivo es principalmente acerca de habilidades suaves, conocimientos empresariales y pensamiento lateral. Pero también tendrá que realizar un seguimiento de las métricas de negocio y los indicadores clave de rendimiento (KPIs). Los informes mensuales pueden permitirle rastrear los puntos problemáticos en el negocio. Algunos tableros de KPI vienen con una tarifa, como Caja de datos y DashThis . Sin embargo, también encontrará software de código abierto como Grafana , Freeboard , y Dashbuilder . Estos son excelentes para producir paneles de control simples, tanto al principio como al final del proceso de análisis de datos.
2. Paso dos: Recopilar los datos
Una vez que haya establecido su objetivo, tendrá que crear una estrategia para recopilar y agregar los datos apropiados. Una parte clave de esto es determinar qué datos necesita. Se trata de datos cuantitativos (numéricos), por ejemplo: cifras de ventas, o datos cualitativos (descriptivos), tales como reseñas de clientes. Todos los datos encajan en una de las tres categorías: datos de primera, segunda y tercera parte. Exploremos cada uno.
¿Qué son los datos personales?
Los datos de terceros son datos que usted, o su empresa, han recopilado directamente de los clientes. Puede venir en forma de datos de seguimiento transaccional o información del sistema de gestión de relaciones con los clientes (CRM) de su empresa. Cualquiera que sea su fuente, los datos de primera parte suelen estar estructurados y organizados de manera clara y definida. Otras fuentes de datos de terceros pueden incluir encuestas de satisfacción de los clientes, grupos focales, entrevistas u observación directa.
¿Qué son los datos de terceros?
Para enriquecer su análisis, es posible que desee asegurar una fuente de datos secundaria. Los datos de terceros son los datos de terceros de otras organizaciones. Esto podría estar disponible directamente desde la empresa o a través de un mercado privado. El principal beneficio de los datos de terceros es que por lo general están estructurados, y aunque serán menos pertinentes que los datos de terceros, también tienden a ser bastante fiables. Ejemplos de datos de terceros incluyen sitio web, aplicación o actividad de redes sociales, como historias de compra en línea, o datos de envío.
¿Qué son los datos de terceros?
Los datos de terceros son datos que han sido recopilados y agregados de numerosas fuentes por una organización de terceros. A menudo (aunque no siempre) los datos de terceros contienen una gran cantidad de puntos de datos no estructurados (big data). Muchas organizaciones recopilan big data para crear informes de la industria o para llevar a cabo investigaciones de mercado. La firma de investigación y asesoramiento Gartner es un buen ejemplo en el mundo real de una organización que recopila big data y lo vende a otras empresas. Los repositorios de datos abiertos y los portales gubernamentales también son fuentes de datos de terceros.
Herramientas para ayudarle a recopilar datos
Una vez que haya diseñado una estrategia de datos (es decir,. usted ha identificado qué datos necesita, y cómo mejor ir a recogerlos) hay muchas herramientas que usted puede utilizar para ayudarle. Una cosa que necesitará, independientemente de la industria o el área de especialización, es una plataforma de gestión de datos (DMP). Un DMP es un software que le permite identificar y agregar datos de numerosas fuentes, antes de manipularlos, segmentarlos, etc. Hay muchos DMP disponibles. Algunos DMP empresariales bien conocidos incluyen Salesforce DMP , SAS , y la plataforma de integración de datos, Xplenty . Si quieres jugar, también puedes probar algunas plataformas de código abierto como Pimcore o D: Caliente .
3. Paso tres: Limpieza de los datos
Una vez que hayas recogido tus datos, el siguiente paso es prepararlos para el análisis. Esto significa limpiar, o ‘scrabbing’, y es crucial para asegurarse de que usted está trabajando con datos de alta calidad . Las tareas clave de limpieza de datos incluyen:
- Eliminar errores importantes, duplicados y valores atípicos —todos los cuales son problemas inevitables a la hora de agrupar datos procedentes de numerosas fuentes.
- Llevar la estructura a sus datos —general «comeduría», es decir, arreglar errores tipográficos o problemas de diseño, lo que le ayudará a mapear y manipular sus datos más fácilmente.
- Rellenar las lagunas más importantes —como usted está ordenando para arriba, usted puede notar que los datos importantes están faltando. Una vez que haya identificado los huecos, usted puede ir sobre llenarlos.
Un buen analista de datos pasará alrededor del 70-90% de su tiempo limpiando sus datos. Esto podría sonar excesivo. Pero centrarse en los puntos de datos equivocados (o analizar datos erróneos) afectará gravemente a sus resultados. Incluso podría enviarte de vuelta a la casilla uno... ¡así que no te apresures! Usted encontrará una guía paso a paso para la limpieza de datos aquí . Usted puede estar interesado en este tutorial de introducción a la limpieza de datos, alojado por el Dr. Humera Noor Minhas.
Realización de un análisis exploratorio
Otra cosa que hacen muchos analistas de datos (junto con los datos de limpieza) es llevar a cabo un análisis exploratorio. Esto ayuda a identificar tendencias y características iniciales, e incluso puede refinar su hipótesis. Utilicemos de nuevo nuestra compañía de aprendizaje de ficción como ejemplo. Llevando a cabo un análisis exploratorio, tal vez note una correlación entre cuánto pagan los clientes de TopNotch Learning y la rapidez con que se trasladan a nuevos proveedores. Esto podría sugerir que una experiencia del cliente de baja calidad (la suposición en su hipótesis inicial) es en realidad menos de un problema que el costo. Por lo tanto, podría tener esto en cuenta.
Herramientas para ayudarle a limpiar sus datos
Limpiar los conjuntos de datos manualmente, especialmente los grandes, puede ser desalentador. Por suerte, hay muchas herramientas disponibles para agilizar el proceso. Herramientas de código abierto, tales como: OpenRefine , son excelentes para la limpieza de datos básicos, así como la exploración de alto nivel. Sin embargo, las herramientas gratuitas ofrecen una funcionalidad limitada para conjuntos de datos muy grandes. Bibliotecas de Python (por ejemplo: Pandas) y algunos paquetes R son más adecuados para el lavado de datos pesados. Usted, por supuesto, tendrá que estar familiarizado con los idiomas. Alternativamente, también se dispone de herramientas empresariales. Por ejemplo, Escalera de datos , que es una de las herramientas de comparación de datos más valoradas de la industria. Hay muchos más. ¿Por qué no ves con qué herramientas gratuitas de limpieza de datos puedes jugar?
4. Paso cuatro: Analizar los datos
Finalmente, has limpiado tus datos. Ahora viene la parte divertida — ¡analizarlo! El tipo de análisis de datos que realice depende en gran medida de cuál sea su objetivo. Pero hay muchas técnicas disponibles. Análisis univariado o bivariado, análisis de series temporales y análisis de regresión son sólo unos pocos que podría haber oído hablar. Más importante que los diferentes tipos, sin embargo, es cómo se aplican. Esto depende de qué ideas esperas obtener. En términos generales, todos los tipos de análisis de datos encajan en una de las cuatro categorías siguientes.
Análisis descriptivo
Análisis descriptivo identifica lo que ya ha sucedido . Es un primer paso común que las empresas llevan a cabo antes de proceder con exploraciones más profundas. Como ejemplo, volvamos a referirnos a nuestro proveedor de aprendizaje ficticio una vez más. TopNotch Learning podría utilizar análisis descriptivos para analizar las tasas de finalización del curso para sus clientes. O podrían identificar cuántos usuarios acceden a sus productos durante un período determinado. Tal vez lo utilicen para medir las cifras de ventas en los últimos cinco años. Si bien es posible que la empresa no saque conclusiones firmes de ninguna de estas ideas, resumir y describir los datos les ayudará a determinar cómo proceder.
Análisis diagnóstico
Análisis diagnóstico se centra en entender por qué ha sucedido algo . Es literalmente el diagnóstico de un problema, al igual que un médico utiliza los síntomas de un paciente para diagnosticar una enfermedad. ¿Recuerda el problema de negocios de TopNotch Learning? ‘¿Qué factores están impactando negativamente en la experiencia del cliente?’ Un análisis diagnóstico ayudaría a responder a esto. Por ejemplo, podría ayudar a la empresa a establecer correlaciones entre el problema (luchando para ganar negocios repetidos) y los factores que podrían estar causándolo (p. ej. costes del proyecto, velocidad de entrega, sector cliente, etc.) Imaginemos que, utilizando análisis de diagnóstico, TopNotch se da cuenta de que sus clientes en el sector minorista están saliendo a un ritmo más rápido que otros clientes. Esto podría sugerir que están perdiendo clientes porque carecen de experiencia en este sector. ¡Y esa es una visión útil!
Análisis predictivo
El análisis predictivo le permite identificar tendencias futuras basadas en datos históricos . En los negocios, el análisis predictivo se utiliza comúnmente para predecir el crecimiento futuro, por ejemplo. Pero no se detiene allí. El análisis predictivo se ha vuelto cada vez más sofisticado en los últimos años. La rápida evolución del aprendizaje automático permite a las organizaciones hacer previsiones sorprendentemente precisas. Tome la industria de seguros. Los proveedores de seguros suelen utilizar datos anteriores para predecir qué grupos de clientes son más propensos a sufrir accidentes. Como resultado, aumentarán las primas de seguro de clientes para esos grupos. Del mismo modo, la industria minorista utiliza a menudo datos de transacciones para predecir dónde están las tendencias futuras, o para determinar hábitos de compra estacionales para informar sus estrategias. Estos son sólo algunos ejemplos simples, pero el potencial inexplorado del análisis predictivo es bastante convincente.
Análisis preceptivo
El análisis preceptivo le permite hacer recomendaciones para el futuro. Este es el paso final en la parte analítica del proceso. También es el más complejo. Esto se debe a que incorpora aspectos de todos los demás análisis que hemos descrito. Un gran ejemplo de análisis prescriptivo es los algoritmos que guían los coches de auto-conducción de Google. Cada segundo, estos algoritmos toman innumerables decisiones basadas en datos pasados y presentes, asegurando un viaje suave y seguro. El análisis prescriptivo también ayuda a las empresas a decidir sobre nuevos productos o áreas de negocio en las que invertir.
5. Quinto paso: Compartir los resultados
Usted ha terminado de realizar sus análisis. Tienes tus ideas. El paso final del proceso de análisis de datos es compartir estas ideas con el mundo en general (¡o al menos con las partes interesadas de su organización!) Esto es más complejo que simplemente compartir los resultados crudos de su trabajo, implica interpretar los resultados y presentarlos de una manera que sea digerible para todo tipo de audiencias. Dado que a menudo presentarás información a los responsables de la toma de decisiones, es muy importante que las ideas que presentas sean 100% claras e inequívocas. Por esta razón, los analistas de datos suelen usar informes, tableros y visualizaciones interactivas para apoyar sus hallazgos.
La forma en que interprete y presente los resultados a menudo influirá en la dirección de un negocio. Dependiendo de lo que comparta, su organización podría decidir reestructurarse, lanzar un producto de alto riesgo, o incluso cerrar una división entera. Es por eso que es muy importante para proporcionar toda la evidencia que usted ha reunido, y no para recoger datos cherry-pick. Asegurar que usted cubra todo de una manera clara y concisa demostrará que sus conclusiones son científicamente sólidas y se basan en los hechos. Por otro lado, es importante destacar cualquier laguna en los datos o marcar cualquier insight que pueda estar abierto a la interpretación. La comunicación honesta es la parte más importante del proceso. Ayudará al negocio, mientras que también le ayudará a sobresalir en su trabajo!
Herramientas para interpretar y compartir sus hallazgos
Hay toneladas de herramientas de visualización de datos disponible, adecuado para diferentes niveles de experiencia. Las herramientas populares que requieren poca o ninguna habilidad de codificación incluyen Gráficos de Google , Tableau , Envasador de datos , y Infograma . Si está familiarizado con Python y R, también hay muchas bibliotecas de visualización de datos y paquetes disponibles. Por ejemplo, echa un vistazo a las bibliotecas de Python Plotly , Nacida en el mar , y Matplotlib . Cualesquiera que sean las herramientas de visualización de datos que utilice, asegúrese de pulir sus habilidades de presentación, también. Recuerde: ¡La visualización es genial, pero la comunicación es clave!
6. Paso seis: Abrace tus fracasos
El último ‘paso’ en el proceso de análisis de datos es aceptar sus fracasos. El camino que hemos descrito anteriormente es más un proceso iterativo que una calle de un solo sentido. El análisis de datos es inherentemente desordenado, y el proceso que sigas será diferente para cada proyecto. Por ejemplo, al limpiar los datos, puede detectar patrones que desencadenen un nuevo conjunto de preguntas. Esto podría enviarle de vuelta al primer paso (para redefinir su objetivo). Del mismo modo, un análisis exploratorio podría destacar un conjunto de puntos de datos que nunca había considerado utilizar antes. O tal vez usted encuentra que los resultados de sus análisis centrales son engañosos o erróneos. Esto podría ser causado por errores en los datos, o error humano antes en el proceso.
Aunque estos escollos pueden parecer fracasos, no se desanime si suceden. El análisis de datos es inherentemente caótico y se producen errores. Lo importante es perfeccionar su capacidad para detectar y rectificar errores. Si el análisis de datos era sencillo, podría ser más fácil, pero ciertamente no sería tan interesante. Utilice los pasos que hemos esbozado como marco, mantenga la mente abierta y sea creativo. Si usted pierde su camino, usted puede referirse de nuevo al proceso para mantenerse en el camino.
7. Resumen
En este post, hemos cubierto los pasos principales del proceso de análisis de datos. Estos pasos básicos pueden ser modificados, reordenados y reutilizados como usted considere conveniente, pero apoyan el trabajo de cada analista de datos:
- Definir la pregunta —¿Qué problema de negocios estás tratando de resolver? Enfócalo como una pregunta para ayudarte a concentrarte en encontrar una respuesta clara.
- Recopilar datos —Crear una estrategia para la recogida de datos. ¿Qué fuentes de datos son más probables para ayudarle a resolver su problema de negocio?
- Limpiar los datos —Explorar, limpiar, ordenar, de-dupe, y estructurar sus datos según sea necesario. ¡Haz lo que tengas que hacer! Pero no te apresures... ¡tómate tu tiempo!
- Analizar los datos —Llevar a cabo varios análisis para obtener información. Centrarse en los cuatro tipos de análisis de datos: descriptivo, diagnóstico, predictivo y prescriptivo.
- Comparte tus resultados —¿Cómo puedes compartir mejor tus ideas y recomendaciones? Una combinación de herramientas de visualización y comunicación es clave.
- Abraza tus errores —Los errores ocurren. Aprende de ellos. Esto es lo que transforma a un buen analista de datos en uno grande.
¿Qué sigue? A partir de aquí, le animamos encarecidamente a explorar el tema por su cuenta. Obtenga creatividad con los pasos en el proceso de análisis de datos, y vea qué herramientas puede encontrar. Mientras se apegue a los principios básicos que hemos descrito, puede crear una técnica a medida que funcione para usted.
Análisis de datos
Un escritor británico con sede en Berlín, Will ha pasado los últimos 10 años escribiendo sobre educación y tecnología, y la intersección entre los dos. Tiene un interés fanático limitado en STEM, y ha sido publicado en TES, el Daily Telegraph, la revista SecEd y más. Su ficción ha sido corta y larga lista para más de una docena de premios.
¿Qué es CareerFoundry?
CareerFoundry es una escuela en línea para personas que buscan cambiar a una carrera gratificante en tecnología. Selecciona un programa, hazte emparejar con un mentor y tutor experto, y conviértete en un diseñador, desarrollador o analista listo para trabajar desde cero, o recupera tu dinero.
Artículos Relacionados:
- ¿Cuáles son las tres actividades principales del análisis de datos?
- ¿Cuáles son los principales elementos del análisis de datos?
- ¿Cuáles son los principales métodos de análisis de datos?
- ¿Qué es el análisis de datos y su propósito?
- ¿Cuáles son los 7 procesos de análisis de datos?
- ¿Cuáles son las actividades para el tratamiento de datos?