¿Qué es el big data y ejemplos?
¿Qué es el big data?
Los macrodatos son una combinación de datos estructurados, semiestructurados y no estructurados reunidos por organizaciones que pueden extraerse con fines de información y utilizarse en aprendizaje automático proyectos, modelado predictivo y otras aplicaciones avanzadas de análisis.
Los sistemas que procesan y almacenan big data se han convertido en un componente común de gestión de datos arquitecturas en las organizaciones, combinado con herramientas que apoyan big data analytics usos. Los macrodatos se caracterizan a menudo por los tres V:
- el grande volumen de datos en muchos entornos;
- el ancho variedad de los tipos de datos que se almacenan con frecuencia en los sistemas de macrodatos, y
- la velocidad en la que se genera, recoge y procesa gran parte de los datos.
Estas características fueron identificadas por primera vez en 2001 por Doug Laney, luego analista de la consultora Meta Group Inc.; Gartner las popularizó después de adquirir Meta Group en 2005. Más recientemente, varios otros V's han sido añadidos a diferentes descripciones de macrodatos, incluyendo veracity , valor y variabilidad .
Aunque el big data no equivale a ningún volumen específico de datos, despliegues de macrodatos a menudo implican terabytes, petabytes e incluso exabytes de datos creados y recogidos con el tiempo.
¿Por qué es importante el big data?
Empresas utilizar big data en sus sistemas mejorar las operaciones, ofrecer un mejor servicio al cliente, crear campañas de marketing personalizadas y emprender otras acciones que, en última instancia, puedan aumentar los ingresos y beneficios. Las empresas que lo utilizan efectivamente tienen una ventaja competitiva potencial sobre las que no lo hacen porque son capaces de tomar decisiones empresariales más rápidas e informadas.
Por ejemplo, los big data proporcionan información valiosa sobre los clientes que las empresas pueden utilizar para refinar su marketing, publicidad y promociones con el fin de aumentar la participación de los clientes y las tasas de conversión. Tanto los datos históricos como los datos en tiempo real se pueden analizar para evaluar las preferencias cambiantes de los consumidores o compradores corporativos, lo que permite a las empresas ser más sensibles a los deseos y necesidades de los clientes.
Los grandes datos también son utilizados por los investigadores médicos para identificar signos de enfermedad y factores de riesgo y por los médicos para ayudar a diagnosticar enfermedades y afecciones médicas en los pacientes. Además, una combinación de datos de historiales médicos electrónicos, sitios de redes sociales, la web y otras fuentes proporciona a las organizaciones de salud y a los organismos gubernamentales información actualizada sobre amenazas o brotes de enfermedades infecciosas.
- Otros usos gubernamentales incluyen la respuesta de emergencia, la prevención del delito y las iniciativas de ciudades inteligentes.
¿Cuáles son los ejemplos de big data?
Los grandes datos provienen de múltiples fuentes -- algunos ejemplos son sistemas de procesamiento de transacciones, bases de datos de clientes, documentos, correos electrónicos, registros médicos, registros de Internet, aplicaciones móviles y redes sociales. También incluye datos generados por máquinas, como archivos de registro de redes y servidores y datos de sensores de máquinas de fabricación, equipos industriales y Internet de las cosas dispositivos.
Además de los datos de los sistemas internos, los entornos de macrodatos suelen incorporar datos externos sobre los consumidores, los mercados financieros, las condiciones meteorológicas y de tráfico, la información geográfica, la investigación científica y más. Las imágenes, videos y archivos de audio son formas de big data, también, y muchas aplicaciones de big data implican la transmisión de datos que se procesan y recopilan de forma continua.
Desglosando los V de big data
El volumen es la característica más comúnmente citada de los big data. Un entorno de macrodatos no tiene que contener una gran cantidad de datos, pero la mayoría lo hace debido a la naturaleza de los datos que se recopilan y almacenan en ellos. Las secuencias de clics, los registros del sistema y los sistemas de procesamiento de secuencias se encuentran entre las fuentes que normalmente producen volúmenes masivos de datos de forma continua.
Los macrodatos también abarcan una amplia variedad de tipos de datos, incluidos los siguientes:
- datos estructurados, como transacciones y registros financieros;
- datos no estructurados, como texto, documentos y archivos multimedia; y
- datos semiestructurados, como registros de servidores web y datos de transmisión desde sensores.
Es posible que varios tipos de datos deban almacenarse y gestionarse conjuntamente en sistemas de macrodatos. Además, las aplicaciones de big data a menudo incluyen múltiples conjuntos de datos que pueden no estar integrados por adelantado. Por ejemplo, un proyecto de big data analytics puede intentar predecir las ventas de un producto correlacionando datos sobre ventas anteriores, devoluciones, reseñas en línea y llamadas de servicio al cliente.
La velocidad se refiere a la velocidad a la que se generan los datos y debe ser procesada y analizada. En muchos casos, los conjuntos de macrodatos se actualizan en tiempo real o casi en tiempo real, en lugar de las actualizaciones diarias, semanales o mensuales realizadas en muchos casos tradicionales. depósitos de datos . La gestión de la velocidad de los datos también es importante a medida que el análisis de macrodatos se expande aún más hacia el aprendizaje automático y la inteligencia artificial ( AI ), donde los procesos analíticos encuentran automáticamente patrones en los datos y los utilizan para generar información.
Más características de los macrodatos
Mirando más allá de los tres V originales, aquí están los detalles de algunos de los otros que ahora se asocian a menudo con el big data:
- Veracity se refiere al grado de precisión en los conjuntos de datos y a lo fiables que son. Los datos brutos recopilados de diversas fuentes pueden causar calidad de los datos cuestiones que pueden ser difíciles de determinar. Si no se fijan a través de limpieza de datos procesos, datos defectuosos conduce a errores de análisis que pueden socavar el valor de las iniciativas de análisis de negocios. Los equipos de gestión de datos y análisis también necesitan asegurarse de que tienen suficientes datos precisos disponibles para producir resultados válidos.
- Algunos científicos de datos y los consultores también añaden valor a la lista de características de los big data. No todos los datos que se recopilan tienen valor comercial real o beneficios. Como resultado, las organizaciones necesitan confirmar que los datos se relacionan con asuntos empresariales relevantes antes de que se usen en proyectos de análisis de big data.
- La variabilidad también se aplica a menudo a conjuntos de macrodatos, que pueden tener múltiples significados o formatearse de manera diferente en fuentes de datos separadas, factores que complican aún más gestión de macrodatos y análisis.
Algunas personas atribuyen aún más V a los big data; varias listas se han creado entre siete y diez.
¿Cómo se almacenan y procesan los big data?
Los macrodatos a menudo se almacenan en un lago de datos . Mientras que los almacenes de datos se construyen comúnmente en bases de datos relacionales y contienen sólo datos estructurados, lagos de datos pueden soportar varios tipos de datos y normalmente se basan en Hadoop clusters, servicios de almacenamiento de objetos en la nube, NoSQL bases de datos u otras plataformas de macrodatos.
Muchos entornos de macrodatos combinan múltiples sistemas en una arquitectura distribuida; por ejemplo, un lago de datos central podría integrarse con otras plataformas, incluidas bases de datos relacionales o un almacén de datos. Los datos en los sistemas de big data pueden dejarse en su forma cruda y luego filtrarse y organizarse según sea necesario para usos analíticos particulares. En otros casos, está preprocesado usando minería de datos herramientas y Preparación de datos software por lo que está listo para aplicaciones que se ejecutan regularmente.
El procesamiento de grandes datos impone grandes exigencias a la infraestructura de computación subyacente. La potencia informática requerida a menudo es proporcionada por sistemas agrupados que distribuyen cargas de trabajo de procesamiento en cientos o miles de servidores de productos básicos, utilizando tecnologías como Hadoop y el motor de procesamiento Spark.
Conseguir ese tipo de capacidad de procesamiento de una manera rentable es un desafío. Como resultado, la nube es una ubicación popular para los sistemas de big data. Las organizaciones pueden implementar sus propios sistemas basados en la nube o utilizar big-data-a-service ofertas de proveedores de nube. Los usuarios de la nube pueden ampliar el número requerido de servidores el tiempo suficiente para completar los proyectos de análisis de big data. El negocio sólo paga por el almacenamiento y calcular el tiempo que utiliza, y las instancias de la nube se pueden desactivar hasta que se necesitan de nuevo.
Cómo funciona el análisis de big data
Para obtener resultados válidos y relevantes de las aplicaciones de análisis de big data, los científicos de datos y otros analistas de datos deben tener una comprensión detallada de los datos disponibles y un sentido de lo que están buscando en él. Esto hace que la preparación de datos, que incluye la elaboración de perfiles, la limpieza, la validación y la transformación de conjuntos de datos, sea un primer paso crucial en el proceso de análisis.
Una vez reunidos los datos y preparados para su análisis, diversos ciencias de los datos y avanzadas disciplinas analíticas se pueden aplicar para ejecutar diferentes aplicaciones, utilizando herramientas que proporcionan big data analytics características y capacidades . Estas disciplinas incluyen el aprendizaje automático y su aprendizaje profundo offshoo, modelado predictivo, minería de datos, análisis estadístico, análisis de streaming, minería de texto y más.
Utilizando los datos del cliente como ejemplo, las diferentes ramas de análisis que se pueden hacer con conjuntos de big data incluyen lo siguiente:
- Análisis comparativo. Esto examina las métricas de comportamiento del cliente y el compromiso del cliente en tiempo real con el fin de comparar los productos, servicios y marcas de una empresa con los de sus competidores.
- Escuchar en las redes sociales . Esto analiza lo que la gente está diciendo en las redes sociales acerca de un negocio o producto, lo que puede ayudar a identificar problemas potenciales y dirigirse a audiencias para campañas de marketing.
- Análisis de marketing . Esto proporciona información que puede utilizarse para mejorar las campañas de marketing y las ofertas promocionales para productos, servicios e iniciativas empresariales.
- Análisis de sentimientos. Todos los datos recopilados sobre los clientes se pueden analizar para revelar cómo se sienten acerca de una empresa o marca, los niveles de satisfacción del cliente, los problemas potenciales y cómo se podría mejorar el servicio al cliente.
Tecnologías de gestión de macrodatos
Hadoop, un marco de procesamiento distribuido de código abierto lanzado en 2006, inicialmente estaba en el centro de la mayoría de las arquitecturas de big data. El desarrollo de Spark y otros motores de procesamiento empujados MapReduce , el motor construido en Hadoop, más a un lado. El resultado es un ecosistema de las tecnologías de macrodatos que se pueden utilizar para diferentes aplicaciones, pero a menudo se despliegan juntos.
Las grandes plataformas de datos y los servicios gestionados ofrecidos por los proveedores de TI combinan muchas de esas tecnologías en un solo paquete, principalmente para su uso en la nube. Actualmente, esto incluye estas ofertas, listadas alfabéticamente:
- EMR del Amazonas (anteriormente MapReduce elástico)
- Plataforma de datos de Cloudera
- Google Cloud Dataproc
- HPE Ezmeral Data Fabric (anteriormente plataforma de datos de MapR)
- Microsoft Azure HDInsight
Para las organizaciones que quieren implementar los propios sistemas de big data, ya sea en las instalaciones o en la nube, las tecnologías que están disponibles para ellos, además de Hadoop y Spark incluir las siguientes categorías de herramientas:
- marcos de gestión de agrupaciones, como Kubernetes, Mesos y YARN , el gestor de recursos incorporado de Hadoop y planificador de puestos, que significa Otro Negociador de Recursos, pero es comúnmente conocido por el acrónimo solamente;
- los motores de procesamiento de corriente, como los módulos Flink, Hudi, Kafka, Samza, Storm y Spark Streaming y Structured Streaming integrados en Spark;
Desafíos relacionados con los macrodatos
En relación con las cuestiones relativas a la capacidad de procesamiento, diseñar una arquitectura de macrodatos es un reto común para los usuarios. Los sistemas de Big Data deben adaptarse a las necesidades particulares de una organización, una empresa de bricolaje que requiere equipos de TI y gestión de datos para armar un conjunto personalizado de tecnologías y herramientas. El despliegue y la gestión de sistemas de big data también requieren nuevas habilidades en comparación con las que suelen poseer los administradores y desarrolladores de bases de datos centrados en el software relacional.
Ambos problemas se pueden aliviar mediante el uso de un servicio en la nube gestionado, pero los administradores de TI necesitan vigilar de cerca el uso de la nube para asegurarse de que los costos no se descontrolan. Además, la migración de conjuntos de datos locales y el procesamiento de cargas de trabajo a la nube es a menudo un proceso complejo.
Otros retos en la gestión de los sistemas de macrodatos incluir la posibilidad de que los datos sean accesibles a científicos y analistas de datos, especialmente en entornos distribuidos que incluyan una combinación de diferentes plataformas y almacenes de datos. Para ayudar a los analistas a encontrar datos relevantes, los equipos de gestión y análisis de datos son cada vez más construcción de catálogos de datos que incorporan la gestión de metadatos y las funciones de linaje de datos. El proceso de integración de conjuntos de macrodatos a menudo también es complicado, especialmente cuando la variedad de datos y la velocidad son factores.
Claves para una estrategia eficaz de macrodatos
En una organización, desarrollo de una estrategia de macrodatos requiere una comprensión de los objetivos empresariales y los datos que actualmente están disponibles para su uso, además de una evaluación de la necesidad de datos adicionales para ayudar a cumplir los objetivos. Entre las medidas que se han de adoptar figuran las siguientes:
- priorizar los casos y aplicaciones de uso previstos;
- identificar los nuevos sistemas e instrumentos que sean necesarios;
- crear una hoja de ruta de despliegue, y
- evaluar las competencias internas para ver si se requiere readiestramiento o contratación.
Prácticas y reglamentos de recopilación de datos importantes
As the recogida y uso de macrodatos han aumentado, al igual que el potencial de uso indebido de los datos. Una protesta pública por violaciones de datos y otras violaciones de la privacidad personal llevó a la Unión Europea a aprobar el Reglamento general de protección de datos ( RGPD ), una ley de privacidad de datos que entró en vigor en mayo de 2018. El RGPD limita los tipos de datos que las organizaciones pueden recopilar y requiere el consentimiento de las personas o el cumplimiento de otras razones especificadas para recopilar datos personales. También incluye una disposición sobre el derecho a ser olvidado, que permite a los residentes de la UE pedir a las empresas que eliminen sus datos.
Aunque no hay leyes federales similares en los EE.UU., la Ley de Privacidad del Consumidor de California ( CPCA ) tiene como objetivo dar a los residentes de California más control sobre la recopilación y uso de su información personal por las empresas que hacen negocios en el estado. El CCPA se promulgó en 2018 y entró en vigor el 1 de enero de 2020.
Para asegurarse de que cumplen con esas leyes, las empresas deben gestionar cuidadosamente el proceso de recopilación de macrodatos. Deben establecerse controles para identificar los datos regulados e impedir que los empleados no autorizados accedan a ellos.
El lado humano de la gestión y análisis de big data
En última instancia, el valor comercial y beneficios de las iniciativas de macrodatos dependen de los trabajadores encargados de gestionar y analizar los datos. Algunas herramientas de big data permiten a los usuarios menos técnicos ejecutar aplicaciones de análisis predictivo o ayudar a las empresas a implementar una infraestructura adecuada para proyectos de big data, minimizando al mismo tiempo la necesidad de hardware y conocimientos de software distribuido.
Big data puede ser contrastado con pequeños datos, un término que a veces se utiliza para describir conjuntos de datos que se pueden utilizar fácilmente para BI y análisis de autoservicio . Un axioma comúnmente citado es: "Los grandes datos son para las máquinas; los pequeños datos son para las personas".
Artículos Relacionados: