¿Cuál es el nombre del big data sus 3 características?

Sinopsis:

El término "Big Data" es un poco de un mal nombre ya que implica que los datos preexistentes son de alguna manera pequeños (no lo es) o que el único desafío es su tamaño (el tamaño es uno de ellos, pero a menudo hay más).

En resumen, el término Big Data se aplica a la información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales.

Cada vez más, las organizaciones enfrentan cada vez más desafíos de Big Data. Tienen acceso a una gran cantidad de información, pero no saben cómo sacar valor de ella porque está sentada en su forma más cruda o en un formato semiestructurado o no estructurado; y como resultado, ni siquiera saben si vale la pena conservarla (o incluso si es capaz de conservarla).

En este artículo, analizamos el concepto de big data y de qué se trata.

  • ¿Qué es Big Data?
  • Características de los macrodatos
  • El volumen de datos
  • La variedad de datos
  • La velocidad de los datos

¿Qué es Big Data?

¡Somos parte de ella, todos los días!

Una encuesta de IBM encontró que más de la mitad de los líderes empresariales hoy en día se dan cuenta de que no tienen acceso a las ideas que necesitan para hacer su trabajo. Las empresas se enfrentan a estos desafíos en un clima en el que tienen la capacidad de almacenar cualquier cosa y están generando datos como nunca antes en la historia; combinados, esto representa un verdadero desafío de información.

Es un enigma: el negocio de hoy tiene más acceso que nunca a la información potencial, sin embargo, a medida que esta potencial mina de oro de datos se acumula, el porcentaje de datos que el negocio puede procesar está bajando rápidamente. Simplemente, la era de los Big Data está en pleno vigor hoy porque el mundo está cambiando.

A través de la instrumentación, somos capaces de sentir más cosas, y si podemos sentirlo, tendemos a tratar de almacenarlo (o al menos algo de él). A través de los avances en la tecnología de las comunicaciones, las personas y las cosas se están interconectando cada vez más, y no solo parte del tiempo, sino todo el tiempo. Esta tasa de interconectividad es un tren fugitivo. Generalmente denominada máquina a máquina (M2M), la interconectividad es responsable de las tasas de crecimiento de datos de doble dígito a lo largo del año (YoY).

Finalmente, debido a que los pequeños circuitos integrados son ahora tan baratos, somos capaces de agregar inteligencia a casi todo. Incluso algo tan mundano como un coche ferroviario tiene cientos de sensores. En un vehículo ferroviario, estos sensores rastrean cosas tales como las condiciones experimentadas por el vehículo ferroviario, el estado de las piezas individuales, y datos basados en GPS para el seguimiento de envíos y la logística. Después de descarrilamientos de trenes que reclamaron grandes pérdidas de vidas, los gobiernos introdujeron regulaciones para que este tipo de datos se almacenen y analicen para prevenir futuros desastres.

Los vagones también se están volviendo más inteligentes: los procesadores se han añadido para interpretar los datos de los sensores sobre las piezas propensas al desgaste, como los rodamientos, para identificar las piezas que necesitan reparación antes de fallar y causar más daños, o peor aún, desastres. Pero no son sólo los vagones de ferrocarril los que son inteligentes: los reales tienen sensores cada pocos pies. Además, los requisitos de almacenamiento de datos son para todo el ecosistema: automóviles, vías férreas, sensores de cruce de vías férreas, patrones meteorológicos que causan movimientos ferroviarios, etc.

Ahora añada esto al seguimiento de la carga de un vagón de ferrocarril, las horas de llegada y salida, y usted puede ver muy rápidamente que tiene un problema de Big Data en sus manos. Incluso si cada bit de estos datos era relacional (y no lo es), todo va a ser crudo y tiene formatos muy diferentes, lo que hace que el procesamiento en un sistema relacional tradicional sea poco práctico o imposible. Los vagones son sólo un ejemplo, pero en todas partes miramos, vemos dominios con velocidad, volumen y variedad que se combinan para crear el problema de Big Data.

¿Cuáles son las características del Big Data?

Tres características definen Big Data: volumen, variedad y velocidad.

Juntos, estas características definen “Big Data”. Han creado la necesidad de una nueva clase de capacidades para aumentar la forma en que las cosas se hacen hoy en día para proporcionar una mejor línea de visión y control sobre nuestros dominios de conocimiento existentes y la capacidad de actuar sobre ellos.

1. El volumen de datos

El gran volumen de datos que se almacenan hoy en día está explotando. En el año 2000, se almacenaron en el mundo 800.000 petabytes (PB) de datos. Por supuesto, muchos de los datos que se están creando hoy en día no se analizan en absoluto y ese es otro problema que hay que considerar. Se espera que este número alcance los 35 zettabytes (ZB) en 2020. Sólo Twitter genera más de 7 terabytes (TB) de datos todos los días, Facebook 10 TB, y algunas empresas generan terabytes de datos cada hora de cada día del año. Ya no es inaudito para las empresas individuales tener clusters de almacenamiento con petabytes de datos.

Cuando te detienes a pensar en ello, es una pequeña maravilla que nos estamos ahogando en los datos. Almacenamos todo: datos ambientales, datos financieros, datos médicos, datos de vigilancia, y la lista sigue y sigue. Por ejemplo, sacar tu smartphone de la funda genera un evento; cuando la puerta de tu tren de cercanías se abre para abordar, eso es un evento; check-in para un avión, insignia en el trabajo, comprar una canción en iTunes, cambiar el canal de televisión, tomar una ruta de peaje electrónico, cada una de estas acciones genera datos.

De acuerdo, se entiende el punto: Hay más datos que nunca y todo lo que tienes que hacer es mirar la tasa de penetración de terabyte para las computadoras domésticas personales como el signo revelador. Solíamos llevar una lista de todos los almacenes de datos que sabíamos que superaban a un terabyte hace casi una década—basta decir que las cosas han cambiado cuando se trata de volumen.

Como implica el término “Big Data”, las organizaciones se enfrentan a volúmenes masivos de datos. Las organizaciones que no saben cómo manejar estos datos se ven abrumadas por ello. Pero existe la oportunidad, con la plataforma tecnológica adecuada, de analizar casi todos los datos (o al menos más de ellos mediante la identificación de los datos que son útiles para usted) para obtener una mejor comprensión de su negocio, sus clientes y el mercado. Y esto lleva al actual dilema que enfrentan las empresas de hoy en día en todas las industrias.

Como la cantidad de datos disponibles para la empresa está en aumento, el porcentaje de datos que puede procesar, entender y analizar está en declive, creando así la zona ciega.

¿Qué hay en esa zona ciega?

Usted no sabe: puede ser algo grande o tal vez nada en absoluto, pero el “no saber” es el problema (o la oportunidad, dependiendo de cómo se mire). La conversación sobre los volúmenes de datos ha cambiado de terabytes a petabytes con un cambio inevitable a zettabytes, y todos estos datos no se pueden almacenar en sus sistemas tradicionales.

2. La variedad de datos

El volumen asociado con el fenómeno del Big Data trae consigo nuevos desafíos para los centros de datos que tratan de abordarlo: su variedad .

Con la explosión de sensores y dispositivos inteligentes, así como tecnologías de colaboración social, los datos de una empresa se han vuelto complejos, ya que no solo incluyen datos relacionales tradicionales, sino también datos crudos, semiestructurados y no estructurados de páginas web, archivos web (incluyendo datos de flujo de clics), índices de búsqueda, foros de redes sociales, correo electrónico, documentos, datos de sensores de sistemas activos y pasivos, etc.

Además, los sistemas tradicionales pueden tener dificultades para almacenar y realizar los análisis necesarios para comprender los contenidos de estos registros porque gran parte de la información que se genera no se presta a las tecnologías tradicionales de base de datos. En mi experiencia, aunque algunas empresas se están moviendo por el camino, en general, la mayoría apenas están empezando a entender las oportunidades de Big Data.

Sencillamente, la variedad representa todo tipo de datos, un cambio fundamental en los requisitos de análisis de los datos estructurados tradicionales para incluir los datos brutos, semiestructurados y no estructurados como parte del proceso de toma de decisiones y conocimiento. Las plataformas analíticas tradicionales no pueden manejar la variedad. Sin embargo, el éxito de una organización dependerá de su capacidad para obtener información de los diversos tipos de datos de que dispone, que incluyen tanto los tradicionales como los no tradicionales.

Cuando miramos atrás a nuestras carreras de base de datos, a veces es humillante ver que pasamos más de nuestro tiempo en sólo el 20 por ciento de los datos: el tipo relacional que está cuidadosamente formateado y encaja muy bien en nuestros esquemas estrictos. Pero la verdad del asunto es que el 80 por ciento de los datos del mundo (y más y más de estos datos son responsables de establecer nuevos registros de velocidad y volumen) no están estructurados, o semiestructurados en el mejor de los casos. Si miras un feed de Twitter, verás la estructura en su formato JSON, pero el texto real no está estructurado, y entender eso puede ser gratificante.

Las imágenes de vídeo y de imagen no se almacenan de manera fácil o eficiente en una base de datos relacional, cierta información de eventos puede cambiar dinámicamente (como los patrones meteorológicos), lo que no es adecuado para esquemas estrictos, y mucho más. Para aprovechar la oportunidad de Big Data, las empresas deben ser capaces de analizar todo tipo de datos, tanto relacionales como no relacionados: texto, datos de sensores, audio, vídeo, transaccionales y más.

3. La velocidad de los datos

Así como el gran volumen y variedad de datos que recopilamos y la tienda ha cambiado, también, tiene la velocidad a la que se genera y necesita ser manejada. Una comprensión convencional de la velocidad típicamente considera la rapidez con que los datos llegan y se almacenan, y sus tasas asociadas de recuperación. Si bien la gestión de todo eso rápidamente es buena, y los volúmenes de datos que estamos viendo son una consecuencia de la rapidez con que llegan los datos. Para adaptarse a la velocidad, una nueva forma de pensar sobre un problema debe comenzar en el punto de inicio de los datos. En lugar de limitar la idea de velocidad a las tasas de crecimiento asociadas con sus repositorios de datos, sugerimos que aplique esta definición a los datos en movimiento: La velocidad a la que fluyen los datos.

Después de todo, estamos de acuerdo en que las empresas actuales están tratando con petabytes de datos en lugar de terabytes, y el aumento de los sensores RFID y otros flujos de información ha llevado a un flujo constante de datos a un ritmo que ha hecho imposible que los sistemas tradicionales puedan manejar. A veces, conseguir una ventaja sobre su competencia puede significar identificar una tendencia, problema, u oportunidad sólo segundos, o incluso microsegundos, antes de otra persona.

Además, cada vez más de los datos que se producen hoy en día tienen una vida útil muy corta, por lo que las organizaciones deben ser capaces de analizar estos datos en tiempo casi real si esperan encontrar información en estos datos. En el procesamiento tradicional, se puede pensar en realizar consultas contra datos relativamente estáticos: por ejemplo, la consulta “Muéstreme a todas las personas que viven en la zona de inundación ABC” daría lugar a un único resultado conjunto para ser utilizado como una lista de advertencia de un patrón meteorológico entrante. Con la computación de flujos, se puede ejecutar un proceso similar a una consulta continua que identifica a las personas que están actualmente “en las zonas de inundación ABC,” pero se obtiene resultados continuamente actualizados porque la información de ubicación de datos GPS se actualiza en tiempo real.

Tratar eficazmente con Big Data requiere que realice análisis contra el volumen y la variedad de datos mientras todavía está en movimiento, no sólo después de que esté en reposo. Considere ejemplos desde el seguimiento de la salud neonatal hasta los mercados financieros; en todos los casos, requieren manejar el volumen y la variedad de datos de nuevas maneras.

Notas finales

Usted no puede permitirse el lujo de tamizar a través de todos los datos que está disponible para usted en sus procesos tradicionales; es sólo demasiados datos con demasiado poco valor conocido y demasiado de un costo apostado. Las plataformas de Big Data le dan una manera de almacenar y procesar económicamente todos esos datos y descubrir lo que es valioso y vale la pena explotar. Lo que es más, ya que hablamos de análisis de datos en reposo y datos en movimiento, los datos reales de los que se puede encontrar valor no sólo es más amplio, pero usted es capaz de utilizar y analizar más rápidamente en tiempo real.

Te recomiendo que revises estos artículos para familiarizarte con las herramientas para el big data-

Científicos de datos
Empresas
Visítenos

Información general sobre la privacidad

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +