¿Qué son los datos en palabras simples?

Y por qué necesitamos gestión de datos, alfabetización de datos y análisis de datos

Los datos se han convertido en una palabra tan común que muchos de nosotros probablemente nunca hemos pensado en su definición exacta. Lo primero que aparece en nuestra mente acerca de los datos es muy probablemente una hoja de cálculo, una tabla o un gráfico, que comprende números y etiquetas. Cuando todo el mundo habla de big data, se vuelve aún más abstracto como un enorme número de bytes flotando a través de los dispositivos y servidores y requiere programas para descifrarlos. Mientras que los datos pueden ser entendidos por las máquinas, ha perdido la mayor parte de su significado para los seres humanos cuando se almacenan en un archivo o tabla. Contamos con otras personas, documentación, arquitectura de datos y flujos de datos para restaurar el pleno sentido de una pieza de datos en relación con el mundo real. A menudo comparamos los datos con el petróleo o la tierra, que espera a que la gente descubra y realice sus valores. Sin embargo, a medida que se recopilan y procesan los datos, a menudo se pierde la información contextual más útil, lo que hace más difícil descubrirla y aprovecharla aún más. Este artículo discutirá este problema y por qué necesitamos gestión de datos, alfabetización de datos y análisis de datos para resolverlo para cada organización.

Veamos primero cómo se definen los datos en el diccionario. Diccionario Merriam-Webster define datos en 3 aspectos:

  • Información factual (como mediciones o estadísticas) utilizada como base para el razonamiento, la discusión o el cálculo
  • Información en formato digital que puede transmitirse o procesarse
  • La información obtenida por un dispositivo u órgano de detección que incluya información útil e irrelevante o redundante y que deberá procesarse para que sea significativa.

Indica que todo sobre los datos está relacionado con la información. Entonces abajo está cómo información se define en el mismo diccionario:

1.a Conocimientos obtenidos de investigación, estudio o instrucción

1.b El atributo inherente y comunicado por una de dos o más secuencias o arreglos alternativos de algo

1.c.1 Una señal o carácter (como en un sistema de comunicación o en un ordenador) que represente los datos

1.c.2. Algo (como un mensaje, datos experimentales o una imagen) que justifica el cambio en un constructo (como una pluma o una teoría) que representa la experiencia física o mental u otro constructo

1.d Una medida cuantitativa del contenido de la información

2. La comunicación o recepción de conocimiento o inteligencia.

Comparando las dos definiciones, podemos derivar que la información es más útil que los datos. La información se crea y utiliza a través de la comunicación después de estudiar y analizar los datos. Por el contrario, los datos deben recopilarse primero para representar un grupo de hechos y luego procesarse para proporcionar información significativa. Al final, la información se almacena y manifiesta por los datos, de varias maneras, sólo cuando ofrece perspicacia, conocimiento y valor.

Dicho esto, los datos no siempre pueden ser equivalentes a la información y deben existir antes que la información. La definición del Diccionario Inglés de Oxford de: datos es mucho mejor:

  • Datos y estadísticas reunidos conjuntamente para su referencia o análisis

1) Las cantidades, caracteres o símbolos en los que las operaciones son realizadas por un ordenador, se almacenan y transmiten en forma de señales eléctricas y se registran en medios de grabación magnéticos, ópticos o mecánicos.

2) Cosas conocidas o asumidas como hechos, haciendo la base del razonamiento o cálculo.

La definición de información en el Oxford English Dictionary, por otro lado, está muy cerca de la definición de Merriam-Webster.

Los datos ya existían antes de las computadoras. Cuando observaron el mundo, por ejemplo, los científicos primero recogieron los datos con enfoques reflexivos y luego concluyeron de ellos después de un análisis exhaustivo de los datos. Desde el principio, los datos eran fundamentales para que los científicos hicieran observaciones objetivas, y el propósito de la recopilación de datos era extraer información imparcial, por lo tanto, conclusiones. Mientras tanto, los detalles sobre cómo se recolectaron, analizaron, muestrearon y calcularon los datos se presentaron en el artículo final de investigación publicado. En otras palabras, el propio trabajo de investigación explicó en longitud los datos, lo cual es significativo y comprensible para cualquiera que lea el artículo. Aquí, los datos sobre los datos es lo que llamamos meta-datos hoy en día, y la capacidad de los científicos para leer, entender, crear y comunicar sobre los datos es la alfabetización de datos.

Por definición, los datos mismos deben reflejar un hecho o un grupo de hechos en el mundo real, que es su característica más importante. Los datos se pueden recopilar de diferentes maneras y almacenar en varios formatos, y la manera óptima depende de la utilidad y la eficiencia. Podría haber muchos atributos de un hecho. Se necesita mucho más recursos y tiempo para recoger todos los detalles, mientras que un subconjunto puede no ser suficiente al final. La eficiencia también depende del formato y la estructura de los datos. Poner los datos en forma numérica de una manera cuantitativa toma la menor cantidad de almacenamiento y permite un rápido procesamiento de datos.

Por otra parte, la información es sobre lo que puede derivarse y aprovecharse de los datos. Es más abstracto y requiere un diseño y una programación cuidadosos para recuperar lo que necesitan las partes interesadas en los datos. Imagine que los datos fluyen a través de una tubería de fábrica. Los datos transformados y curados hacia el final se convierten en la información para realizar el valor de los datos, mientras que los datos brutos inicialmente no lo hacen. Cuando los datos se convierten en información, su valor esperado se realiza. Si para buscar más valor fuera de los datos, tenemos que volver a la fuente de datos. Sin embargo, la tubería de datos, a menudo a través de múltiples sistemas, tiende a alejar más los datos de su inicio y oscurecer los detalles iniciales de la recopilación de datos. Por lo tanto, hace que los datos sean más difíciles de entender por la comunidad empresarial y crea una barrera para que los datos se aprovechen de manera rápida y eficiente.

Con la complejidad de la tecnología hoy en día, ninguna persona puede hacer todos los aspectos de los datos, incluyendo la recopilación, el análisis, la creación, la conclusión y la comunicación. IT se convierte en el productor de información al centrarse en el procesamiento de datos y la curaduría, al tiempo que confía en la empresa para dar los requisitos. En cambio, las empresas a menudo no tienen toda la documentación y los metadatos para entender los datos en primer lugar. Además, cuando se entrega una pieza de datos comisariados, la vista de datos podría estar ya siloed, y su valor potencial puede haber sido enterrado a partir de nuevos descubrimientos.

Para realizar plenamente el potencial de los datos, necesitamos establecer la gestión de los datos, el análisis de datos y la alfabetización de los datos en las cuatro esferas de interés principales siguientes:

1. Describa los datos de manera significativa

Los datos almacenados en una tabla de bases de datos son una representación abstracta y técnica de lo que pretende representar. El documento para cualquier dato recopilado es información vital y debe tener para que una organización acepte y almacene los datos en primer lugar. Los datos deben describirse utilizando el lenguaje de negocio, como los atributos, eventos relacionados, mapas de los valores, valores de ejemplo, reglas de negocio, etc. Debería establecerse un glosario empresarial para asegurar que cada término o acrónimo comercial tenga una definición coherente para una organización. Las categorizaciones y la clasificación adecuadas de los elementos de datos pueden mejorar aún más las descripciones de los datos. En otras palabras, los datos deben describirse en un lenguaje común que cualquiera pueda entender y relacionarse con lo que representa.

2. Describir datos con contexto y flujos de datos

A medida que los datos se transmiten a través de los sistemas, rápidamente se convierten en entidades por su cuenta. La arquitectura de datos debe ser el primer nivel de documentación para poner los datos en un contexto empresarial (ver mi artículo ¿Cuál es la arquitectura de datos que necesitamos? ). A continuación, debe documentarse toda la información contextual de los datos, incluidos los casos de uso, las fuentes de datos, los métodos de recopilación de datos, las reglas de transformación de datos, las referencias relacionadas, etc. Cualquier dato tiene su origen. Todos los datos deben ser creados o curados con un caso de uso o propósito (por ejemplo, limpieza, estandarización). La documentación debe venir junto con los datos promovidos a través del ciclo de vida del desarrollo con el código, programas y paquetes. En otras palabras, los datos no son estáticos sino fluidos. La descripción de los datos en el contexto de los flujos de datos relacionados con otros datos es esencial para una comprensión completa y precisa.

Para una organización con cientos y miles de conjuntos de datos, necesita un Catálogo de Datos y Gobernanza de Datos para gestionar y centralizar las definiciones de datos de manera efectiva. Data Catalog captura y almacena metadatos, descripciones, categorizaciones de datos y clasificaciones de todos los activos de datos. La gobernanza de los datos es hacer cumplir los procesos de definición de datos. La madurez del catálogo de datos y la gobernanza de los datos se correlacionan directamente con el grado de eficiencia en una organización de datos para hacer que los datos sean bien entendidos, confiables y apalancados. La falta de ella provoca el despilfarro de recursos debido a la confusión, el exceso de tiempo empleado en las reuniones para obtener información, duplicaciones de datos, errores innecesarios en los datos y cajas negras de datos tratadas por los usuarios de negocios. Además, a medida que una organización madura en la gobernanza de los datos, documentar los datos trabajando directamente con el Catálogo de Datos debe convertirse en un hábito para todos los que trabajan con los datos o los utilizan, lo que en última instancia conduce a una comunidad empresarial feliz dada la transparencia para confiar en los datos que se les proporcionan.

Los científicos de datos y los profesionales del análisis de datos (por ejemplo, gerentes de productos, analistas de datos) se han hecho muy populares en los últimos años, que entienden los datos de sus fuentes iniciales a través de los procesos de solución para resolver problemas empresariales. Sus responsabilidades son similares a lo que hace un científico, para diseñar el experimento, recoger los datos, realizar el análisis de datos y sacar las conclusiones. Con esto dicho, los científicos tienen la hipótesis primero y desarrollar los métodos de recolección de datos en consecuencia. No es tan fácil en el mundo de los negocios debido al desglose entre las TI, que recopila los datos, y los departamentos de negocios que los utilizan. Los datos a veces se pueden recopilar sin un propósito, o los datos pueden sentarse en algún lugar sin ser entendidos o utilizados. Los científicos de datos, los gerentes de productos y los analistas de datos desempeñan el papel de salvar la brecha documentando los datos, defendiendo la arquitectura de los datos, aprovechando el catálogo de datos, apoyando la gobernanza de los datos y, en última instancia, permitiendo a la empresa descubrir y realizar plenamente el valor potencial de los datos.

El concepto de datos no es nuevo. La primera instancia de recopilación y aprovechamiento de datos puede remontarse hasta 19.000 a.C. . Los datos se convierten en una palabra formal en latín que data de los años 1600 al analizar, descubrir y sacar conclusiones de los datos se convirtieron en práctica común en muchas disciplinas de la sociedad. Con el auge de la tecnología y la conquista constante de un volumen de datos cada vez mayor, los datos a menudo han perdido su significado en “traducciones”. La gestión de datos, la gobernanza de datos y el análisis de datos son cruciales para hacer que los datos se entiendan y se comuniquen en un lenguaje común para impulsar su valor comercial. Lo que se logra al mismo tiempo es precisamente la Alfabetización de los datos que Gartner ha defendido: “la capacidad de leer, escribir y comunicar datos en el contexto, incluyendo la comprensión de las fuentes y construcciones de datos, métodos analíticos y técnicas aplicadas — y la capacidad de describir el caso de uso, la aplicación y el valor resultante.”

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +