¿Cuáles son los tres campos principales de la ciencia de los datos?

La ciencia de los datos es un campo inherentemente interdisciplinario, y haríamos bien en recordarlo.

Durante la conferencia de apertura de la primera clase de ciencias de datos que tomé como estudiante, el profesor presentó el diagrama de Venn arriba. No pude encontrar la presentación exacta, así que hice todo lo posible para hacer una copia del diagrama mientras mantenía los puntos clave.

Mirando hacia atrás, sospecho que nos golpeó con esta imagen desde el principio porque quería que recordáramos los cimientos de la ciencia de datos en un mundo cada vez más distraído por los productos brillantes y glamurosos de Silicon Valley.

Hoy en día, todo el mundo parece obsesionado con algunos nuevo tema caliente o la tecnología para la ciencia de datos, ya sea PyTorch, TensorFlow, la actualización más reciente de Tableau, o los modelos de procesamiento de lenguaje natural de última generación de Google. ¿Qué tienen en común todos estos temas? Son innegables. técnico.

No me malinterpretes. La experiencia técnica es sin duda un componente esencial de la labor eficaz de la ciencia de los datos, pero no es la sólo componente. Por su propia naturaleza, la ciencia de los datos es un campo interdisciplinario. Para sobresalir en ella, es importante sacar provecho de todas sus disciplinas elementales.

En este artículo, presentaré los tres bloques básicos de la ciencia de los datos —estadísticas, informática y conocimientos de dominio— y discutiré cómo cada uno es importante para el campo, así como explorar lo que puede salir mal si se descuida uno o más.

Estadística

La mayoría de nosotros probablemente lanzamos la palabra estadísticas alrededor para reforzar cualquier argumento aleatorio que hacemos, pero ¿podemos definirlo realmente? Según Oxford Languages, las estadísticas son “la práctica o ciencia de recopilar y analizar datos numéricos en grandes cantidades, especialmente con el fin de inferir proporciones en un todo de las de una muestra representativa” [1].

En términos más simples, las estadísticas miran a un montón de números y tratan de encontrar patrones significativos en ellos. Generalmente se divide en dos ramas: 1) estadísticas descriptivas , que trata de describir patrones en los datos existentes, y 2) estadísticas inferenciales , que busca hacer predicciones sobre datos futuros.

Hay dos facetas importantes que señalar en la definición original:

Tradicionalmente, las estadísticas —como consecuencia de las matemáticas— se centran en numérico datos. Como veremos, este no es necesariamente el caso de la ciencia de los datos.
Las estadísticas exactas dependen de un representante Muestra. Esto se relaciona con el punto 1, porque un enfoque ciego en los números puede trabajar activamente contra este objetivo.

Las estadísticas eran ciencias de los datos antes de que existieran. La gente ha estado analizando datos para obtener información durante siglos, pero la ciencia formal de los datos es un campo relativamente nuevo. ¿Por qué? Bueno, en los viejos tiempos, los datos se recolectaban a mano en cantidades relativamente pequeñas, lo que a su vez significaba que también podían ser analizados a mano. Sin embargo, con el advenimiento de las computadoras, la cantidad de datos de que disponemos aumentó exponencialmente, y las estadísticas por sí solas ya no bastaron para procesarlos y estudiarlos.

Esto nos lleva al siguiente componente de la ciencia moderna de los datos.

Ciencias de la computación

Volviendo a nuestro buen amigo Oxford Languages, podemos definir la informática como “el estudio de los principios y el uso de las computadoras”.

Hmm. No es muy informativo. Probablemente incluso un poco engañoso.

Muchas personas por defecto a la ciencia de la computación pensar es equivalente a la programación o la ingeniería de software. En realidad, las ciencias de la computación incluyen una gama de temas diferentes, incluyendo, entre otros, gráficos, informática teórica, sistemas operativos, arquitectura informática, diseño de algoritmos y lenguajes de programación.

Lo que conecta todos estos campos —y por lo tanto define la informática como un todo— es el uso de programas informáticos para realizar operaciones lógicas paso a paso para resolver algún problema. De hecho, eso es todo un “ordenador” es — una máquina que realiza una serie de pasos lógicos. La informática implica la manipulación activa de esos pasos en la búsqueda de un objetivo específico.

La mayor ventaja de las computadoras es que pueden realizar cálculos mucho, mucho más rápido que los humanos. Esta es la razón principal por la que la informática es un componente principal de la ciencia de los datos.

En teoría , la ciencia de los datos podría existir sin computadoras. Las computadoras no proporcionan la base matemática para analizar los datos — ese es el papel que juegan las estadísticas. En un mundo donde los humanos pudieran pensar y escribir a la velocidad de la luz, las estadísticas podrían ser suficientes.

Pero en la práctica , hay tantos datos que sería imposible recopilarlos, estudiarlos, procesarlos y analizarlos a mano. Entra en la informática, la herramienta moderna que facilita la comprensión de los big data.

En este punto, podemos ver que las estadísticas proporcionan la base matemática para la ciencia de datos, y la informática proporciona la capacidad de procesamiento del mundo real para la ciencia de datos.

Sin embargo, ambos caen planos sin el tercer elemento, igualmente importante.

Experiencia de dominio

Esta vez, no hay definición de Oxford Languages a partir de, porque la experiencia de dominio no es realmente un solo campo; es más de un término general que se entiende mejor de la siguiente manera.

Vamos a hacernos una pregunta: al hablar de la ciencia de los datos, ¿dónde está el datos ¿De verdad? ¿Es un término matemático restante de alguna ecuación estadística? ¿O una construcción escurridiza escondida en algún lugar del hardware de una computadora?

Esas pueden parecer preguntas estúpidas, pero se vuelven un poco menos tontas cuando consideramos que tantos científicos de datos autoproclamados están tan obsesionados con los números y el código que olvidan el éxito de ambos depende fundamentalmente de los datos en sí.

¿Y dónde se originan los datos? Los dominio.

Los datos no valen nada sin el contexto para comprenderlos adecuadamente —contexto que sólo puede obtenerse por medio de un experto en dominios : alguien que entiende el campo de donde provienen los datos y así puede proporcionar las perspectivas necesarias para interpretarlos correctamente.

Consideremos un ejemplo de juguete para ilustrar esto. Imagina que recopilamos datos de un montón de diferentes juegos de golf de los últimos años del PGA Tour. Obtenemos todos los datos, los procesamos y organizamos, los analizamos, y publicamos con confianza nuestros hallazgos, habiendo comprobado tres veces todas nuestras fórmulas y cálculos.

Y luego, nos convertimos en hazmerreír de los medios de comunicación. ¿Por qué? Bueno, ya que ninguno de nosotros ha jugado al golf, no nos dimos cuenta de que puntuaciones más bajas corresponde a un un mejor rendimiento . Como resultado, todos nuestros análisis se basaron en lo contrario, y por lo tanto incorrecto.

Esto es obviamente una exageración, pero consigue el punto a través. Los datos sólo tienen sentido en el contexto, por lo que es esencial consultar con un experto en dominios antes de intentar sacar conclusiones.

Algunos pensamientos finales

Cuando empecé mi programa de doctorado en interacción humano-computadora y ciencia de datos centrada en el ser humano hace seis meses, compartí un curioso intercambio con uno de los profesores de mi departamento. Para el contexto, él viene de un fondo de sociología.

Unos cuantos compañeros de estudio se reunían con él para tomar un café para discutir los intereses de investigación que se cruzaban; me encontré con ellos al azar, y me preguntó cuáles eran los míos. Respondí que estudié ciencias de datos centradas en el ser humano, educación en ciencias de la computación y visualización.

Se centró en mi primer punto, y pasó a discutir brevemente cómo sus proyectos de investigación giran en torno a la historia y la sociología de la tecnología. Describió cómo examina las infraestructuras básicas de la tecnología de la información, y está interesado en las organizaciones que apoyan las actividades científicas mediante el suministro de datos y herramientas computacionales (sonido familiar?).

Terminó con una broma a medias, riéndose y diciendo: “Así que, yo mismo soy algo así como un científico de datos centrado en el ser humano”.

En ese momento, no pensé mucho en ello, pero en los últimos seis meses, he empezado a ver su punto de vista. Su papel es facilitar y abogar por el experto en dominios para que las personas puedan entender e interpretar adecuadamente sus datos en el contexto — un puesto de trabajo cuya importancia no puede exagerarse.

La informática proporciona las herramientas necesarias para recopilar, procesar y analizar datos a escala. Sin ella, no hay manera de que seamos capaces de comprender la gran cantidad de datos disponibles para nosotros en el mundo moderno.
La experiencia en el dominio proporciona las herramientas necesarias para contextualizar y entender los datos. Sin ella, corremos el riesgo de sacar conclusiones inexactas basándose en técnicas matemáticas y computacionales que pasan por alto complejidades de los datos sólo visibles para un experto en campo.