¿Qué es la conclusión de la ciencia de los datos?

La combinación de las palabras datos y ciencias no dar mucha pista en cuanto a lo que ciencias de los datos Podría significar. La mayoría de la ciencia tiene datos, y la mayor parte del trabajo en la ciencia es el análisis de datos.

Porque el nombre ciencias de los datos puede abarcar una amplia gama de temas, ha resultado difícil de definir.

Podemos hacer que la definición sea muy amplia. Por ejemplo, los datos de UC Berkeley libro de texto de la ciencia tiene esto definición

Data Science trata de sacar conclusiones útiles a partir de datos grandes y diversos a través de la exploración, predicción e inferencia.

Como verán, no creemos que esta definición tan amplia capture lo que es realmente nuevo en el movimiento de la ciencia de los datos. Preferimos definir la ciencia de los datos como a nuevo cultura de análisis de datos - así:

La ciencia de los datos es un enfoque para el análisis de datos con una base en código y algoritmos.

¿Por qué elegimos esta definición? ¿Y eso importa?

Comenzamos con la segunda pregunta. Si la ciencia de los datos es importante, entonces necesitamos la definición correcta con el fin de elegir lo que hacemos y enseñamos.

¿Importa la ciencia de los datos?

Incluso si la ciencia de los datos es difícil de definir, tiene una influencia significativa en la planificación de la educación y la ciencia.

David Donoho es un eminente estadístico de la Universidad de Stanford. Él recientemente escribió un artículo reflexionando sobre la ciencia de los datos, cómo era definido, y lo que podría significar. Le preocupaba que la ciencia de los datos se definiría de manera estrecha, en términos de macrodatos y máquina aprender. Estaba preocupado porque pensaba que la ciencia de los datos era importante - que debería ser:

Para Donoho, la ciencia de los datos es el redescubrimiento de los poderosos métodos de los datos exploración y análisis utilizados y enseñados por estadísticos como John W. Tukey (Tukey, 1962) . Estos métodos serán revolucionarios para el futuro de análisis de datos.

Mientras tanto, los educadores, especialmente en los Estados Unidos, han llegado a la conclusión de que los datos Las técnicas científicas son fundamentales para el futuro de la educación. Un informe de 2018 de las Academias Nacionales de Ingeniería Científica y Medicina recomendó que:

... las instituciones académicas deben fomentar el desarrollo de un comprensión de la ciencia de los datos en todos los pregrados

Los orígenes de la ciencia de los datos

La frase “ciencia de datos” ha existido durante mucho tiempo (Prensa, 2013) pero argumentamos que el término en su uso actual es muy reciente. Como se utiliza actualmente, la frase “ciencia de datos” viene del trabajo título “científico de datos”, y el título del trabajo provino de la industria de la tecnología. D.J. Patil, en LinkedIn, y Jeff Hammerbacher, en Facebook, notaron que una “nueva raza” de analistas de datos - estos eran científicos que podían codificar. Thomas Davenport y Patil más tarde describió este fenómeno en un famoso artículo “Datos Científico: El trabajo más sexy del siglo XXI” (Davenport & Patil, 2012) . Una sección del artículo es “Quiénes son estas personas”:

... lo que los científicos de datos hacen es hacer descubrimientos mientras nadan en los datos... A gusto en el ámbito digital, son capaces de llevar la estructura a grandes cantidades de datos sin forma y hacer posible el análisis. ... Científicos de datos» la habilidad más básica y universal es la capacidad de escribir código.

La mayoría había llegado a codificar a través de su trabajo científico:

Algunos de los mejores y más brillantes científicos de datos son doctorados en campos esotéricos como la ecología y la biología de sistemas. George Roumeliotis, el jefe de un dato equipo de ciencias en Intuit en Silicon Valley, tiene un doctorado en astrofísica.

Estas personas necesitaban un nuevo título de trabajo, porque eran mucho más eficaces que otros analistas de datos. Debido a que podían codificar, fueron capaces de analizar un mucho más amplia gama de datos, y podrían construir programas para hacer tareas difíciles como el análisis de conjuntos de macrodatos.

Poco después de estos artículos, el científico de datos comenzó a convertirse en un trabajo muy valioso título, con muchas empresas compitiendo para encontrar personas que podrían hacer este trabajo.

Una nueva cultura

Los científicos de datos en la industria no estaban haciendo nada nuevo, en un sentido académico. Estaban aplicando las habilidades que habían aprendido en el mundo académico. Céntrico para estos habilidades era la capacidad de construir análisis en código. Resultó que hacer esto llevó naturalmente a muchas de las poderosas prácticas descubiertas y descritas por estadísticos como John W. Tukey (Tukey, 1962) y Leo Breiman (Breiman, 2001) .

¿Qué hay de nuevo en la ciencia de los datos?

¿Cuáles son estas prácticas, que hacen que los científicos de datos sean tan eficaces en la industria y el mundo académico?

La fundación es código. En el fondo, la novedad en el trabajo de los científicos de datos no es novedad en absoluto - es sólo el descubrimiento de que ser capaz de utilizar código hace una gran diferencia en los análisis que se puede hacer, y las conclusiones que se pueden extraer. El análisis basado en el código es:

Versátil. El código nos permite analizar grandes, desordenados, mezclados, y datos complejos - más simplemente, nos permite analizar real datos.
Realista. El verdadero trabajo de análisis es trabajar con datos reales. Gran parte de este trabajo es la limpieza, reorganización, explorando. Es a la vez complejo y repetitivo; sólo se puede hacer eficaz con el código. Si puedes codificar, entonces puedes hacer esto trabajar, describirlo, y enseñarlo.
Colaboración. Los programadores han estado trabajando durante muchos años en métodos para una colaboración eficaz. Los científicos de datos aprenden estos métodos, y aplicarlos, para que sean más transparentes, más eficiente, y mejor trabajando juntos en equipos.
Reproducible. Mucho análisis que no utiliza código, utiliza interfaces gráficas. Estos son famosos por hacer que sea difícil Graba tu análisis, o descríbelo a otra persona. Análisis basado en el código son naturalmente reproducibles, porque se puede ejecutar el código de nuevo, para producir el mismo resultado, y se puede dar a alguien tu código, para que puedan hacer lo mismo.
Más fácil de entender. La codificación nos permite cambiar nuestro énfasis de las matemáticas relativamente difíciles detrás de la vieja escuela pruebas estadísticas, tales como t-test y ANOVA, a más directamente métodos como el muestreo, incluidos los ensayos de permutación y Estimación de bootstrap. El código nos da un lenguaje para describir estos métodos de una manera sencilla y directa, y esto hace que las ideas sean más claras y fáciles de generalizar.

¿Por qué ahora?

Donoho y otros han señalado que gran parte de lo que es distintivo en el nuevo la cultura del análisis de datos ya formaba parte del análisis descrito por John W. Tukey, a mediados del siglo XX. ¿Por qué estos métodos sólo ahora han comenzado a ¿Agárrate? Creemos que tiene que ver en gran medida con los avances en las herramientas de la informática científica. En los últimos 20 años hemos visto el crecimiento de un nuevo generación de lenguajes de programación con sintaxis clara y potente, como Python. Otro lenguaje ampliamente utilizado en la ciencia de los datos es R, la estadística lenguaje de programación. Los iniciadores de R estaban pensando específicamente en los datos análisis al diseñar el lenguaje. Python y R son libres, y de código abierto, por lo que se han beneficiado de la explosión de la productividad en código abierto software . As estas lenguas se han desarrollado, han atraído a más científicos-programadores, que construyen nuevas bibliotecas para análisis de datos y estadísticas. Mientras tanto programadores en la industria han aprendido de la manera difícil, lo difícil que puede ser para escribir código claro y eficaz, y hay un cuerpo sustancial de pensamiento y práctica sobre el proceso para escribir y compartir código. Este proceso se extendió a la mundo de la programación de código abierto, que conduce a un gran aumento de la calidad y eficiencia del código académico. La combinación de lenguas más ricas y más claras, mejores bibliotecas, y un mejor proceso de trabajo han hecho posible hacer mucho más con código de lo que era posible anteriormente. Como resultado, muchos más científicos puede escribir un buen código, y por lo tanto, muchos más científicos utilizan código para los datos análisis. Con el tiempo, estos científicos aparecieron en empresas que problemas difíciles en el análisis de datos, y mostró la eficacia de estas habilidades Podría ser. Estos fueron los científicos de datos descritos por Patil y Hammerbacher.

Elementos de la ciencia de los datos

Si tenemos razón, entonces la ciencia de los datos se define por lo que los científicos de datos Hazlo. ¿Qué hacen?

Recopilan datos de muchas fuentes;
Limpian los datos desordenados, y los utilizan para tratar de recuperar significativos información. Pero son escépticos, y saben cuando los datos no pueden ser confiados para obtener conclusiones sólidas.
Exploran datos, para encontrar errores y patrones inesperados. Ellos probablemente usará diferentes maneras de hacer gráficos y gráficos de la datos, para diagnosticar y resumir.
Trabajan duro para entender el proceso que generó los datos, para hacer que sus conclusiones sean significativas.
Ellos entienden la variación, y los problemas y limitaciones para sacar conclusiones de datos ruidosos e incompletos.
A menudo tratan de predecir cómo serán los nuevos datos, desde el viejo datos. Utilizarán métodos antiguos y nuevos para hacer esto, incluyendo métodos de aprendizaje automático y estadísticas.

Conclusión

La ciencia de los datos es nueva, y todavía estamos trabajando en lo que es. En el momento, se define mejor por lo que hace un científico de datos. A. Datos científico utiliza la programación como la base para una más profunda, más flexible enfoque del análisis de datos.