¿Qué hace un científico de datos diariamente?
Data Science fue nombrada la profesión más sexy de Forbes Magazine en 2014, además de ser la carrera STEM de mayor tendencia en la edición de julio de Ebony Magazine. Esto ha llevado a muchos a preguntarse cómo ellos, también, pueden entrar en la profesión de la ciencia de los datos. Entonces, ¿qué es un día típico en la vida de un científico de datos?
¿Cómo es la ciencia de los datos similar a otros trabajos?
"Un científico de datos es alguien que es mejor en estadística que cualquier ingeniero de software y mejor en ingeniería de software que cualquier estadístico". - Josh Wills de Cloudera
La cita anterior ilustra dos trabajos estrechamente relacionados con la ciencia de datos y la naturaleza híbrida del análisis de macrodatos. Por lo general, los estadísticos no son aptos en lenguajes de programación de tendencias, estructuras de datos, o las áreas avanzadas de la informática y muchos ingenieros de software pueden no saber tanto sobre algoritmos avanzados matemáticos y de aprendizaje automático para analizar, agrupar y clasificar datos. La novedad del término "científico de datos" ha llevado a muchos desacuerdos sobre una definición formal del término, pero hablando con muchos en el campo un día de trabajo típico se centra generalmente en el concepto de código de escritura para algoritmos matemáticos y estadísticos, a menudo tratando con conjuntos de datos "grandes".
¿Qué tipo de problemas resuelve un científico de datos?
En un nivel básico, la tarea general de un científico de datos es buscar patrones en grandes conjuntos de datos. Sin embargo, por lo general se deja mucho contexto fuera de esta tarea. Una vez que tenemos una comprensión de los datos y qué preguntas nos gustaría responder, hay una pregunta de los mejores y más eficientes métodos para responder a estas preguntas. Estos dos no siempre están de acuerdo y cuando no lo están, la diferencia a menudo puede ser grande. Este es un problema común en la informática. Por ejemplo, cuando estamos buscando el elemento máximo, necesitamos ordenar todos los elementos y seleccionar el elemento en la parte superior de la pila, o simplemente ejecutar un algoritmo de búsqueda. Del mismo modo en la ciencia de los datos, una pregunta puede ser si hay una necesidad de ejecutar un algoritmo como el clustering (que puede ser caro si requiere múltiples iteraciones a través de un conjunto de datos grandes) o podemos responder a estas preguntas con un cálculo de distancia más simple?
¿Cuánto de ser un científico de datos está sentado frente a una computadora versus dar presentaciones versus trabajar en grupos?
La mayor parte de mi tiempo como científico de datos se dedica a investigar, escribir algoritmos y escribir código para responder a las preguntas sobre los conjuntos de datos en cuestión. Una parte fundamental de la ciencia de los datos implica el trabajo en grupo - la obtención de los datos, la comprensión de los datos, y la comprensión y análisis de lo que se desea de los datos. Si todos estos roles son ocupados por una persona (yo) o por un grupo de personas depende de cómo se establezca su equipo, pero como científico de datos generalmente tengo a alguien con quien estoy trabajando que puede proporcionarme más información sobre los datos, responder preguntas relevantes y aclarar cualquier confusión. Además de esto, puede haber preguntas de desarrolladores y estadísticos sobre nuestro trabajo como científico de datos que comparan los métodos que usamos con otros métodos en sus campos. En este tipo de entornos, puede ser importante que un científico de datos dé algunas presentaciones para poder responder a tales preguntas.
¿Qué es lo más estresante/recompensador de ser un científico de datos?
Como matemático hay una cierta sensación de satisfacción en ver la necesidad de algoritmos avanzados para ayudar a resolver problemas en el mundo real. Una cosa es leer un libro de texto con problemas de ejemplo. Es un sentimiento totalmente diferente escuchar acerca de un problema del mundo real y utilizar su conocimiento para resolverlo. Del mismo modo, ser capaz de escribir el código y ver esto se desarrolla de un problema, a una idea a un algoritmo, a un programa en ejecución es un proceso grande y agradable.
Sin embargo, para llegar a esa última etapa de un programa en ejecución, a menudo tenemos que pasar por lo que se conoce como depuración. Este es un proceso de búsqueda de errores en el código que impide que el programa se ejecute o conduce a soluciones incorrectas. Esto puede ser un proceso desafiante por una serie de razones - algunas similares a las razones por las que un desarrollador encontraría estresante la depuración, y otras porque la ciencia de datos a menudo implica trabajar en entornos en la nube que requieren algunas de las prácticas estándar para la depuración de programas en un entorno tradicional para ser revisado.
Artículos Relacionados: