¿Qué hace a un gran científico de datos?

Convertirse en un científico de datos que puede ofrecer modelos robustos y el máximo impacto

La ciencia de los datos se ha convertido en una opción profesional popular durante la última década. Glassdoor calificado científico de datos como el Segundo mejor trabajo en América en 2021. Actualmente hay cientos de campos de entrenamiento, cursos universitarios y MOOC disponibles para ayudarle a desarrollar las habilidades necesarias para convertirse en un científico de datos y conseguir un trabajo en el campo.

Sin embargo, una vez que hayas asegurado tu primera posición, ¿cómo te aseguras de seguir desarrollando tus habilidades y experiencias de la manera correcta? No tendrás un plan de estudios para trabajar y no siempre tendrás acceso a un buen mentor para dirigirte. Los cursos que tome le permitirán ser un buen científico de datos, pero la experiencia es lo que le llevará al nivel de un gran científico de datos.

“La mejor manera de aprender ciencia de datos es hacer ciencia de datos”. Chanin Nantasenamat

La cita anterior de Chanin Nantasenamat ’s excelente puesto es muy cierto. Una vez que usted ha dominado las habilidades que la mayoría de los programas de ciencia de datos le enseñan, la mejor manera de desarrollar como científico de datos es a través de la práctica. Obtendrá experiencia general de su primer trabajo como científico de datos, pero hay algunas áreas clave en las que creo que un científico de datos emergente debería centrarse. Estas áreas le permitirán convertirse en un científico de datos que puede ofrecer no sólo modelos robustos, sino también el máximo impacto para una organización.

En el resto de este artículo, cubriré las siguientes cuatro áreas para enfocarme en ganar experiencia y por qué te ayudarán a convertirte en un gran científico de datos.

  • Conocimientos especializados en materia de datos
  • Conocimiento profundo de las estadísticas
  • Conocimientos de extremo a extremo
  • Saber cuándo simplificar

Los datos son la base de cualquier producto de ciencia de datos. Todos hemos escuchado la frase “basura en la basura”, que se refiere a la importancia de la calidad de los datos, pero hay muchas otras consideraciones que hacer al preparar y seleccionar los datos.

Por lo general, los modelos no se entrenan en todos los datos disponibles, sino que se utiliza una muestra. Es importante entender profundamente sus datos para asegurarse de que la muestra que ha seleccionado sea representativa y no introduzca sesgo en su modelo. Explorar sus datos a través del análisis le ayudará a entender qué características debe utilizar y cuáles debe desechar. Puede ayudarle a seleccionar el modelo más apropiado y el método por el cual lo evaluará.

Un gran científico de datos entiende los datos íntimamente y tiene un nivel de intuición sobre lo que puede salir mal que sólo proviene de la experiencia. Cómo encontrar errores y qué hacer con ellos. Cómo explorar los datos para entender las correlaciones y patrones que existen en el conjunto de datos. Cómo manejar los datos una vez que un modelo está en producción y lo que puede salir mal. Un modelo de aprendizaje automático con defectos en los datos no necesariamente falla o produce un error. Puede que acabes con una mala modelo.

La estadística es la respuesta a cómo un científico de datos puede convertirse en uno con datos. La estadística es la herramienta que nos permite seleccionar los datos adecuados, explorarlos, limpiarlos y analizarlos. La construcción de un aprendizaje automático robusto depende también de la calidad de sus conocimientos estadísticos. Comprender cómo optimizar su modelo, interpretar la producción y evaluar el rendimiento requiere una profunda conciencia de una amplia gama de métodos estadísticos.

“Sigo diciendo que el trabajo sexy en los próximos 10 años serán estadísticos, y no estoy bromeando”, Hal Varian

Tener un profundo conocimiento de las técnicas estadísticas y una comprensión de cómo y cuándo aplicar estos métodos a la ciencia de datos es un diferenciador para un gran científico de datos. Sin suficiente formación y experiencia estadística, corres el peligro de construir muchos malos modelos.

Los productos de ciencia de datos sólo aportarán valor e impacto si se los pone en uso. Para poder utilizar un modelo debe ser operativo en un sistema orientado a las empresas. Esto puede ser un tablero de Tableau o una aplicación móvil, pero, sea cual sea el punto final, hacer que un producto de ciencia de datos esté disponible en algún lugar requiere infraestructura.

La infraestructura necesaria para llevar un modelo desde el desarrollo hasta la producción es compleja y requiere varios conjuntos de habilidades diferentes en el camino. Estas habilidades se basan en varios campos, incluyendo DevOps, ingeniería de datos, ingeniería de software, seguridad de TI y ciencia de datos.

“Los ideales no valen nada a menos que se ejecuten”, Derek Sivers

No se espera que un científico de datos sea un experto en todos estos campos. Pero un gran científico de datos debería saber lo suficiente sobre cada área del proceso de despliegue para tener conversaciones significativas con expertos de estas áreas. También es importante adquirir al menos un alto nivel de conocimientos en los ámbitos enumerados anteriormente para comprender el panorama general y poder contribuir a la toma de decisiones sobre la infraestructura necesaria para el despliegue del modelo.

El papel principal de un científico de datos es resolver valiosos problemas comerciales con los datos. Esto, en muchos casos, no significa usar el algoritmo más vanguardista. La ciencia de los datos, al igual que la mayoría de las demás funciones empresariales, necesita generar un buen rendimiento de la inversión. Así que puede no tener sentido para el negocio pasar tiempo tratando de implementar la nueva tecnología más fantástica para sacar un par de puntos porcentuales en la puntuación del modelo. Especialmente si un estándar, técnica más simple bien conocida resolverá el problema más rápido.

“Cuando en duda simplificar”, Eric Ries

Un gran científico de datos sabe cuándo hacer este intercambio. En efecto saber cuándo simplificar y cuándo introducir más complejidad en todos los sentidos, desde seleccionar el algoritmo hasta escribir código es un componente clave de lo que se necesita para ser un gran científico de datos.

Un científico de datos verdaderamente grande es capaz de resolver valiosos problemas de negocios de una manera que generará el máximo, y en muchos casos, valor duradero. Para hacer esto un científico de datos necesita entender y hacer los derechos de compensación entre complejidad y simplicidad. Es capaz de implementar con éxito modelos en la producción y mantenerlos estables y frescos una vez que estén allí. Al mismo tiempo, garantizar que estos productos científicos de datos sean robustos, de alta calidad e imparciales.

Esta es la razón por la que creo que las cuatro áreas cubiertas en este artículo son algunos de los lugares más importantes para que los nuevos científicos de datos desarrollen su experiencia y se conviertan en grandes científicos de datos.

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +