¿Qué es lo más difícil de la ciencia de datos?

Las matemáticas no son lo más difícil en la ciencia de datos. En realidad, ya que es así maduro, y documentado, y bien conocido , es muy posible lo más fácil para conquistar en el conjunto de habilidades. No, lo más difícil de la ciencia de datos es haciendo la pregunta correcta .

Espera, ¿qué? Seguramente eso es algo fácil de hacer – tienes algo que quieres saber, y solo lo preguntas, ¿verdad? Bueno, no. Muchos aspirantes a Data Scientist se estrellan en las rocas del siguiente proceso:

  • Escucha la pregunta.
  • Seleccione tecnología para responder a la pregunta
  • Buscar datos
  • Utilizar la tecnología sobre los datos

Pero eso también está mal. Como científico de datos, usted necesita pasar tiempo – tiempo real – en ese primer artículo (Yo cubriré el proceso adecuado para la ciencia de datos en otro post). Entonces, ¿qué tiene de difícil hacer una pregunta?

Cuanto más lejos o menos datos tenga, peor será la predicción o clasificación. Su audiencia no creerá eso. Están bañados en canales de noticias con gráficos simples, declaraciones de tres líneas de los políticos, y mercadeo engañoso basado en disparadores. Quieren algo que sea exacto, seguro y confiado.

Lo que necesitarás para trabajar aquí implica dos cosas: una para tu metodología y otra para tu audiencia. Para su metodología, su enfoque es reducir el margen de error. Para hacer eso necesita datos de buena calidad, datos que usted entiende completamente, y muchos de ellos.

Para ayudar con el problema de la audiencia, utilice analogías e historias. Explique la posibilidad de que se equivoque más que la posibilidad de que tenga razón – algo que va en contra de lo que podría decirle a la persona que paga sus cuentas.

“Más datos supera a mejores algoritmos” es cierto, hasta cierto punto. Por ejemplo, si tuviera cada punto de datos posible para un objeto, simplemente puedo observarlo en lo descriptivo, en lugar de tener que extrapolar con un análisis numérico. Pero nunca tendrás todos los datos, debido al tiempo y la capacidad de recopilarlos.

Pero usted necesita más datos, y necesita datos de mejor calidad. En Machine Learning, las “características” son las columnas de datos que predicen la “etiqueta”, que es la respuesta que usted está buscando. Selección de características, y la preparación de datos, son las partes del proceso que usted debe pasar la mayor parte del tiempo. Una vez que definas las características correctas, querrás muchas de ellas. Más es mejor.

“¿Por qué es mi sistema lento?” o “¿Cómo es nuestra base de clientes?” son preguntas que están demasiado abiertas. La ciencia de los datos es más precisa cuando empiezas contándole a la audiencia preguntas “Cuando digas eso, dime lo que realmente quieres hacer con la respuesta”. Una pregunta mejor sería “Entre nuestros mejores clientes, ¿cuáles son las causas sociales que más les importan, para que podamos anunciarles en esos lugares?” O “Cuando nuestros sistemas se ralentizan, ¿es eso debido a deficiencias humanas o sistémicas?” y así sucesivamente. Entonces no te detengas. Pregunta por qué quieren saber eso. “Porque tenemos un conjunto limitado de fondos para la publicidad” es algo realmente bueno saber – la pregunta podría entonces cambiar a “Dónde debemos gastar nuestros recursos limitados para la publicidad para el mayor rendimiento” – o incluso mejor ” ¿Estamos gastando lo suficiente en publicidad?” Vea cómo la pregunta cambia cuando usted retrocede? Empuja hacia atrás.

Un científico de datos pasa una cantidad desmedida de tiempo fijando y re-estableciendo expectativas. Claro, sistemas como Azure ML y HDInsight hacen que obtener respuestas de datos más rápido que nunca, pero eso es sólo la parte de procesamiento. La definición de preguntas, la obtención de datos, la preparación de datos, las pruebas y la experimentación, y el desarrollo de interacciones (informes o Cortana) lleva tiempo, y en el mundo de las aplicaciones de teléfonos inteligentes de hoy en día, la gente simplemente no espera .

Pero algunas cosas son complicadas porque son, bueno, complicado . Llevan tiempo. Pero tu público no esperará... entonces, ¿qué haces?

Rompe el problema. Obtenga tantas respuestas más pequeñas como pueda para ganar tiempo para desarrollar respuestas más completas. Mostrar resultados rápidamente, y calificar que hay mejores respuestas que vienen. Así que ahí lo tienes. Sí, tienes que aprender matemáticas. Tú necesidad de saber R , y Python , y Azure ML , y el Catálogo de datos , y más. Pero la parte que es más difícil tiene poco que ver con la tecnología. Es saber cómo hacer una buena pregunta.

¿Como qué? ¡Compártalo!

Así:

Relacionados

Publicado por BuckWoody

Buck Woody trabaja en Microsoft Cloud y AI Team, y utiliza datos y tecnología para resolver problemas empresariales y científicos. Con más de 35 años de experiencia profesional y práctica en tecnología informática, también es un orador popular en conferencias en todo el mundo; autor de más de 700 artículos y siete libros (bases de datos, aprendizaje automático y R) se sienta en varios Data Science Boards en dos Universidades de los Estados Unidos, y se especializa en técnicas avanzadas de análisis de datos. Le apasiona la tutoría y el crecimiento de la próxima generación de profesionales de los datos. Especialidades: Datos, Ciencia de Datos, Bases de Datos, Comunicación, Enseñanza, Hablar, Escribir, Computación en la Nube, Seguridad Las fortalezas de Clifton: individualización, aprendizaje, conexión, positividad, logro, ideación Ver todas las entradas de BuckWoody

Genial. Cierto, las matemáticas no es fácil tampoco como no está seleccionando las características correctas, la aplicación del algoritmo adecuado, la visualización correcta, todo eso. La ciencia de los datos no es nada fácil – mi punto aquí era simplemente que veo este error constantemente, y la gente a menudo malinterpreta lo épicamente importante que es conseguir la pregunta correcta. ¡Gracias por leer, y por comentar!

Artículos Relacionados:

Esta web usa cookies, puedes ver la política de cookies, aquí -
Política de cookies +