¿Cuáles son los componentes de la ciencia de datos de las cinco P?
Data Science trata de extraer conocimientos de los datos. En el WorDS Center (words.sdsc.edu), definimos la ciencia de los datos como una artesanía multidisciplinaria que combina personas, plataformas de procesos, computacionales y de Big Data, propósitos específicos de aplicaciones y programabilidad. Las publicaciones y la procedencia de los productos de datos que conducen a estas publicaciones también son importantes para la ciencia de datos, pero comenzamos por definir 5 P's que toman parte significativa en las actividades de ciencia de datos.
- Objeto: El propósito se refiere al desafío o conjunto de desafíos definidos por su estrategia de big data. El propósito puede estar relacionado con un análisis científico con una hipótesis o una métrica de negocio que necesita ser analizado basado a menudo en Big Data.
- Personas : Los científicos de datos son a menudo vistos como personas que poseen habilidades en una variedad de temas incluyendo: ciencia o dominio de negocios; análisis utilizando estadísticas, aprendizaje automático y conocimientos matemáticos; gestión de datos, programación e informática. En la práctica, se trata generalmente de un grupo de investigadores formado por personas con competencias complementarias.
- Proceso : Dado que hay un equipo predefinido con un propósito, un gran lugar para que este equipo comience con un proceso que podrían iterar. Simplemente podemos decir, ¡Personas con Propósito definirá un Proceso para colaborar y comunicarse! El proceso de ciencia de datos incluye técnicas de estadística, aprendizaje automático, programación, computación y gestión de datos. Un proceso es conceptual al principio y define el conjunto de pasos del curso y cómo todos pueden contribuir a él. Tenga en cuenta que procesos reutilizables similares pueden ser aplicables a muchas aplicaciones con diferentes propósitos cuando se emplean en diferentes flujos de trabajo. Los flujos de trabajo de ciencia de datos combinan estos pasos en gráficos ejecutables. Creemos que el pensamiento orientado al proceso es una forma transformadora de llevar a cabo la ciencia de los datos para conectar a las personas y las técnicas con las aplicaciones. La ejecución de este proceso de ciencia de datos requiere el acceso a muchos conjuntos de datos, grandes y pequeños, lo que trae nuevas oportunidades y desafíos a la ciencia de datos. Hay muchos pasos o tareas de Data Science, como la recopilación de datos, limpieza de datos, procesamiento de datos/análisis, visualización de resultados, resultando en un flujo de trabajo de Data Science. Los procesos de ciencia de datos pueden necesitar interacción con el usuario y otras operaciones manuales, o estar completamente automatizados.Los desafíos para el proceso de ciencia de datos incluyen 1) cómo integrar fácilmente todas las tareas necesarias para construir un proceso de este tipo; 2) cómo encontrar los mejores recursos informáticos y programar eficientemente las ejecuciones de procesos a los recursos basados en la definición del proceso, la configuración de parámetros y las preferencias del usuario.
- Plataformas : Sobre la base de las necesidades de un propósito basado en la aplicación y la cantidad de datos y computación necesarios para llevar a cabo esta aplicación, diferentes plataformas de datos y computación se pueden utilizar como parte del proceso de ciencia de datos. Esta escalabilidad debe formar parte de cualquier arquitectura de soluciones de ciencia de datos.
- Programabilidad : La captura de un proceso de ciencia de datos escalable requiere ayuda de lenguajes de programación, por ejemplo, R, y patrones, por ejemplo, MapReduce. Las herramientas que proporcionan acceso a estas técnicas de programación son clave para hacer programable el proceso de ciencia de datos en una variedad de plataformas.
En resumen, la ciencia de los datos puede definirse como un arte de usar las cinco piezas identificadas anteriormente. Tener un proceso entre la gente y el propósito de P más impulsados por el negocio y las plataformas y programabilidad de P más impulsados por el técnico conduce a un enfoque racionalizado que comienza y termina con un valor de negocio definido, la responsabilidad del equipo y la colaboración en mente.
Artículos Relacionados: