¿Cuál es el escenario actual de la ciencia de datos con respecto a la perspectiva de la industria?
El mundo digital tiene una gran cantidad de datos, como datos de Internet de cosas (IoT), datos de negocios, datos de salud, datos móviles, datos urbanos, datos de seguridad, y muchos más, en la época actual de la Cuarta Revolución Industrial (industria 4.0 o 4IR). La extracción de conocimientos o información útil de estos datos se puede utilizar para una toma de decisiones inteligente en varios dominios de aplicaciones. En el ámbito de la ciencia de los datos, Análisis avanzado métodos, incluidos aprendizaje automático la modelización puede proporcionar información práctica o un conocimiento más profundo sobre los datos, lo que hace que la informática proceso automático e inteligente. En este trabajo, presentamos una visión integral sobre “Ciencia de datos” incluyendo varios tipos de métodos de análisis avanzados que se pueden aplicar para mejorar la inteligencia y las capacidades de una aplicación a través de la toma de decisiones inteligentes en diferentes escenarios. También discutimos y resumimos diez potenciales del mundo real dominios de aplicaciones incluyendo las empresas, la sanidad, la ciberseguridad, la ciencia de los datos urbanos y rurales, etc., teniendo en cuenta la computación inteligente y la toma de decisiones impulsadas por los datos. Sobre la base de esto, finalmente destacamos los desafíos y el potencial direcciones de investigación dentro del ámbito de nuestro estudio. En general, el presente documento pretende servir de punto de referencia sobre ciencias de los datos y Análisis avanzado a los investigadores y responsables de la toma de decisiones, así como a los desarrolladores de aplicaciones, especialmente desde el punto de vista de la solución basada en datos para los problemas del mundo real.
¿Trabajando en un manuscrito?
Evite los errores más comunes y prepare su manuscrito para la revista editores.
Estamos viviendo en la era de la “ciencia de datos y análisis avanzado”, donde casi todo en nuestra vida diaria se registra digitalmente como datos [ 17 ]. Así, el mundo electrónico actual es una riqueza de diversos tipos de datos, tales como datos empresariales, datos financieros, datos de salud, datos multimedia, datos de Internet de las cosas (IoT), datos de ciberseguridad, datos de redes sociales, etc [ 112 ]. Los datos pueden ser estructurados, semiestructurados o no estructurados, lo que aumenta día a día [ 105 ]. La ciencia de los datos es típicamente un “concepto para unificar estadísticas, análisis de datos y sus métodos relacionados” para entender y analizar los fenómenos reales con datos. Según Cao et al. [ 17 ] “la ciencia de los datos es la ciencia de los datos” o “la ciencia de los datos es el estudio de los datos”, donde un producto de datos es entregable de datos, o posibilitada o guiada por datos, que puede ser un descubrimiento, predicción, servicio, sugerencia, comprensión de la toma de decisiones, pensamiento, modelo, paradigma, herramienta o sistema. La popularidad de la “Ciencia de datos” está aumentando día a día, lo que se muestra en la Fig. 1 según datos de Google Trends en los últimos 5 años [ 36 ]. Además de la ciencia de los datos, también hemos mostrado las tendencias de popularidad de las áreas relevantes como “Data analytics”, “Data mining”, “Big data”, “Machine learning” en la figura. Según Fig. 1 , los valores indicativos de popularidad para estos dominios impulsados por datos, en particular “Ciencia de datos”, y “Aprendizaje automático” están aumentando día a día. Esta información estadística y la aplicabilidad de la toma de decisiones inteligente basada en datos en varias áreas de aplicación del mundo real, nos motivan a estudiar brevemente en este artículo “Ciencia de datos” y “Análisis avanzada” basada en el aprendizaje automático.
La puntuación de popularidad mundial de la ciencia de los datos en comparación con áreas relevantes en un rango de 0 (min) a 100 (máximo) en el tiempo donde x -eje representa la información de la marca de tiempo y y -eje representa la puntuación correspondiente
Por lo general, la ciencia de los datos es el campo de aplicación de métodos de análisis avanzados y conceptos científicos para obtener información empresarial útil de los datos. El énfasis de la analítica avanzada es más en anticipar el uso de datos para detectar patrones para determinar lo que es probable que ocurra en el futuro. Análisis básico ofrecen una descripción de los datos en general, mientras que Análisis avanzado es un paso adelante para ofrecer una comprensión más profunda de los datos y ayudar a analizar los datos granulares, que nos interesan. En el campo de la ciencia de los datos, varios tipos de análisis son populares, tales como "Análisis descriptivo" que responde a la pregunta de lo que sucedió; "Análisis diagnóstico" que responde a la pregunta de por qué sucedió; "Análisis predictivo" que predice lo que sucederá en el futuro; y "Análisis prescriptivo" que prescribe qué acción debe ser tomada, discutido brevemente en " Métodos de análisis avanzados y computación inteligente ”. Tales análisis avanzados y la toma de decisiones basados en técnicas de aprendizaje automático [ 105 ], una parte importante de la inteligencia artificial (AI) [ 102 ] también puede jugar un papel significativo en la Cuarta Revolución Industrial (Industria 4.0) debido a su capacidad de aprendizaje para la computación inteligente, así como la automatización [ 121 ].
Aunque el área de la “ciencia de los datos” es enorme, nos centramos principalmente en ideas útiles a través de análisis avanzados, donde los resultados se utilizan para tomar decisiones inteligentes en varias áreas de aplicación del mundo real. Para esto, varios métodos de análisis avanzados como el modelado de aprendizaje automático, el procesamiento de lenguaje natural, el análisis de sentimientos, la red neuronal o el análisis de aprendizaje profundo pueden proporcionar un conocimiento más profundo sobre los datos y, por lo tanto, pueden utilizarse para desarrollar aplicaciones inteligentes basadas en datos. Más específicamente, análisis de regresión, clasificación, análisis de clustering, reglas de asociación, análisis de series temporales, análisis de sentimientos, patrones conductuales, detección de anomalías, análisis de factores, análisis de registros y aprendizaje profundo que se origina en la red neuronal artificial, se tienen en cuenta en nuestro estudio. Estos métodos de análisis avanzados basados en el aprendizaje automático se discuten brevemente en “ Métodos de análisis avanzados y computación inteligente ”. Por lo tanto, es importante entender los principios de varios métodos de análisis avanzados mencionados anteriormente y su aplicabilidad para aplicar en varias áreas de aplicación del mundo real. Por ejemplo, en nuestro artículo anterior Sarker et al. [ 114 ], hemos discutido cómo la ciencia de los datos y el modelado de aprendizaje automático pueden desempeñar un papel importante en el ámbito de la ciberseguridad para tomar decisiones inteligentes y proporcionar servicios de seguridad inteligentes basados en datos. En este artículo, tenemos en cuenta ampliamente las áreas de aplicación de la ciencia de los datos y los problemas del mundo real en diez dominios potenciales, incluyendo el área de la ciencia de los datos de negocios, ciencia de los datos de la salud, ciencia de datos de IoT, ciencia de datos conductuales, ciencia de datos urbanos, y así sucesivamente, discutido brevemente en “ Dominios de aplicaciones del mundo real ”.
Sobre la base de la importancia del modelaje de aprendizaje automático para extraer las ideas útiles de los datos mencionados anteriormente y la toma de decisiones inteligentes impulsadas por los datos, en este artículo presentamos una visión integral sobre “Ciencia de datos” que incluye varios tipos de métodos de análisis avanzados que se pueden aplicar para mejorar la inteligencia y las capacidades de una aplicación. La contribución clave de este estudio es entender el modelado de la ciencia de datos, explicando diferentes métodos analíticos para la perspectiva de soluciones y su aplicabilidad en varias áreas de aplicaciones basadas en datos del mundo real mencionadas anteriormente. En general, el objetivo del presente documento es, por lo tanto, proporcionar una guía básica o una referencia para académicos e industriales que quieren estudiar, investigar y desarrollar aplicaciones o sistemas automatizados e inteligentes basados en la computación inteligente y la toma de decisiones dentro del área de la ciencia de datos.
Las principales contribuciones del presente documento se resumen de la siguiente manera:
Definir el alcance de nuestro estudio hacia la computación inteligente basada en datos y la toma de decisiones en nuestra vida real. También realizamos una breve discusión sobre el concepto de modelado de la ciencia de los datos desde problemas empresariales hasta productos de datos y automatización, para entender su aplicabilidad y proporcionar servicios inteligentes en escenarios del mundo real.
Proporcionar una visión completa de la ciencia de los datos, incluyendo métodos de análisis avanzados que se pueden aplicar para mejorar la inteligencia y las capacidades de una aplicación.
Discutir la aplicabilidad e importancia de los métodos de análisis basados en el aprendizaje automático en varias áreas de aplicación del mundo real. También se resumen diez posibles áreas de aplicación en el mundo real, desde aplicaciones empresariales hasta aplicaciones personalizadas en nuestra vida diaria, donde se pueden utilizar análisis avanzados con modelado de aprendizaje automático para lograr el resultado esperado.
Destacar y resumir los desafíos y las posibles direcciones de investigación dentro del ámbito de nuestro estudio.
El resto del documento está organizado de la siguiente manera. La siguiente sección proporciona los antecedentes y el trabajo relacionado y define el alcance de nuestro estudio. En la siguiente sección se presentan los conceptos de modelado de la ciencia de los datos para la construcción de una aplicación basada en los datos. Después de eso, discutir y explicar brevemente diferentes métodos de análisis avanzados y computación inteligente. En la siguiente sección se examinan y resumen varias áreas de aplicación en el mundo real. A continuación, destacamos y resumimos varios temas de investigación y posibles direcciones futuras, y finalmente, la última sección concluye este trabajo.
Antecedentes y trabajos conexos
En esta sección, primero discutimos varios términos de datos y trabajos relacionados con la ciencia de datos y resaltamos el alcance de nuestro estudio.
Términos y definiciones de datos
Hay una gama de términos clave en el campo, como análisis de datos, extracción de datos, análisis de datos, big data, ciencia de datos, análisis avanzado, aprendizaje automático y aprendizaje profundo, que son altamente relacionados y fácilmente confusos. En lo siguiente, definimos estos términos y los diferenciamos con el término “Ciencia de datos” de acuerdo a nuestro objetivo.
El término “análisis de datos” se refiere al procesamiento de datos por teorías, tecnologías y herramientas convencionales (por ejemplo, clásicas estadísticas, empíricas o lógicas) para extraer información útil y con fines prácticos [ 17 ]. El término “análisis de datos”, por otra parte, se refiere a las teorías, tecnologías, instrumentos y procesos que permiten una comprensión y exploración a fondo de la visión de datos procesables [ 17 ]. El análisis estadístico y matemático de los datos es la principal preocupación en este proceso. La “minería de datos” es otro término popular en la última década, que tiene un significado similar con varios otros términos como la minería del conocimiento a partir de datos, la extracción del conocimiento, el descubrimiento del conocimiento a partir de datos (KDD), el análisis de datos/patrón, la arqueología de datos y el dragado de datos. Según Han et al. [ 38 ], debería haber sido más apropiadamente llamado “minería de conocimiento a partir de datos”. En general, la extracción de datos se define como el proceso de descubrir patrones interesantes y conocimientos a partir de grandes cantidades de datos [ 38 ]. Las fuentes de datos pueden incluir bases de datos, centros de datos, Internet o Web, otros repositorios de datos o datos transmitidos dinámicamente a través del sistema. “Big data” es otro término popular hoy en día, que puede cambiar los enfoques estadísticos y de análisis de datos, ya que tiene las características únicas de “masivos, de alta dimensión, heterogéneos, complejos, no estructurados, incompletos, ruidosos y erróneos” [ 74 ]. Los grandes datos pueden ser generados por dispositivos móviles, redes sociales, Internet de las Cosas, multimedia y muchas otras nuevas aplicaciones [ 129 ]. Varias características únicas, incluyendo volumen, velocidad, variedad, veracidad, valor (5Vs), y complejidad se utilizan para entender y describir los macrodatos [ 69 ].
En términos de análisis, el análisis básico proporciona un resumen de los datos, mientras que el término “Análisis Avanzada” da un paso adelante para ofrecer una comprensión más profunda de los datos y ayuda a analizar los datos granulares. La analítica avanzada se caracteriza o define como datos autónomos o semiautónomas o análisis de contenido utilizando técnicas y métodos avanzados para descubrir ideas más profundas, predecir o generar recomendaciones, típicamente más allá de la inteligencia de negocios o analítica tradicional. “Machine learning”, una rama de la inteligencia artificial (AI), es una de las principales técnicas utilizadas en la analítica avanzada que puede automatizar la construcción de modelos analíticos [ 112 ]. Esto se centra en la premisa de que los sistemas pueden aprender de los datos, reconocer las tendencias y tomar decisiones, con una participación humana mínima [ 38 , 115 ]. “Deep Learning” es un subcampo de aprendizaje automático que discute algoritmos inspirados en la estructura del cerebro humano y la función llamada redes neuronales artificiales [ 38 , 139 ].
A diferencia de los términos relacionados con los datos anteriores, “Ciencia de datos” es un término general que abarca análisis de datos avanzados, minería de datos, modelado de máquinas y aprendizaje profundo, y varias otras disciplinas relacionadas como las estadísticas, para extraer información o conocimientos útiles de los conjuntos de datos y transformarlos en estrategias de negocio viables. In [ 17 ], Cao et al. la ciencia de los datos definida desde la perspectiva disciplinaria como “la ciencia de los datos es un nuevo campo interdisciplinario que sintetiza y se basa en las estadísticas, la informática, la informática, la comunicación, la gestión y la sociología para estudiar los datos y sus entornos (incluidos los dominios y otros aspectos contextuales, como los aspectos organizacionales y sociales) a fin de transformar los datos en ideas y decisiones mediante la aplicación de un pensamiento y metodología de conocimiento a conocimiento de datos”. In “ Entender el modelado de la ciencia de los datos ", discutimos brevemente el modelado de la ciencia de los datos desde una perspectiva práctica, empezando por los problemas de negocios a los productos de datos que pueden ayudar a los científicos de datos a pensar y trabajar en un dominio particular de problemas del mundo real dentro del área de la ciencia de los datos y el análisis.
Trabajo relacionado
En el área, varios trabajos han sido revisados por los investigadores sobre la base de la ciencia de los datos y su importancia. Por ejemplo, los autores en [ 19 ] identificar el campo en evolución de la ciencia de los datos y su importancia en el entorno del conocimiento más amplio y algunas cuestiones que diferencian las cuestiones de la ciencia de los datos y la informática de los enfoques convencionales en las ciencias de la información. Donoho et al. [ 27 ] presentar 50 años de ciencia de los datos, incluyendo comentarios recientes sobre la ciencia de los datos en los medios de comunicación, y sobre cómo/si la ciencia de los datos varía de las estadísticas. Los autores conceptualizan formalmente el modelo de ciencia de datos (TGDS) guiado por la teoría en [ 53 ] y presentar una taxonomía de temas de investigación en TGDS. Cao et al. incluir una encuesta detallada y tutorial sobre los aspectos fundamentales de la ciencia de los datos en [ 17 ], que considera la transición del análisis de datos a la ciencia de datos, los principios de la ciencia de datos, así como la disciplina y la competencia de la educación en materia de datos.
Además, los autores incluyen un análisis de ciencia de datos en [ 20 ], cuyo objetivo es ofrecer una visión realista del uso de las características estadísticas y los métodos de ciencia de datos relacionados en la informática de la bioimagen. Los autores en [ 61 ] estudiar las corrientes clave del algoritmo de ciencia de datos que se utilizan en los bancos centrales y mostrar cómo su popularidad ha aumentado con el tiempo. Esta investigación contribuye a la creación de un vector de investigación sobre el papel de la ciencia de los datos en la banca central. In [ 62 ], los autores proporcionan una visión general y tutorial sobre el diseño basado en datos de redes inalámbricas inteligentes. Los autores en [ 87 ] proporcionar una comprensión completa del transporte óptimo computacional con aplicación a la ciencia de datos. In [ 97 ], los autores presentan la ciencia de los datos como contribuciones teóricas en los sistemas de información a través del análisis de texto.
A diferencia de los estudios recientes anteriores, en este trabajo, nos concentramos en el conocimiento de la ciencia de los datos, incluyendo métodos de análisis avanzados, modelado de aprendizaje automático, dominios de aplicaciones del mundo real y direcciones de investigación potenciales dentro del ámbito de nuestro estudio. Los métodos de análisis avanzados basados en técnicas de aprendizaje automático discutidos en este artículo se pueden aplicar para mejorar las capacidades de una aplicación en términos de toma de decisiones inteligente impulsada por datos y automatización en el producto o sistemas de datos finales.
Entender el modelado de la ciencia de los datos
En esta sección, discutimos brevemente cómo la ciencia de los datos puede desempeñar un papel significativo en el proceso de negocio del mundo real. Para esto, primero categorizamos varios tipos de datos y luego discutimos los pasos principales del modelado de la ciencia de datos desde problemas empresariales hasta productos de datos y automatización.
En general, los datos utilizados en aplicaciones basadas en datos pueden ser cualquiera de los tipos mencionados anteriormente, y pueden diferir de una aplicación a otra en el mundo real. La modelización de la ciencia de los datos, que se examina brevemente a continuación, puede utilizarse para analizar esos datos en un dominio específico del problema y obtener información útil o insights de los datos para construir un modelo o producto de datos impulsados por los datos.
Pasos del modelado de la ciencia de los datos
La ciencia de los datos es típicamente un término general que abarca análisis de datos avanzados, minería de datos, modelado de máquinas y aprendizaje profundo, y varias otras disciplinas relacionadas como las estadísticas, para extraer ideas o conocimientos útiles de los conjuntos de datos y transformarlos en estrategias de negocio viables, mencionadas anteriormente en “ Antecedentes y trabajos conexos ”. En esta sección, discutimos brevemente cómo la ciencia de los datos puede desempeñar un papel significativo en el proceso de negocio del mundo real. Figura 2 muestra un ejemplo de modelización de la ciencia de los datos desde datos del mundo real hasta productos y automatización basados en datos. En lo siguiente, discutimos brevemente cada módulo del proceso de ciencia de datos.
Un ejemplo de modelización de la ciencia de los datos desde datos del mundo real hasta sistemas basados en datos y toma de decisiones
Comprender los problemas empresariales: Esto implica comprender claramente el problema que se necesita resolver, cómo afecta a la organización o individuos pertinentes, los objetivos finales para abordarlo y el plan de proyecto pertinente. Así pues, para comprender e identificar los problemas empresariales, los científicos de datos formulan preguntas pertinentes al tiempo que trabajan con los usuarios finales y otras partes interesadas. Por ejemplo, cuánto/muchos, qué categoría/grupo, es el comportamiento poco realista/anormal, qué opción se debe tomar, qué acción, etc. podrían ser cuestiones pertinentes en función de la naturaleza de los problemas. Esto ayuda a tener una mejor idea de lo que el negocio necesita y lo que debemos extraer de los datos. Esos conocimientos empresariales pueden permitir a las organizaciones mejorar su proceso de adopción de decisiones, conocido como “Inteligencia empresarial” [ 65 ]. Identificar las fuentes de datos relevantes que pueden ayudar a responder a las preguntas formuladas y qué tipo de acciones deben tomarse de las tendencias que los datos muestran, es otra tarea importante asociada a esta etapa. Una vez que el problema de negocio se ha declarado claramente, el científico de datos puede definir el enfoque analítico para resolver el problema.
Comprender los datos: Como sabemos, la ciencia de los datos está impulsada en gran medida por la disponibilidad de datos [ 114 ]. Por lo tanto, se necesita una comprensión sólida de los datos hacia un modelo o sistema basado en los datos. La razón es que los conjuntos de datos del mundo real a menudo son ruidosos, carecen de valores, tienen inconsistencias u otros problemas de datos, que son necesarios para manejar eficazmente [ 101 ]. Para obtener información procesable, los datos apropiados o la calidad de los datos deben ser fuente y limpiados, lo cual es fundamental para cualquier compromiso con la ciencia de los datos. Para ello, la evaluación de los datos que evalúa qué datos están disponibles y cómo se alinea con el problema empresarial podría ser el primer paso en la comprensión de los datos. Varios aspectos, como el tipo/formato de los datos, la cantidad de datos, ya sea suficiente o no para extraer los conocimientos útiles, la pertinencia de los datos, el acceso autorizado a los datos, la importancia de características o atributos, la combinación de múltiples fuentes de datos, métricas importantes para informar de los datos, etc. deben tenerse en cuenta para comprender claramente los datos de un problema empresarial concreto. En general, el módulo de comprensión de datos consiste en determinar qué datos serían los más necesarios y las mejores formas de adquirirlos.
Procesamiento y exploración de datos: El análisis exploratorio de datos se define en la ciencia de datos como un enfoque para analizar conjuntos de datos para resumir sus características clave, a menudo con métodos visuales [ 135 ]. Se examina una amplia recopilación de datos para descubrir tendencias iniciales, atributos, puntos de interés, etc. de manera no estructurada para construir resúmenes significativos de los datos. Así, la exploración de datos se utiliza típicamente para averiguar la esencia de los datos y para desarrollar una evaluación de primer paso de su calidad, cantidad y características. Un modelo estadístico puede ser utilizado o no, pero principalmente ofrece herramientas para crear hipótesis visualizando e interpretando los datos a través de una representación gráfica como un gráfico, gráfico, histograma, etc [ 72 , 91 ]. Antes de que los datos estén listos para ser modelados, es necesario utilizar la suma y visualización de datos para auditar la calidad de los datos y proporcionar la información necesaria para procesarlos. Para garantizar la calidad de los datos, la técnica de preprocesamiento de datos, que suele ser el proceso de limpieza y transformación de datos brutos [ 107 ] antes de procesar y analizar es importante. También implica reformar la información, hacer correcciones de datos y fusionar conjuntos de datos para enriquecer los datos. Así pues, varios aspectos, como los datos esperados, la limpieza de datos, el formato o la transformación de los datos, el tratamiento de los valores que faltan, el tratamiento de los problemas de desequilibrio y sesgo de los datos, la distribución de datos, la búsqueda de valores atípicos o anomalías en los datos y su tratamiento, garantizando la calidad de los datos, etc. podrían ser las consideraciones clave en este paso.
Modelado y evaluación del aprendizaje automático: Una vez que los datos se preparan para la construcción del modelo, los científicos de datos diseñan un modelo, algoritmo o conjunto de modelos para abordar el problema del negocio. La construcción de modelos depende de qué tipo de análisis, por ejemplo, análisis predictivo, es necesario para resolver el problema particular, que se discute brevemente en " Métodos de análisis avanzados y computación inteligente ”. Para adaptarse mejor a los datos según el tipo de análisis, diferentes tipos de modelos basados en datos o de aprendizaje automático que se han resumido en nuestro artículo anterior Sarker et al. [ 105 ], se puede construir para lograr el objetivo. Los científicos de datos suelen separar los subconjuntos de entrenamiento y pruebas del conjunto de datos dado que normalmente se dividen en la proporción de 80:20 o datos considerando los más populares k -folds método de división de datos [ 38 ]. Esto es para observar si el modelo funciona bien o no en los datos, para maximizar el rendimiento del modelo. Varias métricas de validación y evaluación de modelos, tales como tasa de error, precisión, verdadero positivo, falso positivo, verdadero negativo, falso negativo, precisión, memoria, f-score, ROC (curva de características operativas del receptor), análisis de aplicabilidad, etc. [ 38 , 115 ] se utilizan para medir el rendimiento del modelo, que puede guiar a los científicos de datos a elegir o diseñar el método de aprendizaje o modelo. Además, expertos en aprendizaje automático o científicos de datos pueden tener en cuenta varios análisis avanzados, como ingeniería de características, métodos de selección o extracción de características, ajuste de algoritmos, métodos de conjunto, modificación de algoritmos existentes, o el diseño de nuevos algoritmos, etc. mejorar el modelo basado en datos definitivo para resolver un problema empresarial concreto a través de una toma de decisiones inteligente.
Producto de datos y automatización: Un producto de datos es típicamente la salida de cualquier actividad de ciencia de datos [ 17 ]. Un producto de datos, en términos generales, es un entregable de datos, o una guía habilitada para los datos, que puede ser un descubrimiento, predicción, servicio, sugerencia, conocimiento de la toma de decisiones, pensamiento, modelo, paradigma, herramienta, aplicación o sistema que procesa datos y genera resultados. Las empresas pueden utilizar los resultados de este análisis de datos para obtener información útil como churn (una medida de cuántos clientes dejan de usar un producto) predicción y segmentación de clientes, y utilizar estos resultados para tomar decisiones empresariales más inteligentes y automatización. Así, para tomar mejores decisiones en varios problemas empresariales, se pueden desarrollar varias tuberías de aprendizaje automático y productos de datos. Para destacar esto, se resumen varias áreas potenciales de aplicación de la ciencia de los datos en el mundo real en “ Dominios de aplicaciones del mundo real ", donde varios productos de datos pueden desempeñar un papel importante en los problemas empresariales relevantes para hacerlos inteligentes y automatizar.
En general, podemos concluir que el modelado de la ciencia de los datos se puede utilizar para ayudar a impulsar cambios y mejoras en las prácticas empresariales. La parte interesante del proceso de ciencia de datos indica tener una comprensión más profunda del problema de negocio para resolver. Sin eso, sería mucho más difícil reunir los datos adecuados y extraer la información más útil de los datos para tomar decisiones para resolver el problema. En términos de rol, los “científicos de datos” normalmente interpretan y administran los datos para descubrir las respuestas a las principales preguntas que ayudan a las organizaciones a tomar decisiones objetivas y resolver problemas complejos. En un resumen, un científico de datos recopila y analiza proactivamente información de múltiples fuentes para comprender mejor cómo funciona el negocio, y diseña herramientas/métodos de aprendizaje automático o basados en datos, o algoritmos, centrados en análisis avanzados, que pueden hacer que el proceso de computación actual sea más inteligente e inteligente, discutido brevemente en la siguiente sección.
Métodos de análisis avanzados y computación inteligente
Como se mencionó anteriormente en " Antecedentes y trabajos conexos ", el análisis básico proporciona un resumen de los datos, mientras que el análisis avanzado da un paso adelante para ofrecer una comprensión más profunda de los datos y ayuda en el análisis de datos granulares. Por ejemplo, las capacidades predictivas de los análisis avanzados se pueden utilizar para predecir tendencias, eventos y comportamientos. Así, la “analítica avanzada” puede definirse como el análisis autónomo o semiautónoma de datos o contenidos utilizando técnicas y métodos avanzados para descubrir ideas más profundas, hacer predicciones o producir recomendaciones, donde el modelado analítico basado en el aprendizaje automático se considera como las tecnologías clave en el área. En la siguiente sección, primero sintetizamos varios tipos de análisis y resultados que se necesitan para resolver los problemas de negocio asociados, y luego discutimos brevemente el modelado analítico basado en el aprendizaje automático.
Tipos de análisis y resultados
En el proceso de negocio del mundo real, varias preguntas clave como “¿Qué pasó?”, “¿Por qué sucedió?”, “¿Qué pasará en el futuro?”, “¿Qué medidas se deben tomar?” son comunes e importantes. Sobre la base de estas preguntas, en este trabajo, categorizamos y resaltamos los análisis en cuatro tipos, como descriptivo, diagnóstico, predictivo y prescriptivo, que se discuten a continuación.
Análisis descriptivo: Es la interpretación de los datos históricos para entender mejor los cambios que han ocurrido en un negocio. Así pues, el análisis descriptivo responde a la pregunta “¿qué pasó en el pasado?” resumiendo datos del pasado, como estadísticas sobre ventas y operaciones o estrategias de marketing, uso de las redes sociales y compromiso con Twitter, Linkedin o Facebook, etc. Por ejemplo, utilizando análisis descriptivos a través del análisis de tendencias, patrones y anomalías, etc., los datos históricos de compras de los clientes se pueden utilizar para predecir la probabilidad de que un cliente compre un producto. Por lo tanto, la analítica descriptiva puede jugar un papel significativo para proporcionar una imagen precisa de lo que ha ocurrido en un negocio y cómo se relaciona con tiempos anteriores utilizando una amplia gama de datos empresariales relevantes. Como resultado, los gerentes y los responsables de la toma de decisiones pueden identificar áreas de fortaleza y debilidad en su negocio, y eventualmente pueden tomar estrategias de gestión y decisiones empresariales más efectivas.
Analítica diagnóstica: Es una forma de analítica avanzada que examina los datos o el contenido para responder a la pregunta, “¿por qué sucedió?” El objetivo de la analítica diagnóstica es ayudar a encontrar la causa raíz del problema. Por ejemplo, el departamento de gestión de recursos humanos de una organización empresarial puede usar estas analíticas de diagnóstico para encontrar al mejor solicitante para un puesto, seleccionarlos y compararlos con otras posiciones similares para ver qué tan bien funcionan. En un ejemplo de salud, podría ayudar a averiguar si los síntomas de los pacientes como fiebre alta, tos seca, dolor de cabeza, fatiga, etc. son todos causados por el mismo agente infeccioso. En general, la analítica diagnóstica permite extraer valor de los datos planteando las preguntas correctas y realizando investigaciones en profundidad de las respuestas. Se caracteriza por técnicas como perforación, descubrimiento de datos, extracción de datos y correlaciones.
Análisis predictivo: El análisis predictivo es una técnica analítica importante utilizada por muchas organizaciones para diversos propósitos, tales como evaluar los riesgos empresariales, anticipar patrones de mercado potenciales, y decidir cuándo se necesita mantenimiento, para mejorar su negocio. Es una forma de análisis avanzado que examina los datos o el contenido para responder a la pregunta, “¿qué pasará en el futuro?” Por lo tanto, el objetivo principal de la analítica predictiva es identificar y típicamente responder a esta pregunta con un alto grado de probabilidad. Los científicos de datos pueden utilizar datos históricos como fuente para extraer información para construir modelos predictivos utilizando diversos análisis de regresión y técnicas de aprendizaje automático, que se pueden utilizar en diversos dominios de aplicaciones para un mejor resultado. Las empresas, por ejemplo, pueden utilizar análisis predictivos para minimizar los costos previendo mejor la demanda futura y cambiando la producción y el inventario, los bancos y otras instituciones financieras para reducir el fraude y los riesgos prediciendo actividades sospechosas, los especialistas médicos para tomar decisiones eficaces prediciendo pacientes que corren riesgo de padecer enfermedades, los minoristas para aumentar las ventas y la satisfacción de los clientes mediante la comprensión y predicción de las preferencias de los clientes, los fabricantes para optimizar la capacidad de producción mediante la predicción de los requisitos de mantenimiento, y muchos más. Así, la analítica predictiva puede ser considerada como el método analítico básico dentro del área de la ciencia de datos.
Análisis prescriptivo: El análisis prescriptivo se centra en recomendar la mejor manera de avanzar con información procesable para maximizar los rendimientos generales y la rentabilidad, lo que normalmente responde a la pregunta, “¿qué acción se debe tomar?” En el análisis de negocios, el análisis prescriptivo se considera el paso final. Para sus modelos, la analítica prescriptiva recoge datos de varias fuentes descriptivas y predictivas y los aplica al proceso de toma de decisiones. Por lo tanto, podemos decir que está relacionado tanto con análisis descriptivos como con análisis predictivos, pero hace hincapié en los conocimientos prácticos en lugar de la supervisión de datos. En otras palabras, se puede considerar como lo contrario de la analítica descriptiva, que examina las decisiones y los resultados después del hecho. Al integrar los big data, el aprendizaje automático y las reglas de negocio, el análisis prescriptivo ayuda a las organizaciones a tomar decisiones más informadas para producir resultados que impulsen las decisiones empresariales más exitosas.
En resumen, para aclarar lo que pasó y por qué sucedió, tanto el análisis descriptivo como el diagnóstico analizan el pasado. Los datos históricos son utilizados por el análisis predictivo y el análisis prescriptivo para predecir lo que sucederá en el futuro y qué pasos se deben tomar para impactar esos efectos. En el cuadro 1 , hemos resumido estos métodos de análisis con ejemplos. Las organizaciones con visión de futuro en el mundo real pueden utilizar conjuntamente estos métodos analíticos para tomar decisiones inteligentes que ayudan a impulsar los cambios en procesos institucionales y mejoras. A continuación, analizamos cómo las técnicas de aprendizaje automático pueden desempeñar un papel importante en estos métodos analíticos a través de sus capacidades de aprendizaje a partir de los datos.
Modelado analítico basado en el aprendizaje automático
En esta sección, discutimos brevemente varios métodos de análisis avanzados basados en el modelado del aprendizaje automático, que pueden hacer el proceso de computación inteligente a través de la toma de decisiones inteligentes en un proceso de negocio. Figura 3 muestra una estructura general de un modelo predictivo basado en el aprendizaje automático, teniendo en cuenta tanto la fase de entrenamiento como la fase de prueba. En lo siguiente, discutimos una amplia gama de métodos tales como regresión y análisis de clasificación, análisis de reglas de asociación, análisis de series temporales, análisis de comportamiento, análisis de log, y así sucesivamente dentro del ámbito de nuestro estudio.
Estructura general de un modelo predictivo basado en el aprendizaje automático teniendo en cuenta tanto la fase de entrenamiento como la fase de prueba
Análisis de regresión
En la ciencia de los datos, uno de los enfoques estadísticos más comunes utilizados para las tareas de modelado predictivo y extracción de datos son las técnicas de regresión [ 38 ]. El análisis de regresión es una forma de aprendizaje automático supervisado que examina la relación entre una variable dependiente (objetivo) y variables independientes (predictor) para predecir la salida de valor continuo [ 105 , 117 ]. Las siguientes ecuaciones Eqs. 1 , 2 , y 3 [ 85 , 105 ] representan las regresiones simples, múltiples o multivariables, y polinomios respectivamente, donde x representa variable independiente y y es el resultado previsto/objetivo mencionado anteriormente:
El análisis de regresión se realiza típicamente para uno de los dos propósitos: predecir el valor de la variable dependiente en el caso de individuos para los que se dispone de algún conocimiento relacionado con las variables explicativas, o estimar el efecto de alguna variable explicativa sobre la variable dependiente, es decir, encontrar la relación de influencia causal entre las variables. La regresión lineal no se puede utilizar para adaptarse a datos no lineales y puede causar un problema de adaptación insuficiente. En ese caso, la regresión polinómica funciona mejor, sin embargo, aumenta la complejidad del modelo. Las técnicas de regularización como Ridge, Lasso, Elastic-Net, etc. [ 85 , 105 ] se puede utilizar para optimizar el modelo de regresión lineal. Además, soporte de regresión vectorial, regresión de árbol de decisión, técnicas de regresión forestal aleatoria [ 85 , 105 ] se puede utilizar para construir modelos de regresión eficaces dependiendo del tipo de problema, por ejemplo, tareas no lineales. Previsión o predicción financiera, estimación de costos, análisis de tendencias, comercialización, estimación de series cronológicas, modelización de la respuesta a las drogas, etc. son algunos ejemplos en los que los modelos de regresión se pueden utilizar para resolver problemas del mundo real en el ámbito de la ciencia de datos y el análisis.
Análisis de clasificación
La clasificación es uno de los procesos de ciencia de datos más utilizados y más conocidos. Esta es una forma de enfoque de aprendizaje automático supervisado que también se refiere a un problema de modelado predictivo en el que se predice una etiqueta de clase para un ejemplo dado [ 38 ]. La identificación de spam, como ‘spam’ y ‘no spam’ en los proveedores de servicios de correo electrónico, puede ser un ejemplo de problema de clasificación. Hay varias formas de análisis de clasificación disponibles en el área, como la clasificación binaria—que se refiere a la predicción de una de dos clases; la clasificación multiclase—que implica la predicción de una de más de dos clases; la clasificación multietiqueta—una generalización de la clasificación multiclase en la que las clases del problema están organizadas jerárquicamente [ 105 ].
Análisis de agrupaciones
La agrupación es una forma de técnica de aprendizaje automático no supervisada y es bien conocida en muchas áreas de aplicación de la ciencia de datos para el análisis de datos estadísticos [ 38 ]. Por lo general, las técnicas de agrupamiento buscan las estructuras dentro de un conjunto de datos y, si la clasificación no está previamente identificada, clasifican grupos homogéneos de casos. Esto significa que los puntos de datos son idénticos entre sí dentro de un clúster, y diferentes de los puntos de datos en otro clúster. En general, el objetivo del análisis de grupos es clasificar varios puntos de datos en grupos (o grupos) homogéneos internamente y heterogéneos externamente [ 105 ]. Para obtener información sobre cómo se distribuyen los datos en un conjunto de datos determinado o como fase de preprocesamiento de otros algoritmos, a menudo se utiliza el agrupamiento. El agrupamiento de datos, por ejemplo, ayuda con el comportamiento de las compras de clientes, campañas de ventas y retención de consumidores para negocios minoristas, detección de anomalías, etc.
Análisis de las reglas de asociación
El aprendizaje de reglas de asociación se conoce como un sistema de aprendizaje automático basado en reglas, un método de aprendizaje no supervisado se utiliza típicamente para establecer una relación entre variables. Esta es una técnica descriptiva que se usa a menudo para analizar grandes conjuntos de datos para descubrir relaciones o patrones interesantes. La principal fuerza de la técnica de aprendizaje de la asociación es su exhaustividad, ya que produce todas las asociaciones que cumplen con las limitaciones especificadas por el usuario, incluyendo un apoyo mínimo y valor de confianza [ 138 ].
Las reglas de asociación permiten a un científico de datos identificar tendencias, asociaciones y coincidencias entre conjuntos de datos dentro de grandes colecciones de datos. En un supermercado, por ejemplo, las asociaciones infieren conocimiento sobre el comportamiento de compra de los consumidores para diferentes artículos, lo que ayuda a cambiar el plan de marketing y ventas. En la atención médica, para diagnosticar mejor a los pacientes, los médicos pueden utilizar pautas de asociación. Los médicos pueden evaluar la probabilidad condicional de una enfermedad determinada comparando asociaciones sintomáticas en los datos de casos anteriores utilizando reglas de asociación y análisis de datos basados en el aprendizaje automático. Del mismo modo, las reglas de asociación son útiles para el análisis y predicción del comportamiento del consumidor, análisis del mercado del cliente, bioinformática, minería weblog, sistemas de recomendación, etc.
Análisis y previsión de series temporales
Una serie temporal es típicamente una serie de puntos de datos indizados en orden temporal, particularmente, por fecha, o marca de tiempo [ 111 ]. Dependiendo de la frecuencia, las series temporales pueden ser diferentes tipos, por ejemplo, anualmente, por ejemplo, presupuesto anual, trimestral, por ejemplo, gasto mensual, por ejemplo, tráfico aéreo, semanal, por ejemplo, cantidad de ventas, diariamente, por ejemplo, tiempo, por hora, por ejemplo, precio de las acciones, por minuto, por ejemplo, llamadas entrantes en un centro de llamadas, e incluso en segundo lugar, por ejemplo, tráfico web, etc. en los dominios pertinentes.
Se denomina análisis de series cronológicas un método matemático que trata de estos datos de series cronológicas, o el procedimiento de ajustar una serie cronológica a un modelo adecuado. Se pueden aplicar muchos algoritmos de pronóstico de series temporales y métodos de análisis diferentes para extraer la información pertinente. Por ejemplo, para hacer pronósticos de series temporales para patrones futuros, el modelo autorregresivo (AR) [ 130 ] aprende las tendencias conductuales o patrones de datos pasados. Movimiento promedio (MA) [ 40 ] es otra forma simple y común de suavizar utilizada en el análisis y pronóstico de series temporales que utiliza errores pronosticados en un modelo de regresión para elaborar una tendencia media a través de los datos. La media móvil autorregresiva (ARMA) [ 12 , 120 ] combina estos dos enfoques, donde la autorregresiva extrae el impulso y el patrón de la tendencia y la media móvil capturan los efectos del ruido. El modelo de series temporales más popular y utilizado con frecuencia es el modelo de media móvil integrada autorregresiva (ARIMA) [ 12 , 120 ]. El modelo ARIMA, una generalización de un modelo ARMA, es más flexible que otros modelos estadísticos como el suavizado exponencial o la regresión lineal simple. En términos de datos, el modelo ARMA sólo puede utilizarse para datos estacionarios de series temporales, mientras que el modelo ARIMA también incluye el caso de la no estacionaria. Del mismo modo, la media móvil integrada autorregresiva estacional (SARIMA), la media móvil fraccionada autorregresiva (ARFIMA), el modelo medio móvil autorregresivo con el modelo de entradas exógenas (modelo ARMAX) también se utilizan en modelos de series temporales [ 120 ].
Un ejemplo de producción de segmentos de tiempo agregados a partir de rebanadas de tiempo iniciales basadas en características de comportamiento similares
Además de los métodos estocásticos de modelado y pronóstico de series cronológicas, se puede utilizar un enfoque basado en el aprendizaje profundo y la máquina para el análisis y pronóstico eficaz de series cronológicas. Por ejemplo, en nuestro artículo anterior, Sarker et al. [ 111 ] presentar un análisis de la serie temporal basado en el agrupamiento de abajo hacia arriba para capturar los patrones de comportamiento de uso móvil de los usuarios. Figura 5 muestra un ejemplo de producción de segmentos de tiempo agregados Seg_i a partir de cortes de tiempo iniciales TS_i basados en características de comportamiento similares que se utilizan en nuestro enfoque de agrupamiento ascendente, donde D representa el comportamiento dominante BH_i de los usuarios, mencionado anteriormente [ 111 ]. Los autores en [ 118 ], utilizado un largo modelo de memoria a corto plazo (LSTM), una especie de modelo de aprendizaje profundo de red neuronal recurrente (RNN), en la predicción de series temporales que superan los enfoques tradicionales como el modelo ARIMA. El análisis de series temporales se utiliza comúnmente en estos días en diversos campos como finanzas, fabricación, negocios, redes sociales, datos de eventos (por ejemplo, flujos de clics y eventos del sistema), IoT y datos de teléfonos inteligentes, y en general en cualquier campo de medición temporal de ciencia aplicada e ingeniería. Por lo tanto, abarca una amplia gama de áreas de aplicación en la ciencia de los datos.
Análisis de opinión sobre minería y sentimientos
El análisis de sentimientos o la minería de opinión es el estudio computacional de las opiniones, pensamientos, emociones, evaluaciones y actitudes de las personas hacia entidades como productos, servicios, organizaciones, individuos, temas, eventos, temas y sus atributos [ 71 ]. Hay tres tipos de sentimientos: positivos, negativos y neutros, junto con sentimientos más extremos como enojados, felices y tristes, o interesados o no interesados, etc. También se pueden encontrar sentimientos más refinados para evaluar los sentimientos de los individuos en diversas situaciones según el dominio del problema.
Aunque la tarea de la minería de opinión y el análisis de sentimientos es muy desafiante desde un punto de vista técnico, es muy útil en la práctica del mundo real. Por ejemplo, una empresa siempre pretende obtener una opinión del público o de los clientes sobre sus productos y servicios para refinar la política empresarial, así como una mejor decisión empresarial. Por lo tanto, puede beneficiar a una empresa para entender la opinión social de su marca, producto o servicio. Además, los clientes potenciales quieren saber lo que los consumidores creen que tienen cuando utilizan un servicio o compran un producto. El nivel de documentación, el nivel de oración, el nivel de aspecto y el nivel de concepto son los posibles niveles de extracción de opinión en la zona [ 45 ].
En las tareas relacionadas con el análisis de sentimientos se utilizan varias técnicas populares, como los métodos basados en el léxico, incluidos los métodos basados en diccionarios y en el corpus, el aprendizaje automático, incluido el aprendizaje supervisado y no supervisado, el aprendizaje profundo y los métodos híbridos [ 70 ]. Para definir, extraer, medir y analizar sistemáticamente estados afectivos y conocimientos subjetivos, incorpora el uso de estadísticas, procesamiento de lenguaje natural (NLP), aprendizaje automático y métodos de aprendizaje profundo. El análisis de sentimientos es ampliamente utilizado en muchas aplicaciones, tales como revisiones y datos de encuestas, redes web y sociales, y contenido de salud, que van desde el marketing y el apoyo al cliente a la práctica clínica. Así, el análisis de sentimientos tiene una gran influencia en muchas aplicaciones de la ciencia de datos, donde el sentimiento público está involucrado en varios temas del mundo real.
Datos conductuales y análisis de cohortes
El análisis de comportamiento es una tendencia reciente que típicamente revela nuevas ideas en sitios de comercio electrónico, juegos en línea, aplicaciones móviles y de teléfonos inteligentes, comportamiento de los usuarios de IoT, y muchos más [ 112 ]. El análisis de comportamiento tiene como objetivo entender cómo y por qué los consumidores o usuarios se comportan, permitiendo predicciones precisas de cómo es probable que se comporten en el futuro. Por ejemplo, permite a los anunciantes hacer las mejores ofertas con los segmentos de clientes adecuados en el momento adecuado. Las analíticas comportamentales, incluyendo datos de tráfico como rutas de navegación, clics, interacciones en redes sociales, decisiones de compra y respuesta de marketing, utilizan las grandes cantidades de información de eventos de usuarios en bruto recopilada durante las sesiones en las que la gente utiliza aplicaciones, juegos o sitios web. En nuestros artículos anteriores Sarker et al. [ 101 , 111 , 113 ] hemos discutido cómo extraer los patrones de comportamiento de uso del teléfono de los usuarios utilizando datos de registro telefónico de la vida real para varios propósitos.
En el escenario del mundo real, el análisis del comportamiento se utiliza a menudo en el comercio electrónico, las redes sociales, los centros de llamadas, los sistemas de facturación, los sistemas de IoT, las campañas políticas y otras aplicaciones, para encontrar oportunidades de optimización para lograr resultados particulares. El análisis de cohortes es una rama del análisis del comportamiento que implica estudiar grupos de personas con el tiempo para ver cómo cambia su comportamiento. Por ejemplo, toma datos de un determinado conjunto de datos (por ejemplo, un sitio web de comercio electrónico, una aplicación web o un juego en línea) y los separa en grupos relacionados para su análisis. Varias técnicas de aprendizaje automático como el agrupamiento de datos conductuales [ 111 ], clasificación del árbol de decisiones de comportamiento [ 109 ], reglas de asociación conductual [ 113 ], etc. se puede utilizar en la zona de acuerdo con el objetivo. Además, el concepto de RecencyMiner, propuesto en nuestro anterior documento Sarker et al. [ 108 ] que tenga en cuenta los patrones de comportamiento recientes podría ser eficaz mientras analiza los datos de comportamiento, ya que puede no ser estático en los cambios del mundo real con el tiempo.
Detección de anomalías o análisis atípico
La detección de anomalías, también conocida como análisis Outlier, es un paso en la extracción de datos que detecta puntos de datos, eventos y/o hallazgos que se desvían de las regularidades o comportamiento normal de un conjunto de datos. Las anomalías se denominan generalmente atípicos, anormalidades, novedades, ruido, inconsistencia, irregularidades y excepciones [ 63 , 114 ]. Las técnicas de detección de anomalías pueden descubrir nuevas situaciones o casos como desviados basados en datos históricos mediante el análisis de los patrones de datos. Por ejemplo, la identificación de fraudes o transacciones irregulares en finanzas es un ejemplo de detección de anomalías.
A menudo se utiliza en tareas de preprocesamiento para la eliminación de datos anómalos o inconsistentes en los datos del mundo real recopilados de diversas fuentes de datos, incluidos registros de usuarios, dispositivos, redes y servidores. Para la detección de anomalías, se pueden utilizar varias técnicas de aprendizaje automático, tales como vecinos k-nearest, bosques de aislamiento, análisis de racimos, etc [ 105 ]. La exclusión de los datos anómalos del conjunto de datos también resulta en una mejora estadísticamente significativa de la exactitud durante el aprendizaje supervisado [ 101 ]. Sin embargo, la extracción de características apropiadas, la identificación de comportamientos normales, la gestión de la distribución de datos desequilibrados, abordar las variaciones en el comportamiento anormal o irregularidades, la escasa ocurrencia de eventos anormales, variaciones ambientales, etc. podría ser un reto en el proceso de detección de anomalías. La detección de anomalías puede ser aplicable en una variedad de dominios como análisis de ciberseguridad, detección de intrusiones, detección de fraudes, detección de fallas, análisis de salud, identificación de irregularidades, detección de perturbaciones del ecosistema, y muchos más. Esta detección de anomalías puede considerarse una tarea importante para la construcción de sistemas eficaces con mayor precisión dentro del área de la ciencia de datos.
Análisis de factores
El análisis factorial es una recopilación de técnicas para describir las relaciones o correlaciones entre variables en términos de entidades más fundamentales conocidas como factores [ 23 ]. Usualmente se utiliza para organizar variables en un pequeño número de clusters basados en su varianza común, donde se utilizan procedimientos matemáticos o estadísticos. Los objetivos del análisis factorial son determinar el número de influencias fundamentales que subyacen a un conjunto de variables, calcular el grado en que cada variable está asociada con los factores, y conocer más sobre la existencia de los factores mediante el examen de qué factores contribuyen a la producción en qué variables. El objetivo general del análisis de factores es resumir los datos de manera que las relaciones y patrones puedan interpretarse y entenderse fácilmente [ 143 ].
El análisis de factores exploratorios (EFA) y el análisis de factores confirmatorios (CFA) son las dos técnicas de análisis de factores más populares. EFA busca descubrir tendencias complejas mediante el análisis del conjunto de datos y las predicciones de pruebas, mientras que CFA trata de validar hipótesis y utiliza diagramas de análisis de trayectoria para representar variables y factores [ 143 ]. El análisis de factores es uno de los algoritmos para el aprendizaje automático no supervisado que se utiliza para minimizar la dimensión. Los métodos más comunes para el análisis de factores son el análisis de componentes principales (PCA), el factoraje de ejes principales (PAF) y la probabilidad máxima (ML) [ 48 ]. Métodos de análisis de correlación como correlación de Pearson, correlación canónica, etc. También puede ser útil en el campo, ya que pueden cuantificar la relación estadística entre dos variables continuas, o asociación. El análisis de factores se utiliza comúnmente en finanzas, marketing, publicidad, gestión de productos, psicología y operaciones de investigación, y por lo tanto se puede considerar como otro método analítico significativo dentro del área de la ciencia de datos.
Análisis de registros
Los registros se utilizan comúnmente en la gestión del sistema, ya que los registros son a menudo los únicos datos disponibles que registran actividades o comportamientos detallados de funcionamiento del sistema en la producción [ 44 ]. Por lo tanto, el análisis de registros puede ser considerado como el método de análisis, interpretación y capaz de entender registros o mensajes generados por computadora, también conocidos como registros. Esto puede ser registro del dispositivo, registro del servidor, registro del sistema, registro de la red, registro de eventos, rastro de auditoría, registro de auditoría, etc. El proceso de creación de tales registros se llama registro de datos.
Varias técnicas como clasificación y etiquetado, análisis de correlación, métodos de reconocimiento de patrones, métodos de detección de anomalías, modelado de aprendizaje automático, etc. [ 105 ] se puede utilizar para el análisis efectivo de log. El análisis de registros puede ayudar en el cumplimiento de las políticas de seguridad y las regulaciones de la industria, así como proporcionar una mejor experiencia de usuario al fomentar la solución de problemas técnicos e identificar áreas donde se puede mejorar la eficiencia. Por ejemplo, los servidores web utilizan archivos de registro para registrar datos sobre los visitantes del sitio web. El análisis del registro de eventos de Windows puede ayudar a un investigador a dibujar una línea de tiempo basada en la información de registro y los artefactos descubiertos. En general, los métodos de análisis avanzados, teniendo en cuenta los modelos de aprendizaje automático, pueden desempeñar un papel importante para extraer patrones perspicaces de estos datos de registro, que pueden utilizarse para crear aplicaciones automatizadas e inteligentes y, por lo tanto, pueden considerarse un área de trabajo clave en la ciencia de los datos.
Redes neuronales y análisis de aprendizaje profundo
El aprendizaje profundo es una forma de aprendizaje automático que utiliza redes neuronales artificiales para crear una arquitectura computacional que aprende de los datos combinando múltiples capas de procesamiento, como las capas de entrada, oculta y salida [ 38 ]. El beneficio clave del aprendizaje profundo sobre los métodos convencionales de aprendizaje automático es que tiene un mejor rendimiento en una variedad de situaciones, especialmente cuando se aprende de grandes conjuntos de datos [ 114 , 140 ].
Los algoritmos de aprendizaje profundo más comunes son: Perceptrón multicapa (MLP) [ 85 ], red neuronal convolucional (CNN o ConvNet) [ 67 ], la memoria a corto plazo red neural recurrente (LSTM-RNN) [ 34 ]. Figura 6 muestra una estructura de un modelado de red neuronal artificial con múltiples capas de procesamiento. La técnica de retropropagación [ 38 ] se utiliza para ajustar los valores de peso internamente mientras se construye el modelo. Redes neuronales convolucionales (CNN) [ 67 ] mejorar el diseño de las redes neuronales artificiales tradicionales (ANNs), que incluyen capas convolucionales, capas de puesta en común y capas totalmente conectadas. Se utiliza comúnmente en una variedad de campos, incluyendo el procesamiento del lenguaje natural, el reconocimiento del habla, el procesamiento de imágenes y otros datos autocorrelativos, ya que aprovecha la estructura bidimensional (2D) de los datos de entrada. AlexNet [ 60 ], Xception [ 21 ], Inception [ 125 ], Grupo de Geometría Visual (VGG) [ 42 ], ResNet [ 43 ], etc., y otros modelos avanzados de aprendizaje profundo basados en CNN también se utilizan en el campo.
Además de la CNN, la arquitectura de redes neuronales recurrentes (RNN) es otro método popular utilizado en el aprendizaje profundo. La memoria a corto plazo (LSTM) es un tipo popular de arquitectura de red neural recurrente que se utiliza ampliamente en el área del aprendizaje profundo. A diferencia de las redes neuronales tradicionales de avance, LSTM tiene conexiones de retroalimentación. Por lo tanto, las redes LSTM son adecuadas para analizar y aprender datos secuenciales, como la clasificación, clasificación y predicción de datos basados en datos de series temporales. Por lo tanto, cuando los datos están en un formato secuencial, como tiempo, oración, etc., LSTM se puede utilizar, y es ampliamente utilizado en las áreas de análisis de series temporales, procesamiento de lenguaje natural, reconocimiento de voz, y así sucesivamente.
Estructura de un modelado de red neuronal artificial con múltiples capas de procesamiento
Además de los métodos de aprendizaje profundo más populares mencionados anteriormente, varios otros enfoques de aprendizaje profundo [ 104 ] existen en el campo para varios propósitos. El mapa autoorganizado (SOM) [ 58 ], por ejemplo, utiliza el aprendizaje no supervisado para representar datos de alta dimensión como un mapa de cuadrícula 2D, reduciendo la dimensionalidad. Otra técnica de aprendizaje que se utiliza comúnmente para la reducción de la dimensión y extracción de características en tareas de aprendizaje no supervisadas es el autoencoder (AE) [ 10 ]. Las máquinas Boltzmann restringidas (RBM) se pueden utilizar para la reducción de dimensiones, clasificación, regresión, filtrado colaborativo, aprendizaje de características y modelado de temas, de acuerdo con [ 46 ]. Una red de creencias profundas (DBN) se compone generalmente de una red neuronal de retropropagación y redes no supervisadas como máquinas Boltzmann restringidas (RBMs) o autocodificadores (BPNN) [ 136 ]. Una red generativa adversaria (GAN) [ 35 ] es una red de aprendizaje profundo que puede producir datos con características similares a los datos de entrada. El aprendizaje de transferencia es común en todo el mundo actualmente porque puede entrenar redes neuronales profundas con una pequeña cantidad de datos, que es generalmente la reutilización de un modelo pre-entrenado sobre un nuevo problema [ 137 ]. Estos métodos de aprendizaje profundo pueden funcionar bien, en particular, al aprender de conjuntos de datos a gran escala [ 105 , 140 ]. En nuestro artículo anterior Sarker et al. [ 104 ], hemos resumido una breve discusión de varios modelos de redes neuronales artificiales (ANN) y de aprendizaje profundo (DL) mencionados anteriormente, que pueden ser utilizados en una variedad de tareas de ciencia de datos y análisis.
Dominios de aplicaciones del mundo real
Casi todas las industrias u organizaciones se ven afectadas por los datos, por lo que “Ciencias de datos” incluyendo análisis avanzados con modelos de aprendizaje automático se pueden utilizar en negocios, marketing, finanzas, sistemas IoT, ciberseguridad, gestión urbana, atención médica, políticas gubernamentales y todas las industrias posibles, donde se generan datos. En lo siguiente, discutimos diez áreas de aplicación más populares basadas en la ciencia de datos y análisis.
Ciencia de datos empresariales o financieros: En general, la ciencia de datos empresariales puede considerarse como el estudio de datos empresariales o de comercio electrónico para obtener información sobre una empresa que normalmente puede conducir a la adopción de decisiones inteligentes, así como a la adopción de medidas de alta calidad [ 90 ]. Los científicos de datos pueden desarrollar algoritmos o modelos basados en datos que predicen el comportamiento de los clientes, identificando patrones y tendencias basados en datos empresariales históricos, que pueden ayudar a las empresas a reducir costos, mejorar la prestación de servicios y generar recomendaciones para una mejor toma de decisiones. Eventualmente, la automatización de negocios, la inteligencia y la eficiencia se pueden lograr a través del proceso de ciencia de datos discutido anteriormente, donde varios métodos avanzados de análisis y modelado de aprendizaje automático basados en los datos recopilados son las claves. Muchos minoristas en línea, como Amazon [ 76 ], puede mejorar la gestión del inventario, evitar situaciones fuera de stock, y optimizar la logística y el almacenamiento utilizando modelos predictivos basados en técnicas de aprendizaje automático [ 105 ]. En términos de finanzas, los datos históricos están relacionados con las instituciones financieras para tomar decisiones empresariales de alto riesgo, que se utiliza principalmente para la gestión de riesgos, prevención de fraudes, asignación de créditos, análisis de clientes, servicios personalizados, comercio algorítmico, etc. En general, las metodologías de ciencia de datos pueden desempeñar un papel clave en la futura generación de empresas o industria financiera, en particular en lo que respecta a la automatización de empresas, la inteligencia y la adopción de decisiones y sistemas inteligentes.
Ciencia de datos industriales o industriales: Para competir en la capacidad de producción mundial, calidad y costo, las industrias manufactureras han pasado por muchas revoluciones industriales [ 14 ]. La última cuarta revolución industrial, también conocida como Industria 4.0, es la tendencia emergente de automatización e intercambio de datos en la tecnología de fabricación. Así, la ciencia de los datos industriales, que es el estudio de los datos industriales para obtener información que normalmente puede llevar a optimizar las aplicaciones industriales, puede desempeñar un papel vital en dicha revolución. Las industrias manufactureras generan una gran cantidad de datos de diversas fuentes, como sensores, dispositivos, redes, sistemas y aplicaciones [ 6 , 68 ]. Las principales categorías de datos industriales incluyen dispositivos de datos a gran escala, datos de producción del ciclo de vida, datos de operaciones empresariales, fuentes de la cadena de valor de la fabricación y datos de colaboración de fuentes externas [ 132 ]. Los datos deben ser procesados, analizados y asegurados para ayudar a mejorar la eficiencia, seguridad y escalabilidad del sistema. Por lo tanto, la modelización de la ciencia de los datos puede utilizarse para maximizar la producción, reducir los costos y aumentar los beneficios en las industrias manufactureras.
Ciencia de datos médicos o de salud: La salud es uno de los campos más notables donde la ciencia de datos está haciendo mejoras importantes. La ciencia de los datos de salud implica la extrapolación de los conocimientos procesables a partir de conjuntos de datos de los pacientes, generalmente recopilados a partir de registros de salud electrónicos. Para ayudar a las organizaciones, mejorar la calidad del tratamiento, reducir el costo de la atención y mejorar la experiencia del paciente, se pueden obtener datos de varias fuentes, por ejemplo, el historial médico electrónico, reclamaciones de facturación, estimaciones de costos, encuestas de satisfacción del paciente, etc., para analizar. En realidad, las analíticas de salud que utilizan modelos de aprendizaje automático pueden minimizar los costos médicos, predecir brotes infecciosos, prevenir enfermedades prevenibles y, en general, mejorar la calidad de vida [ 81 , 119 ]. En toda la población mundial, el promedio de vida humana está creciendo, lo que plantea nuevos desafíos a los métodos actuales de prestación de cuidados. Así, el modelado de datos de salud puede desempeñar un papel en el análisis de datos actuales e históricos para predecir tendencias, mejorar los servicios e incluso monitorear mejor la propagación de enfermedades. Eventualmente, puede conducir a nuevos enfoques para mejorar la atención al paciente, la experiencia clínica, el diagnóstico y el manejo.
IoT data science: Internet de las cosas (IoT) [ 9 ] es un campo técnico revolucionario que convierte cada sistema electrónico en uno más inteligente y por lo tanto se considera que es la gran frontera que puede mejorar casi todas las actividades en nuestras vidas. El aprendizaje automático se ha convertido en una tecnología clave para las aplicaciones de IoT porque utiliza la experiencia para identificar patrones y generar modelos que ayudan a predecir comportamientos y eventos futuros [ 112 ]. Uno de los principales campos de aplicación del IoT es una ciudad inteligente, que utiliza la tecnología para mejorar los servicios urbanos y las experiencias de vida de los ciudadanos. Por ejemplo, utilizando los datos pertinentes, se pueden utilizar métodos científicos de datos para la predicción del tráfico en ciudades inteligentes, a fin de estimar el uso total de energía de los ciudadanos durante un período determinado. Los modelos basados en el aprendizaje profundo en ciencia de datos se pueden construir sobre la base de una gran escala de conjuntos de datos de IoT [ 7 , 104 ]. En general, los enfoques de ciencia y análisis de datos pueden ayudar a modelar en una variedad de IoT y servicios de ciudades inteligentes, incluyendo gobernanza inteligente, hogares inteligentes, educación, conectividad, transporte, negocios, agricultura, atención médica e industria, y muchos otros.
Ciencia de datos de ciberseguridad: La ciberseguridad, o la práctica de defender redes, sistemas, hardware y datos de ataques digitales, es uno de los campos más importantes de la Industria 4.0 [ 114 , 121 ]. Las técnicas de ciencia de datos, en particular el aprendizaje automático, se han convertido en una tecnología de ciberseguridad crucial que continuamente aprende a identificar tendencias mediante el análisis de datos, una mejor detección de malware en el tráfico cifrado, la búsqueda de amenazas de información privilegiada, la predicción de los barrios malos en línea, el mantenimiento de la seguridad de las personas mientras navegan, o la protección de la información en la nube mediante el descubrimiento de actividades sospechosas de los usuarios [ 114 ]. Por ejemplo, el aprendizaje automático y el modelado de seguridad basado en el aprendizaje profundo pueden utilizarse para detectar eficazmente diversos tipos de ciberataques o anomalías [ 103 , 106 ]. Para generar normas de política de seguridad, el aprendizaje de normas de asociación puede desempeñar un papel importante en la creación de sistemas basados en normas [ 102 ]. Los modelos de seguridad basados en el aprendizaje profundo pueden funcionar mejor al utilizar la gran escala de conjuntos de datos de seguridad [ 140 ]. Así, el modelado de la ciencia de los datos puede permitir a los profesionales de la ciberseguridad ser más proactivos en la prevención de amenazas y reaccionar en tiempo real ante ataques activos, a través de la extracción de información procesable de los conjuntos de datos de seguridad.
Ciencia de datos conductuales: Los datos conductuales son información producida como resultado de actividades, más comúnmente comportamiento comercial, realizadas en una variedad de dispositivos conectados a Internet, tales como una PC, tableta o teléfonos inteligentes [ 112 ]. Sitios web, aplicaciones móviles, sistemas de automatización de marketing, centros de llamadas, mostradores de ayuda y sistemas de facturación, etc. son todas fuentes comunes de datos conductuales. Los datos conductuales son mucho más que solo datos, que no son datos estáticos [ 108 ]. El análisis avanzado de estos datos, incluidos los modelos de aprendizaje automático, puede facilitar en varias áreas, como la predicción de futuras tendencias de ventas y recomendaciones de productos en el comercio electrónico y el comercio minorista; la predicción de tendencias de uso, carga y preferencias de los usuarios en futuras versiones de juegos en línea; la determinación de cómo los usuarios utilizan una aplicación para predecir futuros usos y preferencias en el desarrollo de aplicaciones; la división de los usuarios en grupos similares para obtener una comprensión más centrada de su comportamiento en el análisis de cohortes; la detección de credenciales comprometidas y amenazas internas mediante la localización de comportamientos anómalos, o la formulación de sugerencias, etc. En general, el modelado de la ciencia de los datos conductuales generalmente permite hacer las ofertas correctas a los consumidores adecuados en el momento adecuado en varias plataformas comunes, como plataformas de comercio electrónico, juegos en línea, aplicaciones web y móviles, e IoT. En el contexto social, el análisis de los datos conductuales del ser humano utilizando métodos de análisis avanzados y los conocimientos extraídos de los datos sociales puede utilizarse para servicios sociales inteligentes basados en datos, que pueden considerarse como ciencia de datos sociales.
Ciencia de datos móviles: Los teléfonos móviles inteligentes de hoy se consideran como “teléfonos celulares multifuncionales de próxima generación que facilitan el procesamiento de datos, así como una conectividad inalámbrica mejorada” [ 146 ]. En nuestro artículo anterior [ 112 ], hemos demostrado que el interés de los usuarios en “Teléfonos Móviles” es más y más que otras plataformas como “Desktop Computer”, “Laptop Computer” o “Tablet Computer” en los últimos años. La gente utiliza teléfonos inteligentes para una variedad de actividades, incluyendo correo electrónico, mensajería instantánea, compras en línea, navegación por Internet, entretenimiento, redes sociales como Facebook, Linkedin y Twitter, y varios servicios de IoT como ciudades inteligentes, servicios de salud y transporte, y muchos otros. Las aplicaciones inteligentes se basan en los conocimientos extraídos de los conjuntos de datos pertinentes en función de las características de las aplicaciones, como la orientación a la acción, la adaptación en la naturaleza, la sugestión y la orientación a la adopción de decisiones, la información basada en los datos, la conciencia del contexto y el funcionamiento multiplataforma [ 112 ]. Como resultado, la ciencia de los datos móviles, que consiste en reunir una gran cantidad de datos móviles de diversas fuentes y analizarlos utilizando técnicas de aprendizaje automático para descubrir ideas útiles o tendencias basadas en datos, puede desempeñar un papel importante en el desarrollo de aplicaciones inteligentes para teléfonos inteligentes.
Ciencia multimedia de datos: En los últimos años, la revolución de los macrodatos en los sistemas de gestión multimedia se ha debido al uso rápido y generalizado de datos multimedia, como imágenes, audio, vídeo y texto, así como a la facilidad de acceso y disponibilidad de fuentes multimedia. Actualmente, sitios web para compartir multimedia, como Yahoo Flickr, iCloud y YouTube, y redes sociales como Facebook, Instagram y Twitter, se consideran fuentes valiosas de macrodatos multimedia [ 89 ]. Las personas, en particular las generaciones más jóvenes, pasan mucho tiempo en Internet y las redes sociales para conectarse con otros, intercambiar información y crear datos multimedia, gracias al advenimiento de nuevas tecnologías y las capacidades avanzadas de teléfonos inteligentes y tabletas. El análisis multimedia se ocupa del problema de manipular, manipular, extraer, interpretar y visualizar de manera eficaz y eficiente diversas formas de datos para resolver problemas del mundo real. El análisis de texto, el procesamiento de imágenes o vídeo, la visión por computadora, el procesamiento de audio o voz y la gestión de bases de datos se encuentran entre las soluciones disponibles para una gama de aplicaciones, incluyendo la atención médica, la educación, el entretenimiento y los dispositivos móviles.
Ciudades inteligentes o ciencia de datos urbanos: Hoy en día, más de la mitad de la población mundial vive en zonas o ciudades urbanas [ 80 y considerados como motores o centros del crecimiento económico, la creación de riqueza, el bienestar y la actividad social [ 96 , 116 ]. Además de las ciudades, “zona urbana” puede referirse a las áreas circundantes como ciudades, conurbaciones o suburbios. Así pues, se registra una gran cantidad de datos que documentan los acontecimientos diarios, las percepciones, los pensamientos y las emociones de los ciudadanos o las personas, que se clasifican de forma vaga en datos personales, por ejemplo, el hogar, la educación, el empleo, la salud, la inmigración, la delincuencia, etc., datos propietarios, por ejemplo, datos bancarios, al por menor, datos de plataformas en línea, etc., datos gubernamentales, por ejemplo, estadísticas de delincuencia en toda la ciudad, o instituciones gubernamentales, etc., datos públicos y abiertos, por ejemplo, datos de administración pública, estudios de municiones y datos orgánicos y de fuentes colectivas, por ejemplo, datos web generados por los usuarios, redes sociales, Wikipedia, etc. [ 29 ]. El campo de la ciencia de los datos urbanos se centra típicamente en proporcionar soluciones más eficaces desde una perspectiva basada en los datos, mediante la extracción de conocimientos e ideas prácticas de esos datos urbanos. Análisis avanzado de estos datos utilizando técnicas de aprendizaje automático [ 105 ] puede facilitar la gestión eficiente de las zonas urbanas, incluida la gestión en tiempo real, por ejemplo, la gestión de los flujos de tráfico, las decisiones de planificación basadas en datos empíricos que se refieren a la función estratégica a más largo plazo de la previsión de la planificación urbana, por ejemplo, la prevención del delito, la seguridad pública y la seguridad, o la formulación del futuro, por ejemplo, la adopción de decisiones políticas [ 29 ]. En general, puede contribuir a la planificación pública y gubernamental, así como a los sectores pertinentes, como el comercio minorista, los servicios financieros, la movilidad, la salud, la policía y los servicios públicos, dentro de un entorno urbano rico en datos, mediante la adopción de decisiones y políticas inteligentes basadas en datos, que conducen a ciudades inteligentes y mejoran la calidad de la vida humana.
Aldeas inteligentes o ciencias de datos rurales: Las zonas rurales o rurales son lo contrario de las zonas urbanas, que incluyen aldeas, aldeas o zonas agrícolas. El campo de la ciencia de los datos rurales suele centrarse en tomar mejores decisiones y proporcionar soluciones más eficaces que incluyan la protección de la seguridad pública, la prestación de servicios de salud esenciales, la agricultura y el fomento del desarrollo económico desde una perspectiva basada en los datos, mediante la extracción de conocimientos e ideas prácticas de los datos rurales recopilados. Análisis avanzado de datos rurales, incluido el aprendizaje automático [ 105 El modelado puede facilitarles nuevas oportunidades para crear conocimientos y capacidad para satisfacer las necesidades actuales y prepararse para su futuro. Por ejemplo, el modelo de aprendizaje automático [ 105 ] puede ayudar a los agricultores a mejorar sus decisiones de adoptar la agricultura sostenible utilizando la creciente cantidad de datos capturados por las tecnologías emergentes, por ejemplo, la Internet de las cosas (IoT), tecnologías y dispositivos móviles, etc. [ 1 , 51 , 52 ]. Así, la ciencia de los datos rurales puede desempeñar un papel muy importante en el desarrollo económico y social de las zonas rurales, a través de la agricultura, las empresas, el empleo por cuenta propia, la construcción, la banca, la atención sanitaria, la gobernanza u otros servicios, etc. que conducen a pueblos más inteligentes.
En general, podemos concluir que el modelado de la ciencia de datos puede ser utilizado para ayudar a impulsar cambios y mejoras en casi todos los sectores en nuestra vida real, donde los datos relevantes están disponibles para analizar. Recopilar los datos correctos y extraer conocimientos útiles o insights procesables de los datos para tomar decisiones inteligentes es la clave para el modelado de la ciencia de datos en cualquier dominio de aplicación. Sobre la base de nuestra discusión sobre los diez dominios de aplicaciones potenciales del mundo real anteriores, teniendo en cuenta la computación inteligente impulsada por datos y la toma de decisiones, podemos decir que las perspectivas de la ciencia de datos y el papel de los científicos de datos son enormes para el mundo futuro. Los “científicos de datos” suelen analizar información de múltiples fuentes para entender mejor los datos y los problemas empresariales, y desarrollar modelos analíticos basados en el aprendizaje automático o algoritmos, o herramientas o soluciones basadas en datos, centradas en análisis avanzados, que pueden hacer que el proceso de computación actual sea más inteligente, automatizado e inteligente.
Comprender los problemas empresariales del mundo real y los datos asociados, incluida la naturaleza, por ejemplo, qué formas, tipo, tamaño, etiquetas, etc., es el primer desafío en el modelado de la ciencia de los datos, que se examina brevemente en " Entender el modelado de la ciencia de los datos ”. De hecho, se trata de identificar, especificar, representar y cuantificar los problemas y datos empresariales específicos del dominio de acuerdo con los requisitos. Para una solución empresarial eficaz basada en datos, debe haber un flujo de trabajo bien definido antes de comenzar el trabajo real de análisis de datos. Además, la recopilación de datos empresariales es difícil porque las fuentes de datos pueden ser numerosas y dinámicas. Como resultado, la recopilación de diferentes formas de datos del mundo real, tales como estructurados, o no estructurados, relacionados con un problema de negocio específico con acceso legal, que varía de aplicación a aplicación, es un reto. Además, la anotación de datos, que suele ser el proceso de categorización, etiquetado o etiquetado de datos en bruto, con el fin de crear modelos basados en datos, es otro problema difícil. Así pues, la tarea principal es realizar un análisis más profundo de la recopilación de datos y de los métodos dinámicos de anotación. Por lo tanto, la comprensión del problema empresarial, así como la integración y gestión de los datos brutos recopilados para un análisis eficiente de los datos, puede ser uno de los aspectos más difíciles de trabajar en el campo de la ciencia y el análisis de datos.
El siguiente reto es la extracción de la información pertinente y precisa de los datos recogidos anteriormente. El objetivo principal de los científicos de datos es por lo general revelar, describir, representar y capturar información basada en datos para obtener información útil de los datos. Sin embargo, los datos del mundo real pueden contener muchos valores ambiguos, valores que faltan, valores atípicos y datos sin sentido [ 101 ]. Los métodos de análisis avanzados, incluyendo el modelado de la máquina y el aprendizaje profundo, discutidos en “ Métodos de análisis avanzados y computación inteligente ", impactan altamente la calidad, y la disponibilidad de los datos. Así, entender el escenario de negocios del mundo real y los datos asociados, a si, cómo y por qué son insuficientes, inexistentes o problemáticos, luego ampliar o volver a desarrollar los métodos existentes, tales como pruebas de hipótesis a gran escala, inconsistencia de aprendizaje e incertidumbre, etc. es importante abordar las complejidades de los datos y los problemas empresariales. Por lo tanto, el desarrollo de nuevas técnicas para procesar eficazmente los diversos datos recopilados de múltiples fuentes, según su naturaleza y características, podría ser otra tarea difícil.
La comprensión y la selección de los métodos analíticos adecuados para extraer los conocimientos útiles para la adopción de decisiones inteligentes en relación con un problema empresarial concreto es la cuestión principal en el ámbito de la ciencia de los datos. El énfasis de la analítica avanzada es más en anticipar el uso de datos para detectar patrones para determinar lo que es probable que ocurra en el futuro. El análisis básico ofrece una descripción de los datos en general, mientras que el análisis avanzado es un paso adelante para ofrecer una comprensión más profunda de los datos y ayudar al análisis de datos granulares. Por lo tanto, entender los métodos de análisis avanzados, especialmente el modelado basado en la máquina y el aprendizaje profundo es la clave. Las técnicas tradicionales de aprendizaje mencionadas en " Métodos de análisis avanzados y computación inteligente ” puede no ser directamente aplicable para el resultado esperado en muchos casos. Por ejemplo, en un sistema basado en normas, la técnica tradicional de aprendizaje de normas de asociación [ 4 [ ] pueden producir reglas redundantes a partir de los datos que hacen que el proceso de toma de decisiones sea complejo e ineficaz [ 113 ]. Por lo tanto, se necesita una comprensión científica de los algoritmos de aprendizaje, propiedades matemáticas, cómo las técnicas son robustas o frágiles para introducir datos, para entender. Por lo tanto, una comprensión más profunda de las fortalezas e inconvenientes de la máquina existente y los métodos de aprendizaje profundo [ 38 , 105 ] para resolver un problema de negocio particular es necesario, en consecuencia, para mejorar o optimizar los algoritmos de aprendizaje de acuerdo con las características de los datos, o para proponer el nuevo algoritmo / técnicas con mayor precisión se convierte en un problema importante para los científicos de datos de la generación futura.
Los modelos o sistemas tradicionales basados en datos suelen utilizar una gran cantidad de datos empresariales para generar decisiones basadas en datos. En varios campos de aplicación, sin embargo, es más probable que las nuevas tendencias sean interesantes y útiles para modelar y predecir el futuro que las más antiguas. Por ejemplo, modelado del comportamiento de los usuarios de teléfonos inteligentes, servicios de IoT, pronósticos de mercados de valores, servicios de salud o transporte, análisis del mercado laboral y otras áreas relacionadas en las que las series cronológicas y los intereses humanos reales o preferencias están involucrados con el tiempo. Por lo tanto, en lugar de considerar el análisis de datos tradicional, el concepto de RecencyMiner, es decir, reciente análisis extraído basado en patrones o conocimiento propuesto en nuestro artículo anterior Sarker et al. [ 108 Podría ser efectivo. Por lo tanto, proponer las nuevas técnicas teniendo en cuenta las pautas de datos recientes y, en consecuencia, crear un modelo basado en datos de actualidad para resolver problemas del mundo real, es otro problema importante en la zona.
La tarea más crucial para un sistema inteligente basado en datos es crear un marco que apoye el modelado de la ciencia de los datos discutido en " Entender el modelado de la ciencia de los datos ”. En consecuencia, en un sistema de este tipo se pueden considerar métodos analíticos avanzados basados en el aprendizaje automático o en técnicas de aprendizaje profundo para que el marco sea capaz de resolver los problemas. Además, incorporando información contextual como contexto temporal, contexto espacial, contexto social, contexto ambiental, etc. [ 100 ] se puede utilizar para construir un modelo o marco adaptativo, consciente del contexto y dinámico, dependiendo del dominio del problema. Como resultado, un marco bien diseñado basado en datos, así como una evaluación experimental, es una dirección muy importante para resolver eficazmente un problema empresarial en un ámbito determinado, así como un gran desafío para los científicos de datos.
En varios ámbitos importantes de aplicación, como los automóviles autónomos, la justicia penal, la atención de la salud, la contratación, la vivienda, la gestión de los recursos humanos, la seguridad pública, donde las decisiones adoptadas por los modelos, o los agentes de inteligencia artificial, tienen un efecto directo en la vida humana. Como resultado de ello, está aumentando la preocupación acerca de si estas decisiones pueden ser confiables, ser correctas, razonables, éticas, personalizadas, exactas, robustas y seguras, particularmente en el contexto de ataques contradictorios [ 104 ]. Si podemos explicar el resultado de una manera significativa, entonces el modelo puede ser mejor confiado por el usuario final. Para los modelos aprendidos por la máquina, las nuevas propiedades de confianza producen nuevas compensaciones, tales como privacidad versus precisión; robustez versus eficiencia; equidad versus robustez. Por lo tanto, la incorporación de IA confiable, en particular, el modelado basado en datos o el aprendizaje automático podría ser otro problema difícil en la zona.
En lo anterior, hemos resumido y discutido varios desafíos y las potenciales oportunidades y direcciones de investigación, dentro del ámbito de nuestro estudio en el área de la ciencia de datos y la analítica avanzada. Los científicos de datos de la academia/industria y los investigadores del área relevante tienen la oportunidad de contribuir a cada tema identificado anteriormente y construir modelos o sistemas eficaces basados en datos, para tomar decisiones inteligentes en los dominios empresariales correspondientes.
Conclusión
En este trabajo, hemos presentado una visión integral sobre la ciencia de los datos incluyendo varios tipos de métodos analíticos avanzados que se pueden aplicar para mejorar la inteligencia y las capacidades de una aplicación. También hemos visualizado la popularidad actual de la ciencia de datos y el modelado analítico avanzado basado en el aprendizaje automático y también los diferenciamos de los términos pertinentes utilizados en el área, para hacer la posición de este artículo. Un estudio exhaustivo sobre el modelado de la ciencia de los datos con sus diversos módulos de procesamiento que son necesarios para extraer los conocimientos procesables de los datos para un problema de negocio particular y el producto de datos eventual. Así, de acuerdo con nuestro objetivo, hemos discutido brevemente cómo los diferentes módulos de datos pueden desempeñar un papel significativo en una solución empresarial basada en datos a través del proceso de ciencia de datos. Para ello, también hemos resumido varios tipos de métodos y resultados analíticos avanzados, así como modelos de aprendizaje automático que se necesitan para resolver los problemas empresariales asociados. Así, la contribución clave de este estudio se ha identificado como la explicación de diferentes métodos analíticos avanzados y su aplicabilidad en varias áreas de aplicaciones basadas en datos del mundo real, incluyendo negocios, salud, ciberseguridad, ciencia de datos urbanas y rurales, y así sucesivamente, teniendo en cuenta la computación inteligente impulsada por datos y la toma de decisiones.
Por último, dentro del ámbito de nuestro estudio, hemos esbozado y discutido los desafíos que enfrentamos, así como las posibles oportunidades de investigación y las direcciones futuras. Como resultado de ello, los desafíos identificados ofrecen oportunidades prometedoras de investigación sobre el terreno que pueden explorarse con soluciones eficaces para mejorar el modelo y los sistemas impulsados por los datos. En general, concluimos que nuestro estudio de soluciones analíticas avanzadas basadas en la ciencia de los datos y los métodos de aprendizaje automático, conduce en una dirección positiva y puede utilizarse como guía de referencia para futuras investigaciones y aplicaciones en el campo de la ciencia de los datos y sus aplicaciones en el mundo real, tanto por parte de los profesionales académicos como de la industria.
Autor correspondiente
Declaraciones éticas
Conflicto de intereses
Información adicional
Nota del editor
Springer Nature sigue siendo neutral con respecto a las reclamaciones jurisdiccionales en mapas publicados y afiliaciones institucionales.
Este artículo es parte de la colección tópica “Avances en enfoques computacionales para la inteligencia artificial, procesamiento de imágenes, IoT y aplicaciones en la nube” invitado editado por Bhanu Prakash K N y M. Shivakumar.
Artículos Relacionados: