¿Qué flujo es mejor para el científico de datos?

El aprendizaje automático tradicional forma modelos basados en datos históricos. Este enfoque supone que el mundo permanece esencialmente igual, que los mismos patrones, anomalías y mecanismos observados en el pasado ocurrirán en el futuro. Así que, predictivo Analítica es realmente mirando hacia el pasado más que el futuro.

Las herramientas disponibles recientemente ayudan a los analistas de negocios a “consultar el futuro” basado en datos de streaming de cualquier fuente, incluyendo sensores IoT, interacciones web, transacciones, información de posición GPS o contenido de redes sociales. Del mismo modo, ahora podemos aplicar modelos de ciencia de datos a la transmisión de datos.

Ya no está obligado a mirar sólo al pasado, las implicaciones de la transmisión de la ciencia de datos son profundas.

Los modelos de ciencia de datos basados en datos históricos son buenos pero no para todo

La mayoría de las aplicaciones para el aprendizaje automático hoy en día buscan identificar patrones repetidos y confiables en datos históricos que son predictivos de eventos futuros. Cuando las relaciones entre las dimensiones y los “conceptos” son estables y predictivas de los acontecimientos futuros, entonces este enfoque es práctico.

Por ejemplo, el número de visitantes esperados en una playa puede ser predicho por el clima y la temporada — menos gente visitará la playa en invierno o cuando llueva, y estas relaciones serán estables con el tiempo.

Del mismo modo, los números, las cantidades y los tipos de cargos por tarjetas de crédito hechos por la mayoría de los consumidores seguirán patrones que son predecibles a partir de los datos de gasto históricos, y cualquier desviación de esos patrones puede servir como desencadenantes útiles para alertas de fraude.

Y, incluso cuando las relaciones entre variables cambian con el tiempo —por ejemplo, cuando cambian los patrones de gasto de las tarjetas de crédito— el monitoreo eficiente del modelo y las actualizaciones automáticas (denominadas recalibraciones o rebasamientos) de los modelos pueden producir un sistema eficaz, preciso, pero adaptativo.

Streaming Data Science aplica algoritmos in-streaming

En algunos casos, sin embargo, hay ventajas a la aplicación de algoritmos de aprendizaje a la transmisión de datos en tiempo real. A veces, un factor crítico que impulsa el valor de la aplicación es la velocidad a la que los conocimientos recién identificados y emergentes se traducen en acciones.

En algunos casos de uso, hay ventajas para aplicar algoritmos de aprendizaje adaptativo en la transmisión de datos, en lugar de esperar a que llegue a descansar en una base de datos.

Por ejemplo, para identificar los factores críticos que predicen la opinión pública, las opciones de moda y las preferencias de los consumidores, puede ser útil adoptar un enfoque adaptativo para la modelización y actualización continuas de los modelos.

Streaming BI — una tecnología habilitante para Streaming Data Science

El siguiente video muestra Streaming BI en acción para un coche de Fórmula 1. Los sensores de IoT integrados transmiten datos a medida que el coche acelera alrededor de la pista. Los analistas ven una visión continua en tiempo real de la posición del coche y los datos: acelerador, RPM, presión de freno — potencialmente cientos, o miles de métricas.

Al visualizar algunas de esas métricas, un estratega de raza puede ver lo que las instantáneas estáticas nunca podrían revelar: movimiento, dirección, relaciones, la tasa de cambio. Como una cámara de vigilancia analítica.

La innovación de Streaming BI es que puede consultar datos en tiempo real, y dado que el sistema registra y reevalua continuamente consultas, puede consultar efectivamente el futuro.

Es decir, una vez que creas una visualización, el sistema recuerda tus preguntas que encienden la visualización y actualizan continuamente los resultados. Lo pones y lo olvidas.

La innovadora innovación de Streaming BI es que puedes consultar en tiempo real y en condiciones futuras.

Nuevas preguntas son posibles

¿Qué preguntas preguntarías si pudieras consultar el futuro? Un equipo de carreras puede preguntar cuándo el coche está a punto de tomar un camino subóptimo en una curva de horquilla; averiguar cuándo los neumáticos comenzarán a mostrar signos de desgaste determinadas condiciones de la pista, o entender cuándo el pronóstico del tiempo está a punto de afectar el rendimiento de los neumáticos.

Por lo tanto, mediante consultas continuas con el registro de consultas, los analistas de negocios pueden consultar eficazmente el futuro.

Pero, ¿qué pasa si esas consultas también podrían incorporar algoritmos de ciencia de datos? Bueno, ¡pueden!

Casos de uso de aprendizaje adaptativo

El aprendizaje adaptativo con datos de streaming es la ciencia de los datos equivalente a cómo los seres humanos aprenden observando continuamente el medio ambiente.

Por ejemplo, en la fabricación de alta tecnología, un número casi infinito de diferentes modos de fallo puede ocurrir. Para evitar tales fallas, los datos de streaming pueden ayudar a identificar patrones asociados con problemas de calidad a medida que surgen, y lo más rápidamente posible.

aprendizaje adaptativo a partir de datos de streaming significa aprendizaje continuo y calibración de modelos basados en los datos más recientes, y a veces la aplicación de algoritmos especializados a los datos de streaming para mejorar simultáneamente los modelos de predicción, y para hacer las mejores predicciones al mismo tiempo.

Otros ejemplos en los que el aprendizaje continuo adaptativo es fundamental son la optimización de los precios de los productos de seguros o bienes de consumo, las aplicaciones de detección de fraudes en los servicios financieros o la rápida identificación de los cambios en los sentimientos de los consumidores y las preferencias de moda.

Hacia el futuro de la ciencia de la transmisión de datos

Aprender de la transmisión continua de datos es diferente que aprender basado en datos históricos o datos en reposo. La mayoría de las implementaciones de Machine Learning e Inteligencia Artificial dependen de grandes repositorios de datos de datos históricos relevantes y asumen que los patrones y relaciones de datos históricos serán útiles para predecir resultados futuros.

Sin embargo, cuando los datos de streaming se utilizan para monitorear y apoyar procesos y aplicaciones continuos críticos para el negocio, a menudo se esperan cambios dinámicos en los patrones de datos. Se requieren diferentes enfoques analíticos y arquitectónicos para analizar los datos en movimiento, en comparación con los datos en reposo.

El Dr. Thomas Hill es Director Senior de Análisis Avanzado (productos Statistica) en el grupo de Análisis TIBCO. Anteriormente ocupó cargos como Director Ejecutivo de Analytics en Statistica, dentro de Quest’s y en Dell’s Information Management Group.

Mark Palmer es el SVP de Analytics en el software TIBCO. Como CEO de StreamBase, fue nombrado uno de los pioneros de la tecnología que cambiará su vida por la revista Time.