¿Puedo ser un científico de datos sin programación?

Si tienes sueños de convertirte en un científico de datos o ingeniero de datos , probablemente verías un pantalla negra llena de códigos en ese sueño. Pulir tus habilidades de codificación puede ser el consejo popular que recibes en este viaje. Sin embargo, sorprendentemente, No tiene nada que ver con la programación.

La ciencia de los datos es el proceso de tener sentido a partir de una colección cruda de registros. Un lenguaje de programación es sólo una herramienta. Es como un recipiente para cocinar tus comidas. Pero el recipiente en sí no es la comida.

La gente pierde interés en la ciencia de los datos porque algunos no son buenos en la programación. No podían pensar ni siquiera en un lenguaje intuitivo como Python. Sin embargo, para otros, es bastante natural. Pero estas no son incapacidades, sino habilidades diferentes.

Esta historia cambiará tu perspectiva. Incluso si no puedes o no quieres programar, puedes convertirte en un científico de datos excepcional. Pensamiento crítico y algunos datos alfabetizados le hará incluso capaz de gestionar un proyecto de datos.

Hoy tenemos tecnologías que no requieren habilidades de codificación para iniciar la ciencia de los datos. También tienen varios beneficios que los programadores no tienen . Debido a su naturaleza intuitiva y a su menor dependencia, les sugeriría a todos los que aspiran a convertirse en científicos de datos.

Discutiremos el tema. KNIME plataforma de análisis en este post. No requiere más que sentido común para tener sentido a partir de los datos. Otra alternativa popular es Rapidminer . Ambos han estado alrededor por un tiempo, y muchas empresas los utilizan en la producción también. Sin embargo, en mi opinión, todavía están infravalorados.

Antes de avanzar, vamos a hacer primero un científico de datos y un ingeniero de datos.

Puedes descargar e instalar KNIME en su computadora como cualquier otra aplicación. El software es libre y de código abierto. Puedes usarlo para construir tuberías de datos, forcejeo de datos, modelos de aprendizaje automático de formación y predicciones en tiempo real. Ese es más o menos el trabajo de la mayoría de los científicos e ingenieros de datos.

Supongamos que estás creando un motor de segmentación del cliente para una cadena minorista. Usted recibe datos de dos sistemas diferentes. Una es una tabla que contiene la información demográfica del cliente, y la otra es acerca de su patrón de compra. Su tarea es actualizar la representación de clústers todos los días a medida que recibe nuevos datos.

La primera parte de esto es un ETL. Es la parte de ingeniería de datos en nuestro ejemplo. Leemos los datos de las diferentes fuentes de datos (Extract,) unirse a ellos y filtrar (Transform,) y guardar (Cargar) para futuras referencias.

En el En la segunda parte, creamos un motor de agrupamiento K. Es la parte de la ciencia de los datos de nuestro ejemplo. Lee datos de la ruta guardada, realiza clustering y emite una tabla. La tabla de salida tiene etiquetas de clúster de cada cliente.

¿Qué necesita saber sobre la interfaz de KNIME?

La interfaz tiene un montón de características increíbles. Sin embargo, para este ejercicio introductorio, estamos interesados en sólo dos componentes. El repositorio Nodo está en la esquina inferior izquierda, y el editor de flujo de trabajo está en el centro. El widget de descripción en el lado derecho del editor también es útil.

El equipo de ingeniería detrás de KNIME ha hecho un trabajo fantástico. Han creado nodos para casi todas las actividades que un científico de datos realizaría. Podemos buscar cualquier nodo desde el repositorio de nodos.

Puede arrastrar cualquiera de esos nodos al editor. Haga doble clic en cualquier nodo; obtendrá una ventana de configuración. Puede hacer todos los ajustes que la actividad requiere para funcionar en esta ventana.

Puede extraer la documentación instantánea de cualquier nodo haciendo clic en ella. Explicará todos los requisitos de entrada y lo que el nodo devolverá.

Lectura de datos de fuentes de datos—extracto.

Hay varias maneras de extraer datos de fuentes en KNIME. Puede leer desde archivos, consultar una base de datos, llamar a un punto final REST, etc.

En este ejemplo, leemos un par de archivos CSV del sistema de archivos local. Puede buscar el nodo lector CSV en el repositorio de nodos y arrastrarlo al editor.

Al arrastrarlo a la ventana principal, puede ver que el semáforo rojo está debajo del nodo. Significa que aún no lo hemos configurado. Puede hacer doble clic en él y configurarlo para leer desde una ruta de archivo.

Puede ver que el indicador es amarillo ahora. Significa que el nodo está listo para funcionar. Haga clic derecho en el nodo y seleccione ejecutar. Ahora el puntero se vuelve verde. La ejecución del nodo tuvo éxito.

Puede ver los resultados haciendo clic con el botón derecho y seleccionando el último elemento de la lista. En KNIME, estas pocas opciones al final son siempre las salidas de esos nodos. El nodo lector CSV solo genera un elemento: la tabla de archivos en sí.

En este ejemplo, estoy leyendo dos CSVs. Puedes descargarlos desde este Repositorio Git .

Realizar uniones, filtrar, etc.—transformar.

KNIME tiene nodos intuitivos para realizar todo tipo de tareas de forcejeo de datos. En este ejemplo, estamos usando dos de ellos: filtros de unión y fila. Usted puede tener que realizar binning, normalización, eliminación de duplicados y nulos, etc.

Transformar una variable y agregarla es un tipo común de tarea que realizarías. Esta técnica es conocida popularmente como la operación de reducción de mapas.

Todos ellos son nodos en KNIME.

Saqué el nodo de unión del repositorio. Usando el ratón, conecté las salidas de los nodos CSV (derecha) con las entradas de los nodos joiner (izquierda). Puede configurar este nodo seleccionando las columnas de cada tabla para realizar la operación de unión.

A diferencia del nodo lector CSV, el nodo Joiner tiene tres salidas. Si se pasa por encima de ellos, un consejo explica lo que cada uno de ellos es. El primero es el resultado de la unión. No usamos el segundo (sin igual) y el tercero (sin igual) en nuestro ejemplo.

A continuación, tiremos del nodo de filtro de fila y conéctelo con las salidas del nodo de unión. Podemos configurarlo para eliminar a los clientes que son compras de una sola vez. Establecer el límite inferior de la variable visit_count a 2.

Guardando la salida—cargar.

La parte final de un gasoducto ETL es cargar los datos al almacenamiento persistente. No queremos complicar el ejemplo. Por lo tanto, lo escribimos a un CSV. Pero, es posible que tenga que cargarlo a una base de datos o un almacén de datos en proyectos del mundo real. No te preocupes; KNIME ayuda en todas las situaciones.

Agarré el nodo de escritor CSV y lo configré de la misma manera que lo hicimos con el lector CSV.

Esta última parte concluye el gasoducto ETL. Es una tarea crucial de un ingeniero de datos. Encuentre algunas descripciones de trabajo en LinkedIn y véalas usted mismo.

Realizar tareas de aprendizaje automático sin codificación.

Tenemos los datos limpios y listos para construir cosas emocionantes. En este ejemplo, hemos tomado un problema de segmentación del mercado. Para hacer esto, vamos a utilizar el K-Means Algoritmo de agrupamiento. Del mismo modo, puede realizar casi cualquier algoritmo de aprendizaje automático en KNIME sin escribir una sola línea de código.

K-Means crea grupos de clientes basados en similitudes en sus atributos. Además de qué atributos utilizar, también podemos especificar cuántos grupos necesitamos.

Saquemos el nodo k-Means del repositorio y conéctelo con la salida del nodo de filtro Row. Podemos configurarlo para agrupar a los clientes en cuatro clusters usando su edad y conteo de visitas.

Después de ejecutar el nodo, puede inspeccionar las salidas. Obtienes la etiqueta de clúster para cada cliente y resúmenes para cada clúster.

Elijo K-Means en este ejemplo por su simplicidad. Para la mayoría de las aplicaciones de aprendizaje automático, usted tiene varias otras tareas que realizar. El readiestramiento de un modelo también es crítico.

Visualizando su análisis en KNIME.

La parte final de la mayoría de los proyectos de ciencia de datos es visualizar ideas. Las plataformas Business Intelligent (BI) como Tableau se especializan en esta área. Puedes conectar KNIME con ellos para análisis avanzados. Sin embargo, el lugar en sí mismo soporta visualizaciones básicas. Las plataformas BI son fantásticas para un público más amplio. Pero los nodos de visualización de KNIME son suficientes para los científicos de datos.

Usaremos un nodo scatterplot para crear un gráfico entre las dos variables que usamos para agrupar. Pero antes de eso, vamos a poner un nodo del gestor de color en el flujo de trabajo.

A diferencia de otras herramientas de visualización, necesitamos colorear nuestros registros antes de trazarlos.

Puede seleccionar los colores y la variable a utilizar para la selección de color. Sin embargo, en este ejemplo, estamos bien con los valores predeterminados. El administrador de color elige las etiquetas de cluster para él, y los colores predeterminados son buenos también.

Ahora podemos añadir el nodo scatterplot al flujo de trabajo. Configuremos que use la edad en el eje x y visite la cuenta en y. Además, asegúrese de marcar la casilla de verificación "crear imagen en la salida".

Ahora puede ejecutar el nodo scatterplot y extraer la salida de imagen. Puede utilizar un nodo de escritor de imágenes para exportar el resultado a un archivo también.

Así es como se ve el flujo de trabajo final si necesitas una referencia.

Excelente. Hemos construido una tubería de datos entera sin una sola línea de código. Cubre ETL, un trabajo crítico de un ingeniero de datos. Además, hemos construido modelos de aprendizaje automático y visualizamos su salida también.

La programación es esencial para la ciencia de los datos es un mito. Los dos están relacionados. Pero no dependen el uno del otro.

No abogo por evitar la programación por completo. En algún momento, lo necesitas. Por ejemplo, un descubrimiento reciente en la ciencia de los datos puede no estar allí en KNIME todavía. La plataforma es buena para realizar lo que ya está allí y popular.

Además, si usted es un investigador de ciencia de datos, KNIME tiene sólo un poco de uso. Necesitas construir tu propio algoritmo con tus propias líneas de código.

Por esta razón, KNIME mismo ofrece flexibilidad al programa. La instalación estándar ya tiene los nodos Java y JavaScript para hacerlo. También puede extenderlo a su uso Python y otros idiomas.