¿Cómo se crea un proyecto de ciencia de datos de extremo a extremo?

Proyectos de ciencia de datos de Python principiantes y avanzados con código fuente.

Si usted ha estado estudiando la ciencia de los datos por un tiempo, usted puede saber que con el fin de aprender la ciencia de los datos que necesita para aprender matemáticas, estadísticas y programación. Este es un buen comienzo para cualquier persona interesada en la ciencia de datos, pero ¿sabes cómo conseguir aún más exposición a la ciencia de datos?

¡Es con proyectos! Un proyecto le ayudará a poner en práctica todo el conocimiento que ha adquirido de matemáticas, estadísticas y programación. Hasta ahora podrías haber visto cada uno de ellos individualmente, pero después de terminar un proyecto, los conceptos que has aprendido en cada campo tendrán más sentido.

En este artículo, enumeré algunos proyectos de ciencia de datos de extremo a extremo que puedes hacer con Python. Los proyectos se enumeran por dificultad, por lo que los proyectos principiantes están al principio, mientras que los proyectos avanzados están al final del artículo.

Nota: La mayoría de los proyectos enumerados en este artículo requieren un conocimiento justo de Python. Al menos debes conocer los fundamentos de bibliotecas como Pandas, Numpy y Scikit-learn, etc. Voy a dejar el código fuente de cada proyecto, así como una guía de las bibliotecas utilizadas en cada proyecto. Si sigues siendo principiante en Python, te recomiendo que empieces con Primero los proyectos básicos de Python .

La mayoría de los proyectos del mundo real que usted resolverá en el futuro, así como algunos proyectos enumerados en este artículo le requerirán realizar un EDA (análisis de datos exploratorios). Este paso es esencial en cada proyecto de ciencia de datos porque le ayuda a entender sus datos y obtener información útil con técnicas de visualización.

EDA también ayuda a exponer resultados inesperados y atípicos en sus datos. Por ejemplo, gráficos como histograma, boxplot y barplot le ayudarán a identificar valores atípicos, para que pueda deshacerse de ellos y realizar un mejor análisis.

No estoy contando EDA como un proyecto en esta lista porque por lo general no es el objetivo del proyecto final, pero algo que debe hacer para realizar un mejor análisis. Para aprender a realizar EDA, compruebe esto guía que le introducirá a la visualización de datos en Python. En la guía, usted tendrá que obtener información de un conjunto de datos que contiene estadísticas de los jugadores de fútbol. También, compruebe este otro guía aprender las mejores prácticas de limpieza de datos en Python. Esta segunda guía le mostrará cómo identificar y lidiar con los valores atípicos utilizando las parcelas que aprendió en la primera guía.

El primer proyecto de esta lista es construir un modelo de aprendizaje automático que predice el sentimiento de una revisión de una película. El análisis de sentimientos es una técnica NLP utilizada para determinar si los datos son positivos, negativos o neutros. Es realmente útil para las empresas porque ayuda a entender las opiniones generales de sus clientes.

Para este proyecto, usará un conjunto de datos IMDB que contiene 50k críticas de películas. con 2 columnas (revisión y sentimiento). El objetivo es construir el mejor modelo de aprendizaje automático que predice el sentimiento dado una revisión de la película. Para que este proyecto sea amigable con los principiantes solo tienes que predecir si una reseña de una película es positiva o negativa. Esto se conoce como clasificación de texto binario porque sólo hay dos posibles resultados.

Una de las cosas que hacen que este primer proyecto sea especial es que explorarás la biblioteca scikit-learn mientras construyes un modelo básico de aprendizaje automático desde cero.

Hay muchos proyectos de “detección” que puedes hacer con Python. En lugar de solo nombrar uno, voy a enumerar por el nivel de dificultad aquellos que implementé con Python.

2. Detección de noticias falsas

El proyecto de detección más amigable para principiantes es probablemente Fake News Detection. Las noticias falsas se difunden por todas partes en Internet. Esto genera confusión y pánico entre la población. Por eso es importante identificar la autenticidad de la información. Afortunadamente, podemos utilizar Python para abordar este proyecto de ciencia de datos.

El objetivo de este proyecto es separar las noticias reales de las noticias falsas. Para ello, utilizaremos herramientas de sklearn como TfidfVectorizer y PassiveAgressiveClassifier.

3. Detección de fraude con tarjeta de crédito

Si quieres hacer este tipo de proyecto un poco más desafiante, puedes probar la detección de fraude con tarjeta de crédito. El fraude con tarjetas de crédito cuesta tanto a los consumidores como a las empresas miles de millones de dólares, mientras que los estafadores siguen tratando de encontrar nuevas formas de cometer estas acciones ilegales. Esta es la razón por la que los sistemas de detección de fraude se han convertido en esenciales para que los bancos reduzcan al mínimo las pérdidas.

En este proyecto, usted debe analizar el comportamiento de gasto del cliente a partir de un conjunto de datos que contiene historial de transacciones. Variables como la ubicación le ayudarán a identificar transacciones fraudulentas.

Un chatbot es sólo un programa que simula la conversación humana a través de comandos de voz o chats de texto. Los chatbots avanzados se construyen utilizando inteligencia artificial y se utilizan en la mayoría de las aplicaciones de mensajería que tienes en tu teléfono.

Aunque crear asistentes de voz como Siri y Alexa son demasiado complejos, todavía podemos crear un chatbot básico usando Python y aprendizaje profundo. En este proyecto, tendrás que entrenar al chatbot con un conjunto de datos utilizando técnicas de ciencia de datos. A medida que estos chatbots procesen más interacciones, su inteligencia y precisión aumentarán.

Construir un simple chatbot le expondrá a una variedad de habilidades útiles para la ciencia de datos y la programación

El cliente churn es la tasa a la que los clientes dejan de hacer negocios con una empresa. Esto representa el porcentaje de suscriptores que interrumpen sus suscripciones dentro de un período de tiempo determinado.

Este es un buen proyecto para probar sus habilidades en ciencia de datos. ¡Incluso tuve que resolverlo en hackathons!

El objetivo principal de este proyecto es clasificar si un cliente va a churn o no. Para ello, usará un conjunto de datos que tenga datos financieros sobre el cliente de un banco. Para construir este modelo de predicción se utilizará información como puntaje de crédito, tenencia, número de productos y salario estimado.

Este proyecto y el proyecto de detección de fraude con tarjeta de crédito son el proyecto de ciencia de datos más completo enumerado en este artículo. Incluye el análisis exploratorio de datos, ingeniería de características, preparación de datos, ajuste de modelos y selección de modelos.

¡Eso es todo! Espero que después de terminar todos estos proyectos, usted entienda mucho mejor todo lo que ha aprendido acerca de la ciencia de datos hasta ahora.