¿Cuáles son las tres actividades principales del análisis de datos?
Lo básico
Un amigo que no he visto en un tiempo me preguntó qué hago para ganarme la vida, y hablé de SAGE Stats y el trabajo que va en el mantenimiento y la construcción de la colección. En lugar de sus ojos resplandecientes (como lo haría la mayoría de la gente) me preguntó: “Ok. No para parecer un idiota, pero ¿qué es el análisis de datos? ¿Cómo qué cubre? Si has tenido pensamientos similares, ¡nunca temas! Creo que puedo decir con seguridad que he recibido múltiples variaciones de esta pregunta antes. Mi respuesta típica: ¿qué no cubre?El análisis de datos abarca todo, desde la lectura de la metodología de origen detrás de una recopilación de datos hasta la creación de una visualización de datos de la estadística que ha extraído. Todos los pasos intermedios incluyen descifrar descripciones variables, realizar comprobaciones de calidad de los datos, corregir irregularidades de ortografía, reformatear el diseño del archivo para adaptarse a sus necesidades, averiguar qué estadística es la mejor para describir los datos, y averiguar las mejores fórmulas y métodos para calcular la estadística que desea. Phew. Estos pasos y muchos otros caen en tres etapas del proceso de análisis de datos: evaluar, limpiar y resumir .Tomemos algún tiempo con la Etapa 1: Evalúe. Entraremos en las Etapas 2 y 3 en los próximos posts. ¿Listo? Aquí vamos...
Desglose: Evaluar
Evaluación de un archivo de datos es algo así como un episodio de House Hunters: es necesario explorar un archivo de datos para estructural u otros defectos que sería un rompedor de trato para usted. ¿Qué edad tiene esta casa? ¿La construcción es estructuralmente sólida? Similarmente, al evaluar un archivo de datos brutos que ha recopilado, debe considerar las siguientes preguntas y consejos:
Lea a través del diccionario de datos, libro de códigos o diseño de registro, que debe detallar lo que representa cada campo. Trate de no empezar inmediatamente a jugar con los datos hasta que sepa lo que está mirando. No empezarías a renovar tu nueva casa sin leer las impresiones azules, ¿verdad? ¡Tienes que saber si esa pared es de carga!
¿Qué irregularidades detalla la documentación metodológica y cómo puede haber afectado a los datos? ¿Cuáles son las notas metodológicas que debo hacer transparentes para el lector?
¿Los datos brutos están completos? Es decir, ¿hay valores faltantes para algún registro? (La pérdida de valores en los datos brutos puede distorsionar sus cálculos.)
¿Qué valores atípicos existen en el conjunto de datos? ¿Tienen sentido en el contexto de los datos? Por ejemplo, un precio de la casa de $1.8 millones en un barrio donde las casas no superan los $200K es probablemente una bandera roja.
Spot comprueba los datos brutos. Si el conjunto de datos proporciona totales, entonces sume los valores y compruebe que coinciden. Si no lo hacen, entonces ¿la documentación explica por qué no se suman a los totales?
Cuando se comprueba el lugar, es bueno comprobar un punto de datos que usted puede estar familiarizado con. E.g. para los datos geográficos, comprobar los datos de su estado de origen y otros estados con los que esté más familiarizado le permitirá detectar algo raro y apagado más rápido que si comprueba algo aleatorio.
Así que si la fuente es buena, entonces los datos deben ser buenos también. ¿Verdad?
Es un error asumir que los datos son autorizados o están bien, como es sólo porque es una fuente publicada del gobierno u otra fuente que usted considera igual de confiable. La presentación de datos es susceptible de manipulación y errores simples a pesar de los mejores esfuerzos e intenciones de las organizaciones responsables. Asumir nada y evaluar los datos para asegurarse de que se comprueba! La siguiente etapa del análisis de datos es cómo limpiar los datos brutos para adaptarse a sus necesidades. Manténgase en sintonía para mi próximo post, donde voy a revisar los consejos y trucos de Excel más eficaces que he aprendido para ayudarle en su propio trabajo! El Washington Post ha recopilado datos a nivel de incidentes sobre tiroteos policiales desde 2015 con la ayuda de crowdsourcing. Esta es una hazaña impresionante, pero mientras evaluaba los datos brutos que proporcionan, me alejé con varias preguntas:
¿Faltan valores por no haber sido reportados por la policía?
¿Cuáles son las fuentes originales para cada incidente?
¿Se distinguen entre los barrios de las ciudades o simplemente usan las principales ciudades?
Juntos, estas preguntas me ayudaron a decidir que los datos del Post no eran adecuados para su uso en SAGE Stats todavía.
Suscríbete a nuestra lista de correo de métodos
Artículos Relacionados: