¿Qué es el análisis de datos en palabras simples?

Análisis de datos es el proceso de aplicación sistemática de técnicas estadísticas y/o lógicas para describir e ilustrar, condensar y recapitular, y evaluar los datos. Según Shamoo y Resnik (2003), diversos procedimientos analíticos “proporcionan una forma de extraer inferencias inductivas de los datos y distinguir la señal (el fenómeno de interés) del ruido (fluctuaciones estadísticas) presente en los datos”.

Si bien el análisis de datos en la investigación cualitativa puede incluir procedimientos estadísticos, muchas veces el análisis se convierte en un proceso iterativo continuo donde los datos se recopilan y analizan de forma continua casi simultánea. De hecho, los investigadores generalmente analizan los patrones en las observaciones a lo largo de toda la fase de recolección de datos (Savenye, Robinson, 2004). La forma del análisis está determinada por el enfoque cualitativo específico adoptado (estudio de campo, análisis de contenido etnográfico, historia oral, biografía, no obtrusivo investigación) y la forma de los datos (notas de campo, documentos, cintas de audio, cintas de vídeo).

Un componente esencial para garantizar la integridad de los datos es el análisis preciso y adecuado de los resultados de la investigación. Los análisis estadísticos inadecuados distorsionan los hallazgos científicos, engañan a los lectores ocasionales (Shepard, 2002) y pueden influir negativamente en la percepción pública de la investigación. Las cuestiones de integridad son igualmente pertinentes para el análisis de datos no estadísticos.

Consideraciones y cuestiones relativas al análisis de datos

Hay una serie de cuestiones que los investigadores deben conocer con respecto al análisis de datos. Entre ellas figuran las siguientes:

Una suposición tácita de los investigadores es que han recibido capacitación suficiente para demostrar un alto nivel de práctica de investigación. Es probable que la mala conducta científica no intencional sea el resultado de una instrucción y un seguimiento deficientes. Varios estudios sugieren que este puede ser el caso más a menudo de lo que se cree (Nowak, 1994; Silverman, Manson, 2003). Por ejemplo, Sica descubrió que la formación adecuada de los médicos en las escuelas de medicina en el diseño, la aplicación y la evaluación adecuados de los ensayos clínicos es “abypequeña pequeña” (Sica, citado en Nowak, 1994). De hecho, un solo curso de bioestadística es el más que se suele ofrecer (Christopher Williams, citado en Nowak, 1994).

Una práctica común de los investigadores es aplazar la selección del procedimiento analítico a un “estadista” del equipo de investigación. Idealmente, los investigadores deberían tener mucho más que una comprensión básica de la justificación para seleccionar un método de análisis sobre otro. Esto puede permitir a los investigadores supervisar mejor al personal que lleva a cabo el proceso de análisis de datos y tomar decisiones informadas.

Aunque los métodos de análisis pueden diferir según la disciplina científica, la etapa óptima para determinar los procedimientos analíticos apropiados se produce al principio del proceso de investigación y no debe ser una idea a posteriori. Según Smeeton y Goda (2003), “debe obtenerse asesoramiento estadístico en la fase de planificación inicial de una investigación para que, por ejemplo, el método de muestreo y el diseño del cuestionario sean adecuados”.

Dibujar inferencia imparcial

El objetivo principal del análisis es distinguir entre un acontecimiento que ocurre como reflejo de un efecto verdadero frente a uno falso. Cualquier sesgo que ocurra en la recolección de los datos, o selección del método de análisis, aumentará la probabilidad de dibujar una inferencia sesgada. Se puede producir una Bias cuando el reclutamiento de los participantes en el estudio cae por debajo del número mínimo requerido para demostrar poder estadístico o no mantener un período de seguimiento suficiente necesario para demostrar un efecto (Altman, 2001).

Análisis de subgrupos inadecuados

Al no demostrar niveles estadísticamente diferentes entre los grupos de tratamiento, los investigadores pueden recurrir a desglosar el análisis a subgrupos más y más pequeños con el fin de encontrar una diferencia. Aunque esta práctica puede no ser inherentemente poco ética, estos análisis deben ser propuestos antes de comenzar el estudio, incluso si la intención es de naturaleza exploratoria. Si el estudio es de naturaleza exploratoria, el investigador debe hacer esto explícito para que los lectores entiendan que la investigación es más de una expedición de caza en lugar de ser principalmente impulsado por la teoría. Aunque un investigador puede no tener una hipótesis basada en la teoría para probar las relaciones entre variables previamente no probadas, una teoría tendrá que ser desarrollada para explicar un hallazgo inesperado. De hecho, en la ciencia exploratoria, no hay hipótesis a priori por lo tanto no hay pruebas hipotéticas. Aunque las teorías a menudo pueden impulsar los procesos utilizados en la investigación de estudios cualitativos, muchas veces los patrones de comportamiento o ocurrencias derivados de datos analizados pueden resultar en el desarrollo de nuevos marcos teóricos en lugar de determinados a priori (Savenye, Robinson, 2004).

Es concebible que múltiples pruebas estadísticas podrían dar lugar a un hallazgo significativo sólo por casualidad en lugar de reflejar un efecto real. La integridad se ve comprometida si el investigador solo reporta pruebas con hallazgos significativos, y no menciona un gran número de pruebas que no alcanzan significación. Si bien el acceso a paquetes estadísticos basados en computadoras puede facilitar la aplicación de procedimientos analíticos cada vez más complejos, los usos inadecuados de estos paquetes también pueden dar lugar a abusos.

Con arreglo a normas aceptables para las disciplinas

Cada campo de estudio ha desarrollado sus prácticas aceptadas para el análisis de datos. Resnik (2000) afirma que es prudente que los investigadores sigan estas normas aceptadas. Resnik afirma además que las normas se basan en dos factores:

(1) la naturaleza de las variables utilizadas (es decir, cuantitativas, comparativas o cualitativas),

(2) hipótesis sobre la población de la que se extraen los datos (es decir, distribución aleatoria, independencia, tamaño de la muestra, etc.). Si uno utiliza normas no convencionales, es crucial afirmar claramente que esto se está haciendo, y mostrar cómo se está utilizando este nuevo y posiblemente no aceptado método de análisis, así como cómo difiere de otros métodos más tradicionales. Por ejemplo, Schroder, Carey y Vanable (2003) yuxtaponen su identificación de nuevas y potentes soluciones analíticas de datos desarrolladas para contar datos en el área del riesgo de contracción del VIH con una discusión sobre las limitaciones de los métodos comúnmente aplicados.

Si uno utiliza normas no convencionales, es crucial afirmar claramente que esto se está haciendo, y mostrar cómo se está utilizando este nuevo y posiblemente no aceptado método de análisis, así como cómo difiere de otros métodos más tradicionales. Por ejemplo, Schroder, Carey y Vanable (2003) yuxtaponen su identificación de nuevas y potentes soluciones analíticas de datos desarrolladas para contar datos en el área del riesgo de contracción del VIH con una discusión sobre las limitaciones de los métodos comúnmente aplicados.

Determinación de la significación

Si bien la práctica convencional consiste en establecer una norma de aceptabilidad de la significación estadística, con ciertas disciplinas, también puede ser apropiado examinar si el logro de la significación estadística tiene un verdadero significado práctico, es decir, «significación clínica» . Jeans (1992) define la “significación clínica” como “el potencial de los hallazgos de la investigación para marcar una diferencia real e importante para los clientes o la práctica clínica, para el estado de salud o para cualquier otro problema identificado como una prioridad relevante para la disciplina”.

Kendall y Grove (1988) definen la importancia clínica en términos de lo que sucede cuando “... los clientes con problemas y trastornos no se distinguen ahora, después del tratamiento, de un grupo de referencia significativo y representativo no perturbado”. Thompson y Noferi (2002) sugieren que los lectores de literatura de asesoramiento deben esperar que los autores reporten índices de significancia práctica o clínica, o ambos, dentro de sus informes de investigación. Shepard (2003) se pregunta por qué algunos autores no señalan que la magnitud de los cambios observados puede ser demasiado pequeña para tener alguna importancia clínica o práctica, “a veces, un supuesto cambio puede describirse con cierto detalle, pero el investigador no revela que la tendencia no es estadísticamente significativa ”.

Falta de mediciones de resultados claramente definidas y objetivas

Ninguna cantidad de análisis estadísticos, independientemente del nivel de sofisticación, corregirá las mediciones de resultados objetivos mal definidas. Ya sea que se haga de forma no intencional o por diseño, esta práctica aumenta la probabilidad de enturbiar la interpretación de los hallazgos, lo que podría inducir a error a los lectores. Proporcionar un análisis honesto y preciso

La base de esta cuestión es la urgencia de reducir la probabilidad de error estadístico. Los retos comunes incluyen la exclusión de valores atípicos , rellenando los datos faltantes, alterando o cambiando de otro modo los datos, la extracción de datos y desarrollando representaciones gráficas de los datos (Shamoo, Resnik, 2003).

Forma de presentar los datos

A veces los investigadores pueden mejorar la impresión de un hallazgo significativo al determinar cómo presentar datos derivados (a diferencia de los datos en su forma cruda), qué parte de los datos se muestra, por qué, cómo y a quién (Shamoo, Resnik, 2003). Nowak (1994) señala que ni siquiera los expertos están de acuerdo en distinguir entre el análisis y el masaje de datos. Shamoo (1989) recomienda que los investigadores mantengan un rastro documental suficiente y preciso de cómo se manipularon los datos para su examen futuro.

Cuestiones ambientales/contextuales

La integridad del análisis de datos puede verse comprometida por el entorno o contexto en el que se recogieron los datos, es decir, entrevistas cara a cara frente al grupo focalizado. Los interacción que ocurren dentro de una relación diádica (entrevistador-entrevistado) difiere de la dinámica del grupo que ocurre dentro de un grupo focal debido al número de participantes, y cómo reaccionan a las respuestas de los demás. Dado que el proceso de recopilación de datos podría estar influido por el medio ambiente/contexto, los investigadores deberían tener esto en cuenta al realizar el análisis de datos.

Método de registro de datos

Los análisis también podrían estar influidos por el método en el que se registran los datos. Por ejemplo, las actividades de investigación podrían documentarse mediante:

a. grabación de audio y/o vídeo y transcripción posterior b. bien un investigador o una encuesta autoadministrada c. o bien Estudio cerrado o encuesta abierta d. preparación de notas etnográficas de campo de un participante/observador e. solicitar que los propios participantes tomen notas, las compilen y las presenten a los investigadores.

Si bien cada metodología empleada tiene razones y ventajas, cuando se analizan los datos pueden plantearse cuestiones de objetividad y subjetividad.

Partición del texto

Durante el análisis de contenido, los investigadores del personal o los ‘evaluadores’ pueden utilizar estrategias inconsistentes para analizar el material de texto. Algunos ‘rateros’ pueden analizar los comentarios como un todo, mientras que otros pueden preferir diseccionar material de texto separando palabras, frases, cláusulas, oraciones o grupos de oraciones. Se debe hacer todo lo posible por reducir o eliminar las incoherencias entre los “evaluadores” a fin de que la integridad de los datos no se vea comprometida.

Capacitación del personal que realiza análisis

Un desafío importante para la integridad de los datos podría ocurrir con la supervisión no supervisada de las técnicas inductivas. El análisis de contenido requiere que los evaluadores asignen temas al material de texto (comentarios). La amenaza a la integridad puede surgir cuando los evaluadores han recibido entrenamiento inconsistente, o pueden haber recibido experiencia o experiencias de entrenamiento previas. La experiencia previa puede afectar la forma en que los evaluadores perciben el material o incluso perciben la naturaleza de los análisis a ser conducidos. Así, un evaluador podría asignar temas o códigos al material que es significativamente diferente de otro evaluador. Las estrategias para abordar este problema incluirían una lista clara de los procedimientos de análisis en el manual de protocolo, una capacitación coherente y un seguimiento rutinario de los evaluadores.

Fiabilidad y validez

Los investigadores que realizan análisis sobre análisis cuantitativos o cualitativos deben ser conscientes de los desafíos a la fiabilidad y validez. Por ejemplo, en el área del análisis de contenido, Gottschalk (1995) identifica tres factores que pueden afectar la confiabilidad de los datos analizados:

estabilidad, o la tendencia de los codificadores a volver a codificar sistemáticamente los mismos datos de la misma manera durante un período de tiempo
reproducibilidad, o la tendencia de un grupo de codificadores a clasificar la membresía de categorías de la misma manera
precisión, o la medida en que la clasificación de un texto corresponde a una norma o norma estadísticamente

Según Gottschalk, (1995), la validez de un estudio de análisis de contenido se refiere a la correspondencia de las categorías (la clasificación que los evaluadores asignan al contenido del texto) con las conclusiones, y la generalización de los resultados a una teoría (las categorías apoyaron la conclusión del estudio, y fue el hallazgo suficientemente robusto para apoyar o ser aplicado a una justificación teórica seleccionada?).

Alcance del análisis

Al codificar el material de texto para el análisis de contenido, los evaluadores deben clasificar cada código en una categoría apropiada de una matriz de referencia cruzada. Confiar en el software informático para determinar una frecuencia o un conteo de palabras puede llevar a inexactitudes. “Uno puede obtener un recuento exacto de la ocurrencia y frecuencia de esa palabra, pero no tener una contabilidad exacta del significado inherente a cada uso particular” (Gottschalk, 1995). Otros análisis podrían ser apropiados para descubrir la dimensión del conjunto de datos o la identidad de nuevas variables subyacentes significativas.

Ya sea que se utilicen métodos de análisis estadísticos o no estadísticos, los investigadores deben ser conscientes del potencial de comprometer la integridad de los datos. Aunque el análisis estadístico se realiza típicamente en datos cuantitativos, existen numerosos procedimientos analíticos diseñados específicamente para el material cualitativo, incluyendo el análisis de contenido, temático y etnográfico. Independientemente de si uno estudia fenómenos cuantitativos o cualitativos, los investigadores utilizan una variedad de herramientas para analizar datos con el fin de probar hipótesis, discernir patrones de comportamiento y, en última instancia, responder preguntas de investigación. La falta de comprensión o reconocimiento de los problemas de análisis de datos presentados puede comprometer la integridad de los datos.