¿Qué son los datos de la investigación en ciencias sociales?

Cuenta

Librería NCBI. Servicio de la Biblioteca Nacional de Medicina, Institutos Nacionales de Salud.

Consejo Nacional de Investigación; División de Ciencias del Comportamiento y Sociales y Educación; Comisión de Ciencias del Comportamiento y Sociales y Educación; Comité de Investigación Básica en Ciencias del Comportamiento y Sociales; Gerstein DR, Luce RD, Smelser NJ, et al., editores. Las Ciencias Conductuales y Sociales: Logros y Oportunidades. Washington (DC): National Academies Press (Estados Unidos); 1988.

Las Ciencias Conductuales y Sociales: Logros y Oportunidades.

Este capítulo se refiere a la investigación sobre la recopilación, representación y análisis de los datos que subyacen al conocimiento de las ciencias sociales y del comportamiento. Dicha investigación, de carácter metodológico, incluye enfoques etnográficos e históricos, escalamiento, medición axiomática y estadística, con sus parientes importantes, econometría y psicometría. El campo se puede describir como incluyendo el estudio autoconsciente de cómo los científicos sacan inferencias y llegan a conclusiones de las observaciones. Dado que la estadística es el mayor y más prominente de los enfoques metodológicos y es utilizada por los investigadores en prácticamente todas las disciplinas, el trabajo estadístico atrae la mayor parte de la atención de este capítulo.

Los problemas de interpretación de los datos surgen cuando la variación inherente o las fluctuaciones de medición crean problemas para entender los datos o para juzgar si las relaciones observadas son significativas, duraderas o generales. Algunos ejemplos: ¿Un fuerte aumento mensual (o anual) de la tasa de delincuencia juvenil (o desempleo) en una zona determinada es motivo de alarma, una fluctuación periódica o aleatoria ordinaria, o el resultado de un cambio o rareza en el método de presentación de informes? ¿Los patrones temporales vistos en tales observaciones repetidas reflejan un mecanismo causal directo, un complejo de indirectos, o sólo imperfecciones en los datos? ¿Es una disminución de las lesiones automovilísticas un efecto de una nueva ley de cinturón de seguridad? ¿Son demasiado grandes los desacuerdos entre las personas que describen algún aspecto de una subcultura para sacar conclusiones válidas sobre ese aspecto de la cultura?

Esas cuestiones de inferencia suelen estar estrechamente relacionadas con la teoría sustantiva y datos específicos, y en cierta medida es difícil y tal vez engañoso tratar los métodos de reunión, representación y análisis de datos por separado. Este informe lo hace, al igual que todas las ciencias en cierta medida, porque los métodos desarrollados a menudo son mucho más generales que los problemas específicos que originalmente les dieron origen. Hay mucha transferencia de nuevas ideas de un campo sustantivo a otro, y de campos fuera de las ciencias sociales y del comportamiento. Algunos de los métodos clásicos de las estadísticas surgieron en estudios de observaciones astronómicas, variabilidad biológica y diversidad humana. El mayor crecimiento de los métodos clásicos se produjo en el siglo XX, estimulado en gran medida por los problemas de la agricultura y la genética. Algunos métodos para descubrir estructuras geométricas en los datos, como la escala multidimensional y el análisis de factores, se originaron en la investigación sobre problemas psicológicos, pero se han aplicado en muchas otras ciencias. Algunos métodos de series cronológicas fueron desarrollados originalmente para tratar con datos económicos, pero son igualmente aplicables a muchos otros tipos de datos.

Dentro de las ciencias sociales y del comportamiento, se han desarrollado métodos estadísticos en una enorme variedad de investigaciones, entre ellas:

Incluso una lista tan abreviada deja claro que las mejoras en la metodología son valiosas en todo el espectro de la investigación empírica en las ciencias sociales y del comportamiento, así como en la aplicación a las cuestiones de política. Claramente, la investigación metodológica sirve a muchos propósitos diferentes, y es necesario desarrollar diferentes enfoques para servir a esos propósitos diferentes, incluyendo análisis de datos exploratorios, inferencia científica sobre hipótesis y parámetros poblacionales, toma de decisiones individuales, pronóstico de lo que sucederá en caso o ausencia de intervención, y evaluación de la causalidad tanto de experimentos aleatorizados como de datos observacionales.

Esta discusión de la investigación metodológica se divide en tres áreas: diseño, representación y análisis. El diseño eficiente de las investigaciones debe tener lugar antes de que se recopilen los datos porque implica cuánto, qué tipo de datos y cómo deben recopilarse. ¿Qué tipo de estudio es factible: experimental, muestreo, observación de campo u otro? ¿Qué variables deben ser medidas, controladas y aleatorias? ¿Qué grado de extensión es apropiado para un grupo de temas o un período de observación? ¿Cómo se pueden asignar los recursos de estudio de manera más eficaz entre varios sitios, instrumentos y submuestras?

La construcción de representaciones útiles de los datos implica decidir qué tipo de estructura formal expresa mejor los conceptos cualitativos y cuantitativos subyacentes que se están utilizando en un estudio determinado. Por ejemplo, el costo de la vida es un concepto sencillo de cuantificar si se aplica a una sola persona con gustos invariables en mercados estables (es decir, mercados que ofrecen la misma variedad de bienes de un año a otro a precios variables), pero como agregado nacional para millones de hogares y mercados de productos de consumo en constante cambio, el costo de la vida no es fácil de especificar con claridad ni de medir con fiabilidad. Estadísticos, economistas, sociólogos y otros expertos han luchado durante mucho tiempo para que el costo de la vida sea un concepto preciso pero factible que también sea eficiente de medir, y deben modificarlo continuamente para reflejar las circunstancias cambiantes.

El análisis de datos abarca el último paso para caracterizar e interpretar los hallazgos de la investigación: ¿Se pueden hacer estimaciones de las relaciones entre variables? ¿ Se puede sacar alguna conclusión acerca de la correlación, la causa y el efecto, o las tendencias a lo largo del tiempo? ¿Cuán inciertas son las estimaciones y conclusiones y puede reducirse esa incertidumbre mediante el análisis de los datos de una manera diferente? ¿Se pueden usar computadoras para mostrar resultados complejos gráficamente para una comprensión más rápida o mejor o para sugerir diferentes formas de proceder?

Los avances en el análisis, la representación de datos y el diseño de investigación se alimentan y refuerzan mutuamente en el curso del trabajo científico real. Las intersecciones entre las mejoras metodológicas y los avances empíricos son un aspecto importante del impulso multidisciplinario del progreso en las ciencias conductuales y sociales.

Diseños para la recopilación de datos

Cuatro tipos amplios de diseños de investigación se utilizan en las ciencias conductuales y sociales: experimental, encuesta, comparativa y etnográfica.

Los diseños experimentales, tanto en el laboratorio como en el campo, manipulan sistemáticamente algunas variables, mientras que otras que pueden afectar el resultado se mantienen constantes, aleatorias o controladas de otro modo. El propósito de los experimentos aleatorizados es asegurar que sólo una o unas pocas variables puedan afectar sistemáticamente los resultados, de modo que se puedan atribuir causas. Los diseños de la encuesta incluyen la recolección y análisis de datos de censos, encuestas por muestreo y estudios longitudinales y el examen de diversas relaciones entre los fenómenos observados. La aleatorización juega un papel diferente aquí que en diseños experimentales: se utiliza para seleccionar miembros de una muestra de modo que la muestra sea lo más representativa posible de toda la población. Los diseños comparativos implican la recuperación de evidencia que se registra en el flujo de eventos actuales o pasados en diferentes tiempos o lugares y la interpretación y análisis de esta evidencia. Los diseños etnográficos, también conocidos como diseños de observación participante, involucran a un investigador en contacto intensivo y directo con un grupo, comunidad o población en estudio, a través de la participación, observación y entrevistas prolongadas.

Diseños experimentales

Experimentos de laboratorio

Los experimentos de laboratorio subyacen a la mayor parte del trabajo reportado en Capítulo 1 , partes importantes de Capítulo 2 , y algunas de las nuevas líneas de investigación en Capítulo 3 . Los experimentos de laboratorio amplían y adaptan los métodos clásicos de diseño desarrollados por primera vez, en su mayor parte, en las ciencias físicas y de la vida y en la investigación agrícola. Su característica principal es la manipulación sistemática e independiente de algunas variables y el estricto control o aleatorización de todas las demás variables que puedan afectar al fenómeno en estudio. Por ejemplo, algunos estudios de motivación animal implican la manipulación sistemática de cantidades de alimentos y horarios de alimentación, mientras que otros factores que también pueden afectar la motivación, como el peso corporal, la privación, etc., se mantienen constantes. Los nuevos diseños están entrando en juego en gran medida debido a los nuevos métodos analíticos y computacionales (que se analizan a continuación, en “Avances en la inferencia y el análisis estadístico”).

Dos ejemplos de cuestiones empíricamente importantes que demuestran la necesidad de ampliar los enfoques experimentales clásicos son las respuestas abiertas y la falta de independencia de los ensayos experimentales sucesivos. El primero se refiere al diseño de protocolos de investigación que no requieren la estricta segregación de los eventos de un experimento en ensayos bien definidos, sino que permiten a un sujeto responder a voluntad. Estos métodos son necesarios cuando lo que es de interés es cómo el encuestado elige asignar el comportamiento en tiempo real y a través de alternativas continuamente disponibles. Estos métodos empíricos se han utilizado durante mucho tiempo, pero pueden generar problemas muy sutiles y difíciles en el diseño experimental y el análisis posterior. A medida que las teorías del comportamiento alocativo de todo tipo se vuelven más sofisticadas y precisas, los requisitos experimentales se vuelven más exigentes, por lo que la necesidad de entender y resolver mejor esta gama de problemas de diseño es un desafío sobresaliente para el ingenio metodológico.

El segundo problema surge en diseños de ensayos repetidos cuando el comportamiento en ensayos sucesivos, incluso si no exhibe una tendencia secular (como una curva de aprendizaje), está marcadamente influenciado por lo que ha sucedido en el ensayo o ensayos anteriores. Cuanto más naturalista sea el experimento y cuanto más sensibles sean las medidas tomadas, más probable es que tales efectos ocurran. Pero tales dependencias secuenciales en las observaciones causan una serie de importantes problemas conceptuales y técnicos en el resumen de los datos y en el ensayo de modelos analíticos, que todavía no se entienden completamente. En ausencia de soluciones claras, estos efectos a veces son ignorados por los investigadores, simplificando el análisis de datos pero dejando residuos de escepticismo sobre la fiabilidad y la importancia de los resultados experimentales. Con el desarrollo continuo de medidas sensibles en diseños de ensayos repetidos, hay una creciente necesidad de conceptos y métodos más avanzados para tratar los resultados experimentales que pueden estar influenciados por dependencias secuenciales.

Experimentos de campo aleatorios

El estado de la técnica en experimentos de campo aleatorio, en los que diferentes políticas o procedimientos se prueban en ensayos controlados en condiciones reales, ha avanzado dramáticamente en las últimas dos décadas. Se han superado en gran medida los problemas que antes se consideraban importantes obstáculos metodológicos, como la aplicación de asignaciones aleatorias a grupos de tratamiento y control y la protección del procedimiento de aleatorización contra la corrupción. Si bien en todos los experimentos sobre el terreno no se alcanzan las normas más modernas, el compromiso de alcanzarlas está aumentando constantemente, no sólo entre los investigadores sino también entre las agencias de clientes y los patrocinadores.

El experimento del seguro médico descrito en Capítulo 2 es un ejemplo de un gran experimento de campo aleatorio que ha tenido y seguirá teniendo importantes repercusiones políticas en el diseño de la financiación de la atención de la salud. Los experimentos sobre el terreno con el impuesto negativo sobre la renta (ingreso mínimo garantizado) realizados en el decenio de 1970 fueron significativos en los debates sobre políticas, incluso antes de su finalización, y proporcionaron las pruebas más sólidas disponibles sobre cómo los programas de apoyo a la renta basados en impuestos y los tipos impositivos marginales pueden afectar a los incentivos laborales y las estructuras familiares de los pobres. También se han llevado a cabo importantes experimentos de campo sobre estrategias alternativas para la prevención de la delincuencia y otros comportamientos delictivos, la reforma de los procedimientos judiciales, programas de rehabilitación en salud mental, planificación familiar y programas educativos especiales, entre otras áreas.

En la planificación de experimentos de campo, mucho depende de la definición y el diseño de las células experimentales, las combinaciones particulares necesarias de las condiciones de tratamiento y control para cada conjunto de características demográficas u otras características de la muestra del cliente, incluida la especificación del número mínimo de casos necesarios en cada célula para comprobar la presencia de efectos. Las consideraciones sobre el poder estadístico, la disponibilidad de los clientes y la estructura teórica de la investigación entran en dichas especificaciones. Los actuales umbrales metodológicos importantes son encontrar mejores formas de predecir las pautas de reclutamiento y desgaste en la muestra, de diseñar experimentos que sean estadísticamente robustos ante el reclutamiento problemático de muestras o el desgaste excesivo, y de asegurar la adquisición y el análisis adecuados de los datos sobre el componente de desgaste de la muestra.

También revisten gran importancia las mejoras en la integración de las mediciones detalladas de los procesos y los resultados en los experimentos sobre el terreno. Llevar a cabo investigaciones sobre los efectos del programa en condiciones de campo requiere monitoreo continuo para determinar exactamente lo que se está haciendo —el proceso— cómo corresponde a lo que se proyectó al principio. Las medidas de aplicación relativamente poco intrusivas, económicas y eficaces son de gran interés. Paralelamente, se hace cada vez más hincapié en el diseño de experimentos para evaluar los distintos componentes del programa en contraste con las medidas resumidas de los efectos netos del programa.

Por último, ahora hay una oportunidad importante de seguir trabajando teóricamente para modelar los procesos organizativos en entornos sociales y diseñar y seleccionar variables de resultados que, en el tiempo relativamente corto de la mayoría de los experimentos de campo, puedan predecir efectos a más largo plazo: Por ejemplo, en los programas de capacitación laboral, ¿cuáles son los efectos en la comunidad (modelos de roles, moral, redes de remisión) o en las habilidades individuales, los motivos o los niveles de conocimiento que probablemente se traduzcan en cambios sostenidos en las trayectorias profesionales y los niveles de ingresos?

Diseños de encuestas

Muchas personas tienen opiniones sobre cómo las costumbres sociales, las condiciones económicas y los programas sociales dan forma a la vida y alientan o desalientan diversos tipos de comportamiento. La gente generaliza de sus propios casos, y de los grupos a los que pertenece, asuntos tales como cuánto cuesta criar a un hijo, la medida en que el desempleo contribuye al divorcio, y así sucesivamente. De hecho, sin embargo, los efectos varían tanto de un grupo a otro que las generalizaciones caseras son de poco uso. Afortunadamente, los científicos sociales y conductuales han podido salvar las brechas entre las perspectivas personales y las realidades colectivas mediante la investigación de encuestas. En particular, los sistemas de información gubernamentales incluyen volúmenes de datos de encuestas extremadamente valiosos, y la facilidad de las computadoras modernas para almacenar, difundir y analizar esos datos ha mejorado significativamente las pruebas empíricas y ha dado lugar a nuevos entendimientos de los procesos sociales.

Dentro de esta categoría de diseños de investigación, se distinguen dos tipos principales: encuestas transversales repetidas y encuestas longitudinales. Además, y de manera transversal, se está realizando un gran esfuerzo para mejorar y perfeccionar la calidad de los datos de las encuestas mediante la investigación de las características de la memoria humana y de la formación de preguntas que afectan a la respuesta de las encuestas.

Los diseños transversales repetidos pueden intentar medir a toda una población, como ocurre con el ejemplo más antiguo de Estados Unidos, el censo nacional decenal, o bien pueden descansar en muestras tomadas de una población. El principio general es tomar muestras independientes en dos o más ocasiones, midiendo las variables de interés, como los niveles de ingresos, los planes de vivienda u opiniones sobre asuntos públicos, de la misma manera. La Encuesta Social General, recopilada por el Centro Nacional de Investigación de Opinión con el apoyo de la Fundación Nacional de Ciencia, es una base de datos transversales repetidas que se inició en 1972. Una cuestión metodológica de particular relevancia en estos datos es cómo ajustar para no responder y “no saber” las respuestas. Otra es cómo lidiar con el sesgo de la autoselección. Por ejemplo, para comparar los ingresos de las mujeres y los hombres en la fuerza de trabajo, sería un error asumir primero que las dos muestras de participantes en la fuerza de trabajo se seleccionan aleatoriamente de las poblaciones más grandes de hombres y mujeres; en cambio, uno tiene que considerar e incorporar en el análisis los factores que determinan quién está en la fuerza de trabajo.

En los paneles longitudinales, se extrae una muestra en un punto en el tiempo y las variables relevantes se miden en este momento y en los siguientes tiempos para las mismas personas. En versiones más complejas, algunas fracciones de cada panel pueden ser reemplazadas o añadidas periódicamente, como la ampliación de la muestra para incluir hogares formados por los hijos de la muestra original. Un ejemplo de los datos del panel desarrollados de esta manera es el Panel Study of Income Dynamics (PSID), realizado por la Universidad de Michigan desde 1968 (discutido en Capítulo 3 ).

Comparar la fertilidad o los ingresos de diferentes personas en diferentes circunstancias al mismo tiempo para encontrar correlaciones siempre deja una gran proporción de la variabilidad inexplicable, pero el sentido común sugiere que gran parte de la variabilidad inexplicable es realmente explicable. Hay razones sistemáticas para los resultados individuales en los logros pasados de cada persona, en modelos parentales, educación y secuencias anteriores de experiencias. Desafortunadamente, preguntar a la gente sobre el pasado no es particularmente útil: la gente rehacer sus puntos de vista sobre el pasado para racionalizar el presente y por lo tanto los datos retrospectivos son a menudo de validez incierta. Por el contrario, los datos longitudinales de generación larga permiten lecturas sobre la secuencia de circunstancias pasadas sin color por resultados posteriores. Estos datos son especialmente útiles para estudiar las causas y consecuencias de decisiones y transiciones naturales. Así, a medida que continúan los estudios longitudinales, el análisis cuantitativo se vuelve factible sobre cuestiones como: ¿Cómo se ven afectadas las decisiones de los individuos por la experiencia parental? ¿Qué aspectos de las decisiones tempranas limitan las oportunidades posteriores? ¿Y cómo deja su huella la experiencia de fondo detallada? Estudios como el PSID de dos décadas de duración están haciendo comprender un ciclo generacional completo de datos detallados sobre la fertilidad, la vida laboral, la estructura del hogar y los ingresos.

Avances en diseños longitudinales

Los proyectos de recopilación de datos longitudinales a gran escala son especialmente valiosos como vehículos para ensayar y mejorar la metodología de investigación de encuestas. En formas que están más allá del alcance de una encuesta transversal, los estudios longitudinales a veces pueden diseñarse, sin perjuicio significativo de sus intereses sustantivos, para facilitar la evaluación y mejora de la calidad de los datos; el análisis de los costos relativos y la eficacia de las técnicas alternativas de investigación; y la normalización o coordinación de las soluciones a los problemas de método, concepto y medición en diferentes ámbitos de investigación.

Algunas áreas de mejora metodológica incluyen descubrimientos sobre el impacto del modo entrevistado en la respuesta (correo, teléfono, cara a cara); los efectos de la falta de respuesta en la representatividad de una muestra (debido a la negativa de los encuestados o a la falta de contacto de los entrevistadores); los efectos en el comportamiento de la participación continuada en el tiempo en una encuesta de muestra; el valor de métodos alternativos de ajuste para la falta de respuesta y observaciones incompletas (como imputación de datos faltantes, ponderación de casos variables); el impacto en la respuesta de especificar diferentes períodos de recuerdo, variar los intervalos entre entrevistas o cambiar la duración de las entrevistas; y la comparación y calibración de los resultados obtenidos mediante encuestas longitudinales, experimentos de campo aleatorio, estudios de laboratorio, encuestas puntuales y registros administrativos.

Cabe señalar especialmente que la incorporación de mejoras en la metodología y la calidad de los datos ha sido y seguirá siendo sin duda crucial para el éxito creciente de los estudios longitudinales. Los diseños de los paneles son intrínsecamente más vulnerables que otros diseños a los sesgos estadísticos debido a la falta de respuesta de los ítems acumulativos, la eliminación de muestras, los efectos de tiempo en la muestra y los márgenes de error en las medidas repetidas, todo lo cual puede producir estimaciones exageradas del cambio. Con el tiempo, un panel que inicialmente era representativo puede llegar a ser mucho menos representativo de una población, no sólo por la eliminación de la muestra, sino también por los cambios en las pautas de inmigración, la estructura de edad, y similares. Los estudios longitudinales también están sujetos a cambios en los contextos científicos y sociales que pueden crear derivas incontroladas con el tiempo en el sentido de preguntas o conceptos nominalmente estables, así como en el comportamiento subyacente. Además, una tendencia natural a ampliar a lo largo del tiempo la gama de temas y, por lo tanto, la duración de las entrevistas, que aumenta la carga para los encuestados, puede conducir a un deterioro de la calidad o pertinencia de los datos. Se ha realizado una cuidadosa investigación metodológica para comprender y superar estos problemas, y el trabajo continuado como componente de nuevos estudios longitudinales es seguro para avanzar el estado general de la técnica.

A veces se presionan estudios longitudinales para obtener pruebas que no están diseñados para producir: por ejemplo, en importantes cuestiones de política pública relativas al impacto de los programas gubernamentales en áreas como la promoción de la salud, la prevención de enfermedades o la justicia penal. Mediante el uso de diseños de investigación que combinan experimentos de campo (con asignación aleatoria a las condiciones de programa y control) y encuestas longitudinales, uno puede capitalizar en los méritos más fuertes de cada uno: el componente experimental proporciona evidencia más fuerte para declaraciones casuales que son críticas para evaluar programas y para iluminar algunas teorías fundamentales; el componente longitudinal ayuda en la estimación de los efectos del programa a largo plazo y su atenuación. A menudo no es posible asociar los experimentos a los estudios longitudinales en curso, habida cuenta de las múltiples limitaciones de no interrumpir la encuesta, desarrollar todos los arreglos complicados que entran en un experimento de campo a gran escala, y hacer que las poblaciones de interés se superpongan de maneras útiles. Sin embargo, las oportunidades de unirse a los experimentos de campo a las encuestas son de gran importancia. Los estudios combinados pueden producir conocimientos vitales sobre las condiciones empíricas en las que los resultados de las encuestas longitudinales resultan ser similares o divergentes a las producidas por experimentos de campo aleatorios. Un patrón de divergencia y similitud ha comenzado a surgir en estudios acoplados; se necesitan casos adicionales para entender por qué algunos procesos sociales naturales y características de diseño longitudinal parecen aproximarse a la asignación aleatoria formal y otros no. Las implicaciones metodológicas de estos nuevos conocimientos van mucho más allá de la evaluación de programas y la investigación de encuestas. Estos hallazgos tienen que ver directamente con la confianza que los científicos —y otros— pueden tener en las conclusiones de estudios observacionales de complejos procesos conductuales y sociales, particularmente aquellos que no pueden ser controlados o simulados dentro de los confines de un ambiente de laboratorio.

La memoria y el framing de las preguntas

Una oportunidad muy importante para mejorar los métodos de encuesta radica en la reducción del error de no muestreo debido al contexto del cuestionario, la formulación de preguntas y, en general, los aspectos semánticos y sociopsicológicos de las encuestas. Los datos de las encuestas se ven particularmente afectados por la falibilidad de la memoria humana y la sensibilidad de los encuestados al marco en el que se formula una pregunta. Esta sensibilidad es especialmente fuerte para ciertos tipos de preguntas de actitud y opinión. Ahora se están haciendo esfuerzos para acercar a los especialistas de las encuestas a los investigadores que trabajan en la función de la memoria, la representación del conocimiento y el lenguaje para descubrir y reducir este tipo de error.

La memoria de los acontecimientos es a menudo inexacta, sesgada hacia lo que los encuestados creen que es verdad —o debe ser verdad— sobre el mundo. En muchos casos en que los datos se basan en la recolección, se pueden lograr mejoras mediante el cambio a técnicas de entrevistas estructuradas y formas calibradas de obtención de memoria, como la especificación de períodos de tiempo recientes y breves (por ejemplo, en los últimos siete días) en los que los encuestados recuerdan ciertos tipos de eventos con una exactitud aceptable.

Los experimentos sobre la toma de decisiones individuales muestran que la forma en que se enmarca una pregunta altera previsiblemente las respuestas. Los analistas de los datos de la encuesta encuentran que algunos pequeños cambios en la redacción de ciertos tipos de preguntas pueden producir grandes diferencias en las respuestas, aunque otros cambios de redacción tienen poco efecto. Incluso cambiar simplemente el orden en que se presentan algunas preguntas puede producir grandes diferencias, aunque para otras preguntas el orden de presentación no importa. Por ejemplo, entre las preguntas formuladas en una ola de la Encuesta Social General figuran las siguientes:

Presentar esta secuencia en ambas direcciones en diferentes formas mostró que el orden afectó las respuestas a la pregunta general de felicidad, pero no cambió la pregunta de felicidad marital: las respuestas a la cuestión específica influenciaron las respuestas posteriores a la general, pero no viceversa. Las explicaciones y las implicaciones de tales efectos de orden en los muchos tipos de preguntas y secuencias que se pueden utilizar no son asuntos simples. La experimentación adicional en el diseño de instrumentos de encuesta promete no sólo mejorar la precisión y fiabilidad de la investigación de la encuesta, sino también avanzar en la comprensión de cómo las personas piensan y evalúan su comportamiento de día en día.

Diseños comparativos

Tanto los experimentos como las encuestas implican intervenciones o preguntas del científico, que luego registra y analiza las respuestas. En contraste, muchos cuerpos de datos sociales y conductuales de considerable valor se derivan originalmente de registros o colecciones que se han acumulado por varias razones no científicas, muy a menudo de naturaleza administrativa, en empresas, iglesias, organizaciones militares y gobiernos a todos los niveles. Los datos de este tipo a veces pueden ser sometidos a un cuidadoso escrutinio, resumen e investigación por parte de historiadores y científicos sociales, y los métodos estadísticos se han utilizado cada vez más para desarrollar y evaluar inferencias extraídas de tales datos. Algunos de los principales enfoques comparativos son las comparaciones agregadas transnacionales, la comparación selectiva de un número limitado de casos y los estudios de casos históricos.

Entre los problemas más llamativos a los que se enfrenta el científico que utiliza estos datos se encuentran las grandes diferencias en lo que ha sido registrado por diferentes agencias cuyo comportamiento se está comparando (esto es especialmente cierto para las agencias paralelas en diferentes naciones), el muestreo altamente poco representativo o idiosincrático que puede ocurrir en la recolección de tales datos, y la preservación selectiva y destrucción de registros. Los medios para superar estos problemas forman una agenda de investigación metodológica sustancial en la investigación comparativa. Un ejemplo del método de las comparaciones globales entre países se encuentra en las investigaciones de los politólogos y sociólogos sobre los factores que subyacen a las diferencias en la vitalidad de las instituciones de la democracia política en diferentes sociedades. Algunos investigadores han subrayado la existencia de una gran clase media, otros el nivel de educación de una población, y otros el desarrollo de sistemas de comunicación de masas. En las comparaciones globales transnacionales, un gran número de naciones se agrupan de acuerdo con algunas medidas de la democracia política y luego se intenta determinar la fuerza de las correlaciones entre éstas y las otras variables. En esta línea de análisis es posible utilizar una variedad de clusters estadísticos y técnicas de regresión para aislar y evaluar el posible impacto de ciertas variables en las instituciones en estudio. Si bien este tipo de investigación es de carácter transversal, a menudo se invocan declaraciones sobre procesos históricos para explicar las correlaciones.

Comparaciones selectivas más limitadas, aplicadas por muchos de los teóricos clásicos, implican hacer tipos similares de preguntas pero sobre una gama más pequeña de sociedades. ¿Por qué se desarrolló la democracia de maneras tan diferentes en Estados Unidos, Francia e Inglaterra? ¿Por qué Europa del noreste desarrolló el capitalismo burgués racional, en contraste con las naciones mediterráneas y asiáticas? Los eruditos modernos han centrado su atención en explicar, por ejemplo, las diferencias entre los tipos de fascismo entre las dos guerras mundiales, y las similitudes y diferencias entre los sistemas de bienestar estatal modernos, utilizando estas comparaciones para desentrañar las causas más importantes. Las preguntas que se hacen en estos casos son inevitablemente históricas.

Los estudios de casos históricos abarcan sólo una nación o región, por lo que pueden no ser comparativos geográficamente. Sin embargo, en la medida en que implican rastrear la transformación de las principales instituciones de una sociedad y el papel de sus principales acontecimientos, implican una comparación de los diferentes períodos de la historia de una nación o de una región. El objetivo de esas comparaciones es dar una relación sistemática de las diferencias pertinentes. A veces, en particular con respecto a las sociedades antiguas, el registro histórico es muy escaso, y los métodos de la historia y la arqueología se mezclan en la reconstrucción de complejos arreglos sociales y patrones de cambio sobre la base de pocos fragmentos.

Como todos los diseños de investigación, los comparativos tienen vulnerabilidades y ventajas distintivas: Una de las principales ventajas del uso de diseños comparativos es que amplían enormemente la gama de datos, así como la cantidad de variación en esos datos, para el estudio. En consecuencia, permiten explicaciones y teorías más amplias que pueden relacionar resultados muy divergentes entre sí en el mismo marco. También contribuyen a reducir los prejuicios culturales o las tendencias hacia el parochialismo entre los científicos que estudian fenómenos humanos comunes.

Una de las principales vulnerabilidades de esos diseños es el problema de lograr la comparabilidad. Debido a que el estudio comparativo implica estudiar sociedades y otras unidades que son diferentes unas de otras, los fenómenos bajo estudio suelen ocurrir en contextos muy diferentes, tan diferentes que en algunos casos lo que se llama un evento en una sociedad no puede realmente ser considerado como el mismo tipo de evento en otra. Por ejemplo, un voto en una democracia occidental es diferente de un voto en un país del bloque oriental, y un voto voluntario en los Estados Unidos significa algo diferente de un voto obligatorio en Australia. Estas circunstancias hacen que haya dificultades de interpretación para comparar las tasas agregadas de participación electoral en diferentes países.

El problema de lograr la comparabilidad también aparece en el análisis histórico. Por ejemplo, los cambios en las leyes y los procedimientos de aplicación y registro a lo largo del tiempo cambian la definición de lo que es y lo que no es un delito, y por esa razón es difícil comparar las tasas de delincuencia a lo largo del tiempo. Los investigadores comparativos luchan continuamente con este problema, trabajando para elaborar medidas equivalentes; algunos han sugerido el uso de diferentes medidas (votación, cartas al editor, demostración callejera) en diferentes sociedades para variables comunes (participación política), para tratar de tener en cuenta los factores contextuales y lograr una comparabilidad más verdadera.

Una segunda vulnerabilidad es controlar la variación. Los experimentos tradicionales hacen esfuerzos conscientes y elaborados para controlar la variación de algunos factores y así evaluar la importancia causal de otros. En las encuestas, así como en los experimentos, se utilizan métodos estadísticos para controlar las fuentes de variación y evaluar la presunta significación causal. En diseños comparativos e históricos, este tipo de control es a menudo difícil de lograr porque las fuentes de variación son muchas y el número de casos pocos. Los científicos han hecho esfuerzos para aproximar dicho control en estos casos de “muchas variables, pequeñas N.” Uno es el método de comparaciones emparejadas. Si un investigador aísla 15 ciudades estadounidenses en las que la violencia racial ha sido recurrente en los últimos 30 años, por ejemplo, es útil combinarlas con 15 ciudades de tamaño poblacional, región geográfica y tamaño de minorías similares —tales características son controles— y luego buscar diferencias sistemáticas entre los dos conjuntos de ciudades. Otro método consiste en seleccionar, con fines comparativos, una muestra de sociedades que se asemejan entre sí de ciertas maneras críticas, como el tamaño, el lenguaje común y el nivel común de desarrollo, tratando de mantener estos factores aproximadamente constantes, y luego buscando explicaciones entre otros factores en los que las sociedades muestreadas difieren unas de otras.

Diseños etnográficos

Tradicionalmente identificados con la antropología, los diseños de investigación etnográfica están desempeñando papeles cada vez más significativos en la mayoría de las ciencias conductuales y sociales. El núcleo de esta metodología es la observación participante, en la que un investigador pasa un largo período de tiempo con el grupo en estudio, idealmente dominando el idioma local, dialecto o vocabulario especial, y participando en tantas actividades del grupo como sea posible. Este tipo de observación de los participantes suele ir acompañado de extensas entrevistas abiertas, en las que se pide a la gente que explique en profundidad las reglas, normas, prácticas y creencias a través de las cuales (desde su punto de vista) llevan a cabo sus vidas. Un objetivo principal del estudio etnográfico es descubrir las premisas sobre las cuales se construyen esas reglas, normas, prácticas y creencias.

El uso de diseños etnográficos por parte de antropólogos ha contribuido significativamente a la construcción del conocimiento sobre la variación social y cultural. Y aunque estos diseños continúan centrándose en ciertas características de larga data —extensa experiencia cara a cara en la comunidad, competencia lingüística, participación y entrevistas abiertas— hay nuevas tendencias en el trabajo etnográfico. Una tendencia importante se refiere a su escala. Los métodos etnográficos fueron desarrollados originalmente en gran parte para estudiar grupos de pequeña escala conocidos como pueblos, folclóricos, primitivos, preliterados o sociedades simples. A lo largo de las décadas, estos métodos se han aplicado cada vez más al estudio de pequeños grupos y redes dentro de la sociedad moderna (urbana, industrial, compleja), incluidos los Estados Unidos contemporáneos. Los temas típicos del estudio etnográfico en la sociedad moderna son grupos pequeños o redes sociales relativamente pequeñas, como clínicas ambulatorias, escuelas médicas, cultos religiosos e iglesias, barrios urbanos étnicamente distintivos, oficinas y fábricas corporativas, y oficinas gubernamentales y legislaturas.

A medida que los antropólogos se adentraban en el estudio de las sociedades modernas, los investigadores de otras disciplinas —en particular la sociología, la psicología y la ciencia política— comenzaron a utilizar métodos etnográficos para enriquecer y enfocar sus propias ideas y hallazgos. Al mismo tiempo, los estudios de estructuras y procesos a gran escala se han visto ayudados por el uso de métodos etnográficos, ya que la mayoría de los cambios a gran escala se abren paso en el tejido de la comunidad, el vecindario y la familia, afectando la vida cotidiana de las personas. Los etnógrafos han estudiado, por ejemplo, el impacto de la nueva industria y las nuevas formas de trabajo en las regiones “retrocedidas”; el impacto de las políticas estatales de control de la natalidad en los grupos étnicos; y el impacto en los residentes de una región de la construcción de una represa o el establecimiento de un vertedero de desechos nucleares. También se han utilizado métodos etnográficos para estudiar una serie de procesos sociales que se prestan a sus técnicas particulares de observación y entrevista: procesos como la formación de identidades de clase y raciales, comportamiento burocrático, coaliciones y resultados legislativos, y la formación y el cambio de gustos del consumidor.

Los avances en las entrevistas estructuradas (véase más arriba) han demostrado ser especialmente poderosos en el estudio de la cultura. Las técnicas para entender los sistemas de parentesco, los conceptos de enfermedad, las terminologías de color, la etnobotánica y la etnozoología se han transformado y fortalecido radicalmente mediante el acoplamiento de nuevos métodos de entrevista con técnicas de medición y escalado de módem (véase más adelante). Estas técnicas han hecho posible comparaciones más precisas entre culturas e identificación de las personas más competentes y expertas dentro de una cultura. El siguiente paso es ampliar estos métodos para estudiar las formas en que las redes de proposiciones (como los niños como los deportes, las niñas como los bebés) se organizan para formar sistemas de creencias. Mucha evidencia sugiere que la gente típicamente representa el mundo alrededor de ellos por medio de modelos cognitivos relativamente complejos que involucran proposiciones entrelazadas. Las técnicas de escalado se han utilizado para desarrollar modelos de cómo las personas categorizan los objetos, y tienen un gran potencial para su desarrollo ulterior, para analizar datos relacionados con proposiciones culturales.

Sistemas ideológicos

Tal vez el área más fructífera para la aplicación de métodos etnográficos en los últimos años ha sido el estudio sistemático de ideologías en la sociedad moderna. Los estudios anteriores de ideología se realizaban en sociedades de pequeña escala que eran bastante homogéneas. En estos estudios los investigadores podrían informar sobre una cultura única, un sistema uniforme de creencias y valores para la sociedad en su conjunto. Las sociedades modernas son mucho más diversas tanto en los orígenes como en el número de subculturas, relacionadas con diferentes regiones, comunidades, ocupaciones o grupos étnicos. Sin embargo, estas subculturas e ideologías comparten ciertas suposiciones subyacentes o al menos deben encontrar alguna adaptación con el valor dominante y los sistemas de creencias en la sociedad.

El reto es incorporar esta mayor complejidad de estructura y proceso en descripciones e interpretaciones sistemáticas. Una línea de trabajo llevada a cabo por investigadores ha tratado de rastrear las formas en que las ideologías son creadas, transmitidas y compartidas entre grandes poblaciones que tradicionalmente han carecido de las tecnologías de movilidad social y comunicación de Occidente. Este trabajo se ha concentrado en civilizaciones a gran escala como China, India y Centroamérica. Gradualmente, el enfoque se ha generalizado en una preocupación por la relación entre las grandes tradiciones —las líneas centrales de la cultura cosmopolita confuciana, hindú o maya, incluyendo estándares estéticos, tecnologías de riego, sistemas médicos, cosmologías y calendarios, códigos legales, géneros poéticos y doctrinas y ritos religiosos— y las pequeñas tradiciones, las identificadas con comunidades rurales y campesinas. ¿Cómo se transmiten a las comunidades locales las doctrinas ideológicas y los valores culturales de las élites urbanas, las grandes tradiciones? ¿Cómo se transmiten a las élites las pequeñas tradiciones, las ideas de los grupos más aislados, menos alfabetizados y políticamente más débiles de la sociedad?

La India y el Asia meridional han sido esferas fructíferas para la investigación etnográfica sobre estas cuestiones. La gran tradición hindú estuvo presente en prácticamente todos los contextos locales a través de la presencia de individuos de alta casta en cada comunidad. Funcionó como un estándar generalizado de valor para todos los miembros de la sociedad, incluso frente a las pequeñas tradiciones fuertes. La situación es sorprendentemente similar a la de las sociedades modernas e industrializadas. Las cuestiones centrales de la investigación son el grado y la naturaleza de la penetración de la ideología dominante, incluso en grupos que parecen marginales y subordinados y no tienen un gran interés en compartir el sistema de valores dominante. A este respecto, la casta ocupacional más baja y más pobre —los intocables— sirve como prueba final del poder de la ideología y las creencias culturales para unificar sistemas sociales jerárquicos complejos.

Reconstrucción histórica

Otra tendencia actual en los métodos etnográficos es su convergencia con los métodos de archivo. Un punto de unión es la aplicación de procedimientos descriptivos e interpretativos utilizados por los etnógrafos para reconstruir las culturas que crearon documentos históricos, diarios y otros registros, para entrevistar la historia, por así decirlo. Por ejemplo, un estudio revelador mostró cómo la Inquisición en el campo italiano entre los años 1570 y 1640 trabajó gradualmente cambios sutiles en un antiguo culto de fertilidad en comunidades campesinas; las creencias y rituales campesinos asimilaron muchos elementos de brujería después de aprenderlos de sus perseguidores. Una buena parte de la historia social, especialmente la de la familia, se ha basado en descubrimientos realizados en el estudio etnográfico de las sociedades primitivas. Como se describe en Capítulo 4 , esta línea particular de investigación se basa en un matrimonio de enfoques etnográficos, de archivo y demográficos.

Otras líneas de trabajo etnográfico se han centrado en las dimensiones históricas de las sociedades no alfabetizadas. Un ejemplo sorprendentemente exitoso en este tipo de esfuerzo es un estudio de la caza de cabezas. Al combinar una interpretación de la tradición oral local con las observaciones fragmentarias hechas por observadores externos (como misioneros, comerciantes, funcionarios coloniales), se demostró que las fluctuaciones históricas en la tasa y el significado de la caza de cabezas eran en parte en respuesta a fuerzas internacionales como la gran depresión y la Segunda Guerra Mundial. Los investigadores también están investigando las formas en que varios grupos en las sociedades contemporáneas inventan versiones de tradiciones que pueden o no reflejar la historia real del grupo. Este proceso se ha observado entre las élites que buscan la legitimación política y cultural y entre las minorías fuertemente presionadas (por ejemplo, el euskera en España, el galés en Gran Bretaña) buscando raíces y movilización política en una sociedad más amplia.

La etnografía es un método poderoso para registrar, describir e interpretar el sistema de significados que tienen los grupos y descubrir cómo esos significados afectan la vida de los miembros del grupo. Es un método bien adaptado al estudio de situaciones en las que las personas interactúan entre sí y el investigador también puede interactuar con ellas, para que se pueda evocar y observar la información sobre significados. La etnografía es especialmente adecuada para la exploración y elucidación de conexiones insospechadas; idealmente, se utiliza en combinación con otros métodos -experimentales, de estudio o comparativos- para establecer con precisión las fortalezas y debilidades relativas de tales conexiones. De la misma manera, los métodos experimentales, de estudio y comparativos frecuentemente producen conexiones, cuyo significado es desconocido; los métodos etnográficos son una forma valiosa de determinarlas.

Modelos para representar fenómenos

El objetivo de cualquier ciencia es descubrir la estructura y dinámica de los fenómenos que son su sujeto, tal como se exhiben en los datos. Los científicos tratan continuamente de describir las posibles estructuras y preguntan si los datos pueden, teniendo en cuenta los errores de medición, ser descritos adecuadamente en términos de ellas. Durante mucho tiempo, varias familias de estructuras han reaparecido en muchos campos de la ciencia; estas estructuras se han convertido en objetos de estudio por derecho propio, principalmente por estadísticos, otros especialistas metodológicos, matemáticos aplicados y filósofos de la lógica y la ciencia. Los métodos han evolucionado para evaluar la idoneidad de determinadas estructuras para dar cuenta de determinados tipos de datos. En aras de la claridad discutimos estas estructuras en esta sección y los métodos analíticos utilizados para su estimación y evaluación en la siguiente sección, aunque en la práctica están estrechamente entrelazados.

Una gran cantidad de modelos matemáticos y estadísticos intenta describir las relaciones, tanto estructurales como dinámicas, que se mantienen entre las variables que se presume que son representables por números. Estos modelos son aplicables en las ciencias conductuales y sociales sólo en la medida en que se pueda idear una medición numérica adecuada para las variables pertinentes. En muchos estudios, los fenómenos en cuestión y los datos brutos obtenidos no son intrínsecamente numéricos, sino cualitativos, como las identificaciones de grupos étnicos. Los números de identificación utilizados para codificar tales categorías de cuestionarios para computadoras no son más que etiquetas, que también podrían ser letras o colores. Una cuestión clave es si hay alguna manera natural de pasar de los aspectos cualitativos de esos datos a una representación estructural que implique uno de los modelos numéricos o geométricos bien entendidos o si tal intento sería inherentemente inapropiado para los datos en cuestión. La decisión de si determinados datos empíricos pueden representarse o no en determinadas estructuras numéricas o más complejas rara vez es sencilla, y los fuertes sesgos intuitivos o supuestos a priori sobre lo que puede y no puede hacerse pueden inducir a error.

En los últimos decenios se ha observado un rápido y amplio desarrollo y aplicación de métodos analíticos adaptados a la naturaleza y complejidad de los datos de ciencias sociales. Están aumentando los ejemplos de modelos no numéricos. Además, la disponibilidad generalizada de computadoras poderosas probablemente está llevando a una revolución cualitativa, que está afectando no sólo la capacidad de calcular soluciones numéricas a los modelos numéricos, sino también para resolver las consecuencias de todo tipo de estructuras que no implican números en absoluto. El debate que figura a continuación da alguna indicación de la riqueza de los progresos realizados en el pasado y de las perspectivas futuras, aunque por necesidad dista mucho de ser exhaustivo.

Al describir algunas de las áreas de investigación nueva y continua, hemos organizado esta sección sobre la base de si las representaciones son fundamentalmente probabilistas o no. Otra distinción útil es entre las representaciones de datos que son de naturaleza altamente discreta o categórica (como si una persona es hombre o mujer) y las que son de naturaleza continua (como la altura de una persona). Por supuesto, hay casos intermedios que involucran ambos tipos de variables, tales como estímulos de color que se caracterizan por tonos discretos (rojo, verde) y una medida de luminancia continua. Los modelos probabilísticos conducen muy naturalmente a cuestiones de estimación y evaluación estadística de la correspondencia entre los datos y el modelo. Los que no son probabilísticos implican problemas adicionales de tratar y representar fuentes de variabilidad que no están explícitamente modeladas. En la actualidad, los científicos entienden algunos aspectos de la estructura, como las geometrías, y algunos aspectos de la aleatoriedad, como están incorporados en los modelos de probabilidad, pero todavía no entienden adecuadamente cómo poner los dos juntos en un único modelo unificado. Cuadro 5-1 esboza la forma en que hemos organizado esta discusión y muestra dónde se encuentran los ejemplos en esta sección.

Modelos de probabilidad

Algunas variables de las ciencias sociales y del comportamiento parecen ser más o menos continuas, por ejemplo, la utilidad de los bienes, el ruido de los sonidos o el riesgo asociado con alternativas inciertas. Muchas otras variables, sin embargo, son intrínsecamente categóricas, a menudo con sólo dos o unos pocos valores posibles: por ejemplo, si una persona está dentro o fuera de la escuela, empleada o no empleada, se identifica con un partido político importante o ideología política. Y algunas variables, como las actitudes morales, se miden típicamente en la investigación con preguntas de la encuesta que sólo permiten respuestas categóricas. Gran parte de la teoría de probabilidad temprana fue formulada sólo para variables continuas; su uso con variables categóricas no estaba realmente justificado, y en algunos casos pudo haber sido engañoso. Recientemente, se han logrado avances muy significativos en la forma de abordar explícitamente las variables categóricas. Esta sección describe primero varios enfoques contemporáneos de modelos que involucran variables categóricas, seguidos de otros que involucran representaciones continuas.

Modelos lineales de registro para variables categóricas

Muchos modelos recientes para analizar datos categóricos del tipo que normalmente se muestran como conteos (frecuencias celulares) en tablas de contingencia multidimensionales se subsumen bajo el encabezamiento general de modelos log-lineales, es decir, modelos lineales en los logaritmos naturales de los conteos esperados en cada celda de la tabla. Estas formas de análisis estadístico desarrolladas recientemente permiten una variabilidad de la partición debido a diversas fuentes en la distribución de atributos categóricos, y aislar los efectos de variables particulares o combinaciones de ellos.

Los actuales modelos log-lineales fueron desarrollados y utilizados por estadísticos y sociólogos y luego encontraron una amplia aplicación en otras disciplinas de ciencias sociales y del comportamiento. Cuando se aplican, por ejemplo, al análisis de la movilidad social, esos modelos separan los factores de oferta y demanda ocupacionales de otros factores que impiden o impulsan el movimiento hacia arriba y hacia abajo de la jerarquía social. Con tales modelos, por ejemplo, los investigadores descubrieron el sorprendente hecho de que los patrones de movilidad ocupacional son sorprendentemente similares en muchas naciones del mundo (incluso entre naciones dispares como los Estados Unidos y la mayoría de los países socialistas de Europa oriental), y de un período a otro, una vez que se tienen en cuenta las diferencias en la distribución de las ocupaciones. Los modelos log-lineal y relacionados también han permitido identificar y analizar las diferencias sistemáticas en la movilidad entre las naciones y a través del tiempo. Como otro ejemplo de aplicaciones, los psicólogos y otros han utilizado modelos log-lineales para analizar actitudes y sus determinantes y para vincular actitudes al comportamiento. Estos métodos también se han difundido y utilizado ampliamente en las ciencias médicas y biológicas.

Modelos de regresión para variables categóricas

Los modelos que permiten explicar o predecir una variable por medio de otros, llamados modelos de regresión, son los caballos de trabajo de muchas estadísticas aplicadas; esto es especialmente cierto cuando la variable dependiente (explicada) es continua. Para una variable dependiente de dos valores, como vivo o muerto, se desarrollaron modelos y métodos aproximados teóricos y computacionales para una variable explicativa en biometría hace unos 50 años. Los programas informáticos capaces de manejar muchas variables explicativas, continuas o categóricas, están fácilmente disponibles hoy en día. Aun ahora, sin embargo, la exactitud de la teoría aproximada sobre datos dados es una pregunta abierta.

Utilizando la teoría de la utilidad clásica, los economistas han desarrollado modelos de elección discreta que resultan estar algo relacionados con los modelos de regresión log-lineal y categórica. Los modelos para variables dependientes limitadas, especialmente aquellos que no pueden asumir valores por encima o por debajo de un determinado nivel (como semanas de desempleo, número de niños y años de escolaridad) se han utilizado provechosamente en la economía y en algunas otras áreas. Por ejemplo, las variables normales censuradas (llamadas tobits en economía), en las que los valores observados fuera de ciertos límites se cuentan simplemente, se han utilizado en el estudio de las decisiones para continuar en la escuela. Requerirá más investigación y desarrollo para incorporar plenamente la información sobre los rangos limitados de variables en las principales metodologías multivariables. Además, con respecto a las suposiciones sobre la distribución y la forma funcional hechas convencionalmente en modelos de respuesta discretos, se están desarrollando algunos métodos nuevos que prometen dar inferencias confiables sin hacer suposiciones poco realistas; una mayor investigación en este ámbito promete avances significativos.

Un problema surge del hecho de que muchas de las variables categóricas recogidas por las principales bases de datos se ordenan. Por ejemplo, las encuestas de actitud utilizan frecuentemente una escala de 3-, 5- o 7-puntos (de alto a bajo) sin especificar intervalos numéricos entre los niveles. La clase social y los niveles educativos se describen a menudo por categorías ordenadas. Ignorar la información de orden, que muchos métodos estadísticos tradicionales hacen, puede ser ineficiente o inapropiado, pero reemplazar las categorías por enteros sucesivos u otros puntajes arbitrarios puede distorsionar los resultados. (Para más detalles sobre esta cuestión, véanse las secciones siguientes sobre las estructuras ordenadas.) El análisis regresivo de las variables categóricas ordinales está bastante bien desarrollado, pero su análisis multivariado necesita más investigación. Se han propuesto nuevos modelos bilineales de log, pero hasta la fecha se ocupan específicamente de sólo dos o tres variables categóricas. Investigaciones adicionales que amplían los nuevos modelos, mejorando algoritmos computacionales, e integrando los modelos con el trabajo de escalar prometen conducir a nuevos conocimientos valiosos.

Modelos para historias de eventos

Los estudios de la historia de eventos dan lugar a la secuencia de eventos que los encuestados a una muestra de la experiencia de una encuesta durante un período de tiempo; por ejemplo, el momento del matrimonio, la procreación o la participación en la fuerza laboral. Los datos de la historia de eventos se pueden usar para estudiar el progreso educativo, procesos demográficos (migración, fertilidad y mortalidad), fusiones de empresas, comportamiento del mercado laboral e incluso disturbios, huelgas y revoluciones. A medida que ha crecido el interés en estos datos, muchos investigadores han recurrido a modelos que se refieren a cambios en las probabilidades con el tiempo para describir cuándo y cómo los individuos se mueven entre un conjunto de estados cualitativos.

Gran parte del progreso en los modelos de datos de la historia de eventos se basa en la evolución reciente de las estadísticas y bioestadísticas para modelos de vida, tiempo de fracaso y riesgo. Estos modelos permiten el análisis de transiciones cualitativas en una población cuyos miembros están experimentando un deterioro orgánico parcialmente aleatorio, desgaste mecánico u otros riesgos a lo largo del tiempo. Con el aumento de la complejidad de los datos de la historia de eventos que ahora se están recopilando, y la extensión de las bases de datos de la historia de eventos a lo largo de períodos de tiempo muy largos, surgen nuevos problemas que no pueden ser manejados eficazmente por tipos de análisis más antiguos. Entre los problemas se encuentran las transiciones repetidas, como entre el desempleo y el empleo o el matrimonio y el divorcio; más de una variable temporal (como la edad biológica, el tiempo de calendario, la duración en una etapa y el tiempo expuesto a alguna condición especificada); variables latentes (variables que se modelan explícitamente aunque no se observen); lagunas en los datos; desgaste de la muestra que no se distribuye aleatoriamente entre las categorías; y dificultades de los encuestados para recordar el momento exacto de los acontecimientos.

Modelos para medición de múltiples elementos

Por diversas razones, los investigadores suelen utilizar múltiples medidas (o indicadores múltiples) para representar conceptos teóricos. Los sociólogos, por ejemplo, a menudo dependen de dos o más variables (como la ocupación y la educación) para medir la posición socioeconómica de un individuo; los psicólogos educativos suelen medir la capacidad de un estudiante con múltiples ítems de prueba. A pesar de que las observaciones básicas son categóricas, en varias aplicaciones esto se interpreta como una partición de algo continuo. Por ejemplo, en la teoría de prueba uno piensa en las medidas tanto de la dificultad del ítem como de la capacidad del encuestado como variables continuas, posiblemente multidimensionales de carácter.

La teoría clásica de las pruebas y las nuevas teorías de respuesta a los ítems en la psicometría tratan con la extracción de información de múltiples medidas. Las pruebas, que es una fuente importante de datos en la educación y otras áreas, dan como resultado millones de artículos de prueba almacenados en archivos cada año con fines que van desde admisión a la universidad hasta programas de capacitación laboral para la industria. Uno de los objetivos de la investigación sobre estos datos de prueba es poder hacer comparaciones entre personas o grupos incluso cuando se utilizan diferentes elementos de prueba. Aunque la información recopilada de cada encuestado es intencionalmente incompleta con el fin de mantener las pruebas cortas y simples, las técnicas de respuesta a los ítems permiten a los investigadores reconstituir los fragmentos en una imagen precisa de las competencias generales del grupo. Estos nuevos métodos proporcionan un mejor manejo teórico de las diferencias individuales, y se espera que sean extremadamente importantes en el desarrollo y uso de pruebas. Por ejemplo, se han utilizado para tratar de equiparar diferentes formas de prueba dadas en ondas sucesivas durante un año, un procedimiento necesario en programas de prueba a gran escala por la legislación que exige la divulgación de claves de puntuación de pruebas en el momento en que se dan los resultados.

Un ejemplo del uso de la teoría de la respuesta a los ítems en un esfuerzo de investigación significativo es la Evaluación Nacional del Progreso Educativo (NAEP). El objetivo de este proyecto es proporcionar información exacta y representativa a nivel nacional sobre la competencia media (en lugar de individual) de los niños estadounidenses en una amplia variedad de materias académicas a medida que avanzan en la escuela primaria y secundaria. Este enfoque es una mejora con respecto al uso de datos de tendencias en los exámenes de ingreso a la universidad, ya que NAEP estima de logros académicos (por características amplias como edad, grado, región, origen étnico, etc.) no están distorsionados por el carácter autoseleccionado de aquellos estudiantes que buscan admisión a programas universitarios, de posgrado y profesionales.

La teoría de la respuesta a los ítems también constituye la base de muchos nuevos instrumentos psicométricos, conocidos como pruebas adaptativas computarizadas, que actualmente están siendo implementados por los servicios militares de Estados Unidos y bajo desarrollo adicional en muchas organizaciones de prueba. En las pruebas adaptativas, un programa de computadora selecciona elementos para cada examinador basado en el éxito del examinador con elementos anteriores. Generalmente, cada persona obtiene un conjunto ligeramente diferente de ítems y la equivalencia de los puntajes de escala se establece mediante el uso de la teoría de respuesta a ítems. Las pruebas adaptativas pueden reducir en gran medida el número de elementos necesarios para lograr un determinado nivel de precisión de medición.

Modelos no lineales, no additivos

Prácticamente todos los modelos estadísticos actualmente en uso imponen una suposición de linealidad o aditividad de algún tipo, a veces después de una transformación no lineal de variables. Imponer estas formas en las relaciones que, de hecho, no las poseen bien puede resultar en falsas descripciones y efectos espurios. Los usuarios poco precavidos, especialmente de paquetes de software, pueden ser fácilmente engañados. Pero modelos multivariables no lineales y no additivos más realistas están llegando a estar disponibles. Es probable que el uso extensivo con datos empíricos obligue a muchos cambios y mejoras en esos modelos y estimule enfoques muy diferentes para el análisis multivariado no lineal en la próxima década.

Modelos geométricos y algebraicos

Los modelos geométricos y algebraicos intentan describir las relaciones estructurales subyacentes entre las variables. En algunos casos son parte de un enfoque probabilístico, como los modelos algebraicos subyacentes regresión o las representaciones geométricas de correlaciones entre ítems en una técnica llamada análisis factorial. En otros casos, los modelos geométricos y algebraicos se desarrollan sin modelar explícitamente el elemento de aleatoriedad o incertidumbre que siempre está presente en los datos. Aunque esta última aproximación a los problemas conductuales y de ciencias sociales ha sido menos investigada que la probabilística, existen algunas ventajas en el desarrollo de los aspectos estructurales independientes de los estadísticos. Comenzamos la discusión con algunas representaciones intrínsecamente geométricas y luego volvemos a las representaciones numéricas para los datos ordenados.

Aunque la geometría es un tema matemático enorme, poco de ella parece directamente aplicable a los tipos de datos encontrados en las ciencias conductuales y sociales. Una razón importante es que los conceptos primitivos que normalmente se usan en geometría —puntos, líneas, coincidencia— no corresponden naturalmente a los tipos de observaciones cualitativas generalmente obtenidas en contextos conductuales y de ciencias sociales. Sin embargo, dado que las representaciones geométricas se utilizan para reducir los cuerpos de datos, existe una necesidad real de desarrollar una comprensión más profunda de cuándo tales representaciones de datos sociales o psicológicos tienen sentido. Además, existe una necesidad práctica de entender por qué los algoritmos geométricos informáticos, como los de escala multidimensional, funcionan tanto como aparentemente lo hacen. Una mejor comprensión de los algoritmos aumentará la eficiencia y la idoneidad de su uso, que se vuelve cada vez más importante con la disponibilidad generalizada de programas de escala para microcomputadoras.

Escalado

En los últimos 50 años se han desarrollado y utilizado ampliamente varios tipos de técnicas de escalado bien entendidas para ayudar en la búsqueda de representaciones geométricas apropiadas de datos empíricos. Todo el campo de la escala está entrando ahora en una coyuntura crítica en términos de unificar y sintetizar lo que antes parecía ser contribuciones dispares. En los últimos años se ha hecho evidente que varios métodos principales de análisis, incluyendo algunos que se basan en suposiciones probabilísticas, pueden ser unificados bajo la rúbrica de una única estructura matemática generalizada. Por ejemplo, recientemente se ha demostrado que enfoques tan diversos como el escalado multidimensional no métrico, el análisis de componentes principales, el análisis de factores, el análisis de correspondencia y el análisis log-lineal tienen más en común en términos de estructura matemática subyacente de lo que se había realizado anteriormente.

El escalado multidimensional no métrico es un método que comienza con datos sobre el orden establecido por similitud subjetiva (o proximidad) entre pares de estímulos. La idea es insertar los estímulos en un espacio métrico (es decir, una geometría con una medida de distancia entre puntos) de tal manera que las distancias entre puntos correspondientes a estímulos muestren el mismo orden que los datos. Este método se ha aplicado con éxito a fenómenos que, por otros motivos, se sabe que son descriptibles en términos de una estructura geométrica específica; tales aplicaciones se utilizaron para validar los procedimientos. Tal validación se hizo, por ejemplo, con respecto a la percepción de los colores, que se sabe que son descriptibles en términos de una estructura tridimensional particular conocida como las coordenadas de color euclidiana. Aplicaciones similares se han hecho con símbolos de código Morse y fonemas hablados. La técnica se utiliza ahora en algunas aplicaciones biológicas y de ingeniería, así como en algunas de las ciencias sociales, como método de exploración y simplificación de datos.

Una cuestión de interés es cómo desarrollar una base axiomática para varias geometrías utilizando como un concepto primitivo un observable como el ordenamiento del sujeto de la relativa similitud de un par de estímulos a otro, que es el punto de partida típico de tal escalamiento. La tarea general es descubrir las propiedades de los datos cualitativos suficientes para asegurar que existe un mapeo en la estructura geométrica y, idealmente, descubrir un algoritmo para encontrarlo. Algunos trabajos de este tipo general se han llevado a cabo: por ejemplo, hay un elegante conjunto de axiomas basados en leyes de coincidencia de color que da la representación vectorial tridimensional del espacio de color. Pero el problema más general de entender las condiciones bajo las cuales los algoritmos de escala multidimensional son adecuados sigue sin resolverse. Además, es necesario trabajar en la comprensión de modelos espaciales no euclidianos más generales.

Sistemas factoriales ordenados

Un tipo de estructura común en todas las ciencias surge cuando una variable dependiente ordenada es afectada por dos o más variables independientes ordenadas. Esta es la situación a la que a menudo se aplican modelos de regresión y análisis de variación; también es la estructura subyacente a las identidades físicas familiares, en la que las unidades físicas se expresan como productos de las potencias de otras unidades (por ejemplo, la energía tiene la unidad de masa por el cuadrado de la unidad de distancia dividida por el cuadrado de la unidad de tiempo).

Hay muchos ejemplos de este tipo de estructuras en las ciencias sociales y del comportamiento. Un ejemplo es el orden de preferencia de paquetes de mercancías —recopilaciones de diversas cantidades de mercancías— que pueden revelarse directamente por expresiones de preferencia o indirectamente por opciones entre conjuntos alternativos de paquetes. Un ejemplo conexo es el de las preferencias entre las medidas alternativas que entrañan diversos resultados con distintos grados de incertidumbre; este es uno de los problemas que se investigan más a fondo debido a su posible importancia en la adopción de decisiones. Un ejemplo psicológico es la compensación entre el retraso y la cantidad de recompensa, dando esas combinaciones que se refuerzan igualmente. En un tipo común de problema aplicado, a un sujeto se le dan descripciones de personas en términos de varios factores, por ejemplo, inteligencia, creatividad, diligencia y honestidad, y se le pide que las califique según un criterio como la idoneidad para un trabajo en particular.

En todos estos casos y una miríada de otros como ellos, la pregunta es si las regularidades de los datos permiten una representación numérica. Inicialmente, se estudiaron completamente tres tipos de representaciones: la variable dependiente como suma, producto o media ponderada de las medidas asociadas a las variables independientes. Las dos primeras representaciones subyacen a algunas investigaciones psicológicas y económicas, así como una parte considerable de la medición física y el modelado en las estadísticas clásicas. La tercera representación, el promedio, ha demostrado ser más útil para entender las preferencias entre resultados inciertos y la amalgama de rasgos verbalmente descritos, así como algunas variables físicas.

Para cada uno de estos tres casos, sumando, multiplicando y promediando, los investigadores saben qué propiedades o axiomas de orden deben satisfacer los datos para que tal representación numérica sea apropiada. En el supuesto de que una u otra de estas representaciones existe, y utilizando calificaciones numéricas por sujetos en lugar de ordenar, una técnica de escalado llamada medición funcional (referida a la función que describe cómo la variable dependiente se relaciona con las independientes) se ha desarrollado y aplicado en una serie de dominios. Lo que sigue siendo problemático es cómo abarcar en el nivel ordinal el hecho de que algún error aleatorio invade casi todas las observaciones y luego mostrar cómo esa aleatoriedad está representada en el nivel numérico; esto sigue siendo un problema de investigación sin resolver y difícil.

En los últimos años se han logrado progresos considerables en la comprensión de ciertas representaciones intrínsecamente diferentes de las que se acaban de examinar. El trabajo ha implicado tres impulsos relacionados. El primero es un esquema de clasificación de las estructuras de acuerdo con la forma única en que su representación está limitada. Las tres representaciones numéricas clásicas se conocen como tipos de escala ordinal, intervalo y relación. Para sistemas con representaciones numéricas continuas y de tipo escala por lo menos tan ricos como el ratio uno, se ha demostrado que sólo puede existir un tipo adicional. Un segundo impulso es aceptar suposiciones estructurales, como las factoriales, y derivar para cada escala las posibles relaciones funcionales entre las variables independientes. Y el tercer impulso es desarrollar axiomas para las propiedades de una relación de orden que conduce a las posibles representaciones. Ahora se sabe mucho acerca de las posibles representaciones no additivas tanto del caso multifactorial como de aquél en el que se pueden combinar estímulos, como la combinación de intensidades sonoras.

Estrechamente relacionada con esta clasificación de estructuras está la pregunta: ¿Qué afirmaciones, formuladas en términos de las medidas que surgen en tales representaciones, pueden considerarse significativas en el sentido de corresponder a algo empírico? Las declaraciones aquí se refieren a cualquier afirmación científica, incluyendo las estadísticas, formuladas en términos de las medidas de las variables y conectivos lógicos y matemáticos. Estas son declaraciones para las cuales afirmar la verdad o la falsedad tiene sentido. En particular, las declaraciones que siguen siendo invariantes bajo ciertas simetrías de la estructura han desempeñado un papel importante en la geometría clásica, el análisis dimensional en la física y en la relación de los modelos estadísticos y de medición aplicados al mismo fenómeno. Además, estas ideas se han utilizado para construir modelos en áreas más formalmente desarrolladas de las ciencias conductuales y sociales, como la psicofísica. La investigación actual ha enfatizado la comunalidad de estos desarrollos históricamente independientes e intenta tanto descubrir argumentos sistemáticos y filosóficamente sólidos sobre por qué la invarianza bajo las simetrías es tan importante como parece ser y entender qué hacer cuando las estructuras carecen de simetría, como, por ejemplo, cuando las variables tienen un límite superior inherente.

Agrupación

Muchos sujetos no parecen estar correctamente representados en términos de distancias en el espacio geométrico continuo. Más bien, en algunos casos, como las relaciones entre los significados de las palabras —que es de gran interés en el estudio de las representaciones de la memoria— una descripción en términos de estructuras jerárquicas similares a árboles parece ser más esclarecedora. Este tipo de descripción parece apropiado tanto por el carácter categórico de los juicios como por la naturaleza jerárquica, en lugar de compensar, de la estructura. Los ítems individuales se representan como los nodos terminales del árbol, y los agrupamientos por diferentes grados de similitud se muestran como nodos intermedios, con los agrupamientos más generales que ocurren más cerca de la raíz del árbol. Se han desarrollado y se están desarrollando técnicas de agrupación que requieren un considerable poder computacional. Existen algunas aplicaciones exitosas, pero se espera mucho más refinamiento.

Modelos de red

Varias otras líneas de modelado avanzado han progresado en los últimos años, abriendo nuevas posibilidades para la especificación empírica y la prueba de una variedad de teorías. En los datos de las redes sociales, las relaciones entre las unidades, más que las propias unidades, son los principales objetos de estudio: amistades entre las personas, vínculos comerciales entre las naciones, agrupaciones de cocitación entre científicos de investigación, entrelazamiento entre juntas directivas corporativas. En la última década se han desarrollado modelos especiales para los datos de redes sociales, que ofrecen, entre otras cosas, nuevas medidas precisas de las fortalezas de los vínculos relacionales entre las unidades. Un reto importante en los datos de las redes sociales en la actualidad es manejar la dependencia estadística que surge cuando las unidades muestreadas están relacionadas de formas complejas.

Inferencia estadística y análisis

Como se señaló anteriormente, las cuestiones de diseño, representación y análisis están íntimamente entrelazadas. Algunas cuestiones de inferencia y análisis se han examinado anteriormente en relación con enfoques específicos de recopilación y modelización de datos. En esta sección se examinan algunas cuestiones más generales de inferencia estadística y avances en varios enfoques actuales.

Inferencia causal

Los científicos conductuales y sociales utilizan métodos estadísticos principalmente para inferir los efectos de tratamientos, intervenciones o factores políticos. Los capítulos anteriores incluían muchos ejemplos de conocimiento causal ganado de esta manera. Como se señaló anteriormente, el amplio estudio experimental sobre la financiación de la atención de la salud alternativa examinado en Capítulo 2 En el diseño del experimento y el análisis de los datos resultantes, se basó en gran medida en los principios y técnicas estadísticos, incluida la aleatorización. Los diseños sofisticados eran necesarios para responder a una variedad de preguntas en un solo estudio grande sin confundir los efectos de una diferencia de programa (como el pago anticipado o la tarifa por servicio) con los efectos de otra (como los diferentes niveles de costos deducibles), o con los efectos de variables no observadas (como las diferencias genéticas). También se utilizaron técnicas estadísticas para determinar los resultados aplicados en toda la población matriculada y que se limitaron a ciertos subgrupos (como los individuos con presión arterial alta) y para traducir las tasas de utilización en diferentes programas y tipos de pacientes en costos globales comparables en dólares y resultados de salud para opciones de financiación alternativas.

Un experimento clásico, con variaciones sistemáticas pero aleatorias asignadas de las variables de interés (o algún acercamiento razonable a esto), se considera generalmente la base más rigurosa de la cual extraer tales inferencias. Pero las muestras aleatorias o las manipulaciones experimentales aleatorias no siempre son factibles o éticamente aceptables. Entonces, las inferencias causales deben ser extraídas de estudios observacionales, los cuales, por bien diseñados, son menos capaces de asegurar que las relaciones observadas (o inferidas) entre variables proporcionen evidencia clara sobre los mecanismos subyacentes de causa y efecto.

Se han identificado algunos problemas recurrentes en el estudio de la inferencia causal. Un desafío surge de la selección de variables de fondo a medir, como el sexo, el nacimiento o la religión parental de los individuos en un estudio comparativo de cómo la educación afecta el éxito ocupacional. La adecuación de los métodos clásicos de emparejamiento de grupos en variables de fondo y ajuste para covariables requiere una investigación más profunda. Es posible ajustar estadísticamente los sesgos vinculados a las variables de fondo medidas, pero puede complicarse. La labor actual de ajuste por sesgo selectivo tiene por objeto debilitar los supuestos inverosímiles, como la normalidad, al realizar esos ajustes. Incluso después de que se haya hecho el ajuste para las variables de fondo medidas, otras variables no medidas casi siempre están afectando los resultados (como las transferencias familiares de riqueza o los hábitos de lectura). Los análisis de cómo podrían cambiar las conclusiones si se pudieran tener en cuenta estas variables no medidas son esenciales para intentar hacer inferencias causales de un estudio observacional, y apenas comienza el trabajo sistemático sobre modelos estadísticos útiles para tales análisis de sensibilidad.

La tercera cuestión importante surge de la necesidad de distinguir entre hipótesis competidoras cuando las variables explicativas se miden con diferentes grados de precisión. Tanto el tamaño estimado como la significación de un efecto se reducen cuando tiene un gran error de medición, y los coeficientes de otras variables correlacionadas se ven afectados incluso cuando las otras variables se miden perfectamente. Similares resultados surgen de errores conceptuales, cuando se mide sólo los proxies de un constructo teórico (como los años de educación para representar la cantidad de aprendizaje). En algunos casos, existen procedimientos para estimar simultánea o iterativamente tanto la precisión de las medidas complejas como su efecto sobre un criterio determinado.

Aunque los modelos complejos son a menudo necesarios para inferir causas, una vez que su salida está disponible, debe traducirse en pantallas comprensibles para la evaluación. Los resultados que dependen de la precisión de un modelo multivariado y el software asociado deben someterse a comprobaciones apropiadas, incluyendo la evaluación de pantallas gráficas, comparaciones de grupos y otros análisis.

Nuevas técnicas estadísticas

Reampliación interna

Una de las grandes contribuciones de las estadísticas del siglo XX fue demostrar cómo una muestra debidamente dibujada de tamaño suficiente, aunque sea sólo una pequeña fracción de la población de interés, puede producir estimaciones muy buenas de la mayoría de las características de la población. Cuando se sabe al principio lo suficiente sobre la característica en cuestión —por ejemplo, que su distribución es aproximadamente normal— la inferencia de los datos de la muestra a la población en su conjunto es directa, y se pueden calcular fácilmente las medidas de la certeza de la inferencia, un ejemplo común es el intervalo de confianza del 95 por ciento alrededor de una estimación. Pero las formas de población son a veces desconocidas o inciertas, por lo que los procedimientos de inferencia no pueden ser tan simples. Además, la mayoría de las veces, es difícil evaluar incluso el grado de incertidumbre asociado con datos complejos y con las estadísticas necesarias para desentrañar fenómenos sociales y conductuales complejos.

Los métodos internos de muestreo intentan evaluar esta incertidumbre generando una serie de conjuntos de datos simulados similares a los observados realmente. La definición de similar es crucial, y se han diseñado muchos métodos que explotan diferentes tipos de similitud. Estos métodos proporcionan a los investigadores la libertad de elegir procedimientos científicamente apropiados y de sustituir los procedimientos que son válidos bajo formas distributivas supuestas por otros que no están tan restringidos. La simulación computarizada flexible e imaginativa es la clave de estos métodos. Para una muestra aleatoria simple, el método “bootstrap” remuestra repetidamente los datos obtenidos (con reemplazo) para generar una distribución de posibles conjuntos de datos. De este modo se puede simular la distribución de cualquier estimador y se pueden derivar medidas de certeza de inferencia. El método "jackknife" omite repetidamente una fracción de los datos y de esta manera genera una distribución de posibles conjuntos de datos que también pueden utilizarse para estimar la variabilidad. Estos métodos también se pueden utilizar para eliminar o reducir el sesgo. Por ejemplo, el estimador de proporción, una estadística que se utiliza comúnmente en el análisis de encuestas de muestra y censos, se sabe que es parcial, y el método jackknife generalmente puede remediar este defecto. Los métodos se han extendido a otras situaciones y tipos de análisis, como la regresión múltiple.

Hay indicios de que en condiciones relativamente generales, estos métodos, y otros relacionados con ellos, permiten estimaciones más precisas de la incertidumbre de las inferencias que las tradicionales que se basan en distribuciones supuestas (generalmente normales) cuando esa suposición distributiva es injustificada. En el caso de las muestras complejas, este remuestreo o submuestreo interno facilita la estimación de las variaciones de muestreo de las estadísticas complejas.

Una idea más antigua y sencilla, pero igualmente importante, es utilizar una submuestra independiente en la búsqueda de los datos para desarrollar un modelo y al menos una submuestra separada para estimar y probar un modelo seleccionado. De lo contrario, es casi imposible tener en cuenta el ajuste excesivamente cercano del modelo que se produce como resultado de la búsqueda creativa de las características exactas de los datos de la muestra, características que son hasta cierto punto aleatorias y no predicen bien a otras muestras.

Técnicas robustas

El análisis de los datos se basa en muchos supuestos técnicos. Algunos, como la suposición de que cada elemento de una muestra se extrae independientemente de otros, pueden debilitarse cuando los datos están suficientemente estructurados para admitir modelos alternativos simples, como la correlación en serie. Por lo general, estos modelos requieren que se calculen algunos parámetros. Las suposiciones sobre las formas de las distribuciones, siendo la normalidad la más común, han demostrado ser particularmente importantes, y se ha avanzado considerablemente en el tratamiento de las consecuencias de las diferentes suposiciones.

Más recientemente, se han diseñado técnicas robustas que permiten discriminaciones nítidas y válidas entre los posibles valores de parámetros de tendencia central para una amplia variedad de distribuciones alternativas al reducir el peso dado a desviaciones extremas ocasionales. Resulta que al renunciar, digamos, al 10 por ciento de la discriminación que podría proporcionarse bajo la suposición poco realista de normalidad, se puede mejorar mucho el rendimiento en situaciones más realistas, especialmente cuando las desviaciones inusualmente grandes son relativamente comunes.

Estas valiosas modificaciones de las técnicas estadísticas clásicas se han extendido a la regresión múltiple, en la que los procedimientos de reponderación iterativa ahora pueden ofrecer un rendimiento relativamente bueno para una variedad de formas distributivas subyacentes. Deberían ampliarse a sistemas de análisis más generales.

En algunos contextos, en particular los usos más clásicos del análisis de la varianza, el uso de técnicas sólidas adecuadas debería ayudar a acercar la práctica estadística convencional a los mejores estándares que los expertos pueden alcanzar ahora.

Muchos parámetros interrelacionados

Al tratar de dar una representación más precisa del mundo real que es posible con modelos simples, los investigadores a veces utilizan modelos con muchos parámetros, todos los cuales deben ser estimados a partir de los datos. Los principios clásicos de estimación, como la probabilidad máxima directa, no producen estimaciones fiables a menos que el número de observaciones sea mucho mayor que el número de parámetros a estimar o que se utilicen diseños especiales en conjunción con supuestos sólidos. Los métodos bayesianos no distinguen entre parámetros fijos y aleatorios, por lo que pueden ser especialmente apropiados para tales problemas.

Recientemente se han desarrollado diversos métodos estadísticos que pueden interpretarse en el sentido de que tratan muchos de los parámetros como cantidades aleatorias o similares, incluso si se considera que representan cantidades fijas que deben estimarse. La teoría y la práctica demuestran que esos métodos pueden mejorar los métodos de parámetros fijos más sencillos a partir de los cuales evolucionaron, especialmente cuando el número de observaciones no es elevado en relación con el número de parámetros. Las aplicaciones exitosas incluyen admisión a la universidad y a la escuela de posgrado, donde la calidad de la escuela previa se trata como un parámetro aleatorio cuando los datos son insuficientes para estimarlo bien por separado. Los esfuerzos por crear modelos apropiados utilizando este enfoque general para la estimación de zonas pequeñas y el ajuste de la subcotización en el censo son posibles aplicaciones importantes.

Faltan datos

En el análisis de datos, pueden surgir problemas graves cuando faltan parcial o totalmente ciertos tipos de información (cuantitativa o cualitativa). Se han elaborado o se están elaborando diversos enfoques para hacer frente a estos problemas. Uno de los métodos desarrollados recientemente para tratar ciertos aspectos de los datos que faltan se denomina imputación múltiple: cada valor que falta en un conjunto de datos se sustituye por varios valores que representan una gama de posibilidades, con dependencia estadística entre los valores que faltan reflejada en la vinculación entre sus reemplazos. Actualmente se está utilizando para hacer frente a un grave problema de incompatibilidad entre las cintas de la Oficina del Censo de 1980 y las de uso público con respecto a los códigos de ocupación. La ampliación de estas técnicas para abordar problemas como la falta de respuesta a las cuestiones relativas a los ingresos en la Encuesta de Población en Curso se ha examinado en aplicaciones exploratorias con gran promesa.

Computación

Paquetes de computadoras y sistemas de expertos

El desarrollo de la computación de alta velocidad y la manipulación de datos ha cambiado fundamentalmente el análisis estadístico. Se están elaborando rápidamente metodologías para todo tipo de situaciones, que pueden utilizarse en paquetes informáticos que pueden incorporarse a sistemas de expertos interactivos. Esta capacidad informática ofrece la esperanza de que muchos análisis de datos se realicen con más cuidado y eficacia que antes y de que las mejores estrategias para el análisis de datos pasen de la práctica de los estadísticos expertos, algunos de los cuales tal vez no hayan tratado de articular sus propias estrategias, a un amplio debate y a un uso general.

Pero las herramientas poderosas pueden ser peligrosas, como lo demuestran los malos usos ocasionales de los paquetes estadísticos existentes. Hasta hace poco, las únicas estrategias disponibles eran la formación de metodólogos más expertos o la formación de científicos sustantivos en más metodología, pero sin la actualización de su formación tiende a ser anticuado. Ahora existe la oportunidad de captar en los sistemas de expertos el mejor asesoramiento metodológico y práctica actual. Si se aprovecha esa oportunidad, la formación metodológica estándar de los científicos sociales pasará a hacer hincapié en las estrategias para utilizar buenos sistemas de expertos, incluida la comprensión de la naturaleza y la importancia de los comentarios que proporciona, en lugar de cómo combinar algo por sí mismo. Con sistemas expertos, casi todos los científicos conductuales y sociales deberían ser capaces de llevar a cabo cualquiera de los estilos más comunes de análisis de datos de manera más eficaz y con más confianza que todos, pero los más expertos lo hacen hoy en día. Sin embargo, no deben subestimarse las dificultades para desarrollar sistemas de expertos que funcionen como se espera. Los expertos humanos no pueden explicar fácilmente toda la compleja red cognitiva que constituye una parte importante de su conocimiento. Como resultado, los primeros intentos de los sistemas de expertos no fueron especialmente exitosos (como se discutió en Capítulo 1 ). Se espera que el trabajo adicional supere estas limitaciones, pero no está claro cuánto tiempo llevará.

Análisis exploratorio y presentación gráfica

El enfoque formal de mucha investigación estadística a mediados del siglo XX fue en procedimientos para confirmar o rechazar hipótesis precisas a priori desarrolladas antes de la recolección de datos, es decir, procedimientos para determinar la significación estadística. Hubo relativamente poco trabajo sistemático sobre estrategias realistas ricas para que el investigador aplicado utilizara al atacar problemas del mundo real con su multiplicidad de objetivos y fuentes de evidencia. Más recientemente, una especie de trabajo cuantitativo de detectives, llamado análisis de datos exploratorios, ha recibido cada vez más atención. En este enfoque, el investigador busca posibles relaciones cuantitativas que puedan estar presentes en los datos. Las técnicas son flexibles e incluyen un componente importante de las representaciones gráficas. Si bien las técnicas actuales han evolucionado para dar respuestas únicas en situaciones de modesta complejidad, ahora es posible ampliar las respuestas múltiples y las respuestas únicas en situaciones más complejas.

La presentación gráfica y tabular es un dominio de investigación en renacimiento activo, derivado en parte de sugerencias para nuevos tipos de gráficos posibilitados por las capacidades informáticas, por ejemplo, colgar histogramas y representaciones fácilmente asimiladas de vectores numéricos. La investigación sobre la presentación de datos ha sido llevada a cabo por estadísticos, psicólogos, cartógrafos y otros especialistas, y ahora se está tratando de incorporar hallazgos y conceptos de la lingüística, diseño industrial y editorial, estética y estudios de clasificación en ciencias de la biblioteca. Otra influencia ha sido el rápido aumento de la disponibilidad de hardware y software computacional potente, ahora disponible incluso en computadoras de escritorio. Estas ideas y capacidades están llevando a un número cada vez mayor de experimentos conductuales con aportes estadísticos sustanciales. Sin embargo, los criterios de buena práctica gráfica y tabular son todavía demasiados asuntos de tradición y dogma, sin evidencia empírica adecuada o coherencia teórica. Para ampliar las perspectivas de investigación respectivas y desarrollar vigorosamente tales evidencias y coherencia, se necesitan colaboraciones ampliadas entre especialistas en estadística y matemáticas y otros científicos, siendo un objetivo importante comprender mejor los procesos visuales y cognitivos (ver Capítulo 1 ) relevantes para el uso efectivo de enfoques gráficos o tabulares.

Combinación de pruebas

Combinar la evidencia de fuentes separadas es una tarea científica recurrente, y los métodos estadísticos formales para hacerlo se remontan a 30 años o más. Estos métodos incluyen la teoría y la práctica de combinar pruebas de hipótesis individuales, diseño secuencial y análisis de experimentos, comparaciones de laboratorios y paradigmas bayesianos y de probabilidad.

Ahora hay un interés creciente en las síntesis analíticas más ambiciosas, que a menudo se denominan metaanálisis. Un estímulo ha sido la aparición de síntesis que combina explícitamente todas las investigaciones existentes en ámbitos particulares, como la política de libertad condicional en las prisiones, el tamaño de las aulas en las escuelas primarias, los estudios cooperativos de tratamientos terapéuticos para las enfermedades coronarias, las intervenciones de educación en la primera infancia y los experimentos de modificación del clima. En estos campos, un enfoque serio de incluso la pregunta más simple —cómo reunir estimaciones separadas del tamaño del efecto de investigaciones separadas— conduce rápidamente a cuestiones difíciles e interesantes. Una cuestión es la falta de independencia entre los estudios disponibles, debido, por ejemplo, al efecto de los profesores influyentes en los proyectos de investigación de sus estudiantes. Otra cuestión es el sesgo de selección, porque sólo algunos de los estudios realizados, generalmente aquellos con hallazgos “significativos”, están disponibles y porque la búsqueda de literatura puede no encontrar todos los estudios relevantes que están disponibles. Además, los expertos convienen, aunque de manera oficiosa, en que la calidad de los estudios de los diferentes laboratorios e instalaciones difiere sensiblemente y en que probablemente debería tenerse en cuenta esa información. Inevitablemente, los estudios a incluir utilizaron diferentes diseños y conceptos y controlaron o midieron diferentes variables, haciendo difícil saber cómo combinarlas.

Las síntesis ricas e informales, que permiten la evaluación individual, pueden ser mejores que el modelado formal, pero la literatura sobre los modelos metaanalíticos formales está creciendo y puede ser un área importante de descubrimiento en la próxima década, relevante tanto para el análisis estadístico per se como para mejorar las síntesis en las ciencias conductuales y sociales y otras.

Oportunidades y necesidades

Este capítulo ha citado una serie de temas metodológicos asociados a la investigación sobre el comportamiento y las ciencias sociales que parecen ser particularmente activos y prometedores en la actualidad. Al igual que en todo el informe, constituyen ejemplos ilustrativos de lo que el comité considera importantes áreas de investigación en la próxima década. En esta sección se describen recomendaciones para un adicional de 16 millones de dólares anuales para facilitar tanto el desarrollo de la investigación orientada metodológicamente como, igualmente importante, su comunicación en toda la comunidad investigadora.

Los estudios metodológicos, incluidas las primeras implementaciones informáticas, han sido realizados en su mayor parte por investigadores individuales con pequeños equipos de colegas o estudiantes. Ocasionalmente, esas investigaciones se han asociado con proyectos sustantivos bastante grandes, y algunos de los desarrollos actuales de paquetes de computadoras, gráficos y sistemas de expertos requieren claramente grandes esfuerzos organizados, que a menudo se sitúan en la frontera entre el trabajo subvencionado y el desarrollo comercial. Como esta investigación es a menudo una clave para entender cuerpos complejos de datos de ciencias sociales y del comportamiento, es vital para la salud de estas ciencias que el apoyo a la investigación continúe sobre métodos relevantes para los problemas de modelado, análisis estadístico, representación y aspectos relacionados de los datos de ciencias sociales y del comportamiento. Los investigadores y los organismos de financiación también deben ser especialmente comprensivos con la inclusión de este trabajo metodológico básico en grandes estudios experimentales y longitudinales. La financiación adicional para el trabajo en esta esfera, tanto en términos de subvenciones individuales de investigación sobre cuestiones metodológicas como en términos de aumento de grandes proyectos para incluir aspectos metodológicos adicionales, debería proporcionarse en gran medida en forma de subvenciones para proyectos iniciadas por investigadores.

Los estudios etnográficos y comparativos también suelen basarse en subvenciones para proyectos a individuos y pequeños grupos de investigadores. Si bien este tipo de apoyo debe continuar, también debe preverse la posibilidad de facilitar la realización de estudios utilizando estos métodos por los equipos de investigación y de proporcionar una formación metodológica adecuada a través de los mecanismos que se describen a continuación.

En general, recomendamos un aumento de 4 millones de dólares en el nivel de subvenciones iniciadas por los investigadores para la labor metodológica. Un millón adicional de dólares debería destinarse a un programa de centros de investigación metodológica.

Muchos de los nuevos métodos y modelos descritos en el capítulo, si se adoptan en gran medida, exigirán un volumen considerablemente mayor de investigación dedicada al análisis adecuado y a la aplicación informática. Habrá que diseñar nuevas interfaces de usuario y algoritmos numéricos y escribir nuevos programas informáticos. E incluso cuando los métodos generalmente disponibles (como la probabilidad máxima) son aplicables, la aplicación del modelo todavía requiere un desarrollo hábil en contextos particulares. Se sabe que muchos de los métodos generales conocidos que se aplican en el análisis estadístico de los datos proporcionan buenas aproximaciones cuando los tamaños de las muestras son suficientemente grandes, pero su precisión varía con el modelo específico y los datos utilizados. Para estimar la precisión se requiere una extensa exploración numérica. Investigar la sensibilidad de los resultados a las suposiciones de los modelos es importante y requiere una investigación aún más creativa y reflexiva. Se necesitan esfuerzos sustanciales de este tipo para poner en línea cualquier nuevo modelo, y la necesidad se vuelve cada vez más importante y difícil a medida que los modelos estadísticos avanzan hacia un mayor realismo, utilidad, complejidad y disponibilidad en forma de computadora. A su vez, una mayor complejidad aumentará la demanda de energía computacional. Aunque la mayor parte de esta demanda puede satisfacerse con computadoras de escritorio cada vez más potentes, en algunos casos se necesitará acceso a la computadora central e incluso a los superordenadores. Recomendamos 4 millones de dólares anuales adicionales para cubrir el crecimiento de las demandas computacionales de desarrollo y pruebas de modelos.

La interacción y la cooperación entre los desarrolladores y los usuarios de métodos estadísticos y matemáticos necesitan una estimulación continua, ambas formas. Deberían hacerse esfuerzos para enseñar nuevos métodos a una variedad más amplia de usuarios potenciales que la actual. Varias maneras parecen eficaces para que los metodólogos se comuniquen con los científicos empíricos: ejecutar programas de capacitación de verano para estudiantes de posgrado, profesores y otros investigadores; alentar a los estudiantes de posgrado, tal vez a través de requisitos de grado, a hacer un mayor uso de los recursos estadísticos, matemáticos y metodológicos en sus propias universidades o universidades afiliadas; asociar especialistas en investigación estadística y matemática con proyectos de recopilación de datos a gran escala; y desarrollar paquetes estadísticos que incorporen sistemas expertos en la aplicación de los métodos.

Los metodólogos, a su vez, necesitan familiarizarse más con los problemas que realmente enfrentan los científicos empíricos en el laboratorio y especialmente en el campo. Varias maneras parecen útiles para la comunicación en esta dirección: alentar a los estudiantes de posgrado en especialidades metodológicas, tal vez por medio de requisitos de grado, a trabajar directamente en la investigación empírica; crear becas postdoctorales destinadas a integrar a esos especialistas en proyectos de recopilación de datos en curso; y prever proyectos de recopilación de datos de gran envergadura para contratar a especialistas metodológicos pertinentes. Además, se debe alentar la investigación y el desarrollo de paquetes estadísticos y sistemas de expertos para que incluyan la colaboración multidisciplinaria de expertos con experiencia en ciencias estadísticas, informáticas y cognitivas.

Un último punto tiene que ver con la promesa que se ha hecho al aportar diferentes métodos de investigación a los mismos problemas. Como han subrayado nuestras discusiones sobre métodos de investigación en este y otros capítulos, diferentes métodos tienen diferentes poderes y limitaciones, y cada uno está diseñado especialmente para dilucidar una o más facetas particulares de un tema. Un tipo importante de trabajo interdisciplinario es la colaboración de especialistas en diferentes metodologías de investigación sobre un tema sustantivo, de los cuales se han señalado ejemplos a lo largo del presente informe. Si más investigaciones de este tipo se llevaran a cabo en cooperación, se aumentaría el poder de cada método aplicado por separado. Para fomentar esa labor multidisciplinaria, recomendamos un mayor apoyo a las becas, los talleres de investigación y los institutos de capacitación.

La financiación de las becas, tanto pre como posdoctorales, debería tener por objeto proporcionar a los metodólogos experiencia en problemas sustantivos y mejorar la capacidad metodológica de los científicos sustantivos. Ese apoyo específico a las becas debería aumentarse en 4 millones de dólares anuales, de los cuales 3 millones de dólares deberían destinarse a becas predoctorales en las que se haga hincapié en el enriquecimiento de las concentraciones metodológicas. El nuevo apoyo necesario para los talleres de investigación se estima en 1 millón de dólares anuales. Además, se estima que el nuevo apoyo necesario para diversos tipos de institutos de capacitación avanzada destinados a difundir rápidamente nuevas conclusiones metodológicas entre científicos sustantivos es de 2 millones de dólares anuales.