Salud Pública de México

Tratamiento estadístico de la falta de respuesta en estudios epidemiológicos transversales

Tratamiento estadístico de la falta de respuesta en estudios epidemiológicos transversales

AUTORES


Eduardo Carracedo-Martínez, M en C,(1) Adolfo Figueiras, PhD.(1)


(1) Área de Medicina Preventiva y Salud Pública, Universidad de Santiago de Compostela. España

RESUMEN

En los estudios epidemiológicos, la falta de respuestas constituye una gran limitación por la pérdida de validez y el poder estadístico que implica, sea que se produzca en forma de participación parcial (el sujeto deja alguna pregunta sin contestar) o como ausencia de participación (el individuo no contesta ninguna pregunta). En este trabajo se realiza una revisión de la bibliografía científica sobre los distintos métodos para realizar un tratamiento estadístico de los datos cuando no se obtienen respuestas; la finalidad es contrarrestar las limitaciones de la información, siempre en el caso de estudios epidemiológicos no longitudinales. La mayor parte de los métodos estadísticos se centra en el tratamiento de la participación parcial (datos faltantes) y puede clasificarse en dos grandes grupos: de asignación y de datos completos. La elección correcta del método para un estudio requiere un análisis previo de la matriz de los datos, en relación con el mecanismo de generación de datos faltantes y el porcentaje del total de los datos que representa.

ABSTRACT

In epidemiological surveys, non-response constitutes a great limitation due to the loss of validity and statistical power it represents, whether such a loss occurs due to partial participation (the individual fails to answer certain variables) or due to total lack of participation (the individual does not answer any variable). This paper reviews the scientific literature on the different methods to process statistic data when non-response has occurred in non-longitudinal studies, so as to counteract their effect in such studies. Most statistical methods focus on dealing with partial participation (missing data). These methods, of which there is a great variety, can be classified into two large groups: imputation and complete data. For accurate selection of the study method, it is necessary to study the data matrix beforehand, observing the missing data generation mechanism, as well as the proportion they represent of the total data.

Introducción

La ausencia de respuestas constituye una de las mayores limitaciones de cualquier estudio epidemiológico. Desde el punto de vista conceptual, la falta de respuestas engloba dos aspectos diferenciados: por un lado, la no participación de un sujeto en el estudio al no contestar el cuestionario y, por el otro, los valores ausentes (datos faltantes) de personas que responden al cuestionario de forma incompleta al no contestar una o varias variables.

Los datos faltantes pueden dar lugar a una pérdida considerable del tamaño de la muestra al realizarse el análisis con técnicas estadísticas como las multivariadas, ya que aun cuando un sujeto tenga sólo un dato faltante en una de las variables, esa persona debe excluirse del análisis junto con todos los demás valores de las otras variables de ese individuo, con la opción que tienen por defecto los programas estadísticos (opción listwise).1 Por consiguiente, estudios de simulación han encontrado que aunque la base de datos tenga tan sólo 10% de datos faltantes, al realizar un análisis multivariado con la opción listwise se pierde 59% de los datos de la base de datos.2 Esto supone una disminución del poder estadístico y alteración del error de tipo I (consideración de una diferencia estadísticamente significativa cuando en realidad no lo es).3 Además de la consiguiente pérdida de poder estadístico, pueden agregarse problemas de validez, en virtud de que los elementos que participan en estos estudios pueden tener características distintas respecto de los que no participan,4 lo cual introduce un sesgo porque la muestra deja de ser representativa de la población. Por ejemplo, si los individuos que consumen mayor cantidad de tabaco no contestan la encuesta sobre tabaquismo, la muestra subestima la cantidad de tabaco consumida por la población.

Cuando se revisan las publicaciones de estudios epidemiológicos se puede observar que, en algunas ocasiones, los autores infieren resultados con base en una muestra cuya población tiene porcentajes de participación muy bajos (sólo de 30%).5 Más aún, se han identificado publicaciones en las que se desconoce este porcentaje.6

Los investigadores deben reducir cuanto sea posible la falta de participación en el estudio durante la fase de diseño. En la bibliografía se han hallado distintas medidas para incrementar el porcentaje de participación, según sea que se emplee un cuestionario postal,7,8 una entrevista telefónica9 o una entrevista personal.10 En general, la ausencia de participación es más acusada en el cuestionario postal que en la entrevista telefónica y más en ésta que en la entrevista personal.11 Entre los métodos más contrastados para disminuir la falta de participación en los cuestionarios postales figuran el envío de una notificación previa a los sujetos y la abreviación del cuestionario.8

En este trabajo se realiza una revisión bibliográfica de los distintos métodos para tratar de forma estadística las muestras que tienen problemas de nula respuesta, particularmente en el caso de estudios con datos no longitudinales (una sola medida en el espacio temporal).

Material y Métodos

La búsqueda se llevó a cabo en enero de 2005 en la base de datos MEDLINE on line del portal de PubMed (http://www.ncbi.nlm.nih.gov/entrez/query.fcgi). Se usaron las palabras clave nonresponse, survey, method statistic not longitudinal, missing, imputation. Como marco temporal se solicitaron los datos de los últimos 15 años. Del total de artículos obtenidos se realizó una selección en función del idioma utilizado y el tema tratado en el título o el resumen. De esta forma, se eliminaron todos los no escritos en español o inglés y los que no trataban el objeto de estudio. Todos los artículos seleccionados se solicitaron y leyeron. A continuación se eligieron artículos a los que se hacía referencia en alguno de los obtenidos por el método anterior.

Soluciones estadísticas para la falta de participación

Mediante distintos métodos estadísticos es posible predecir las respuestas de quienes declinan participar a partir de los datos conocidos de los integrantes de la muestra. En un principio esto parece un ejercicio metodológico muy aventurado, que por sí mismo puede atenuar la validez del estudio. Sin embargo, hay que tener en cuenta que, en ausencia de estos métodos de ajuste, se extrapolan los resultados de la muestra real a la población, con lo que se asigna al conjunto de los elementos que no respondieron el valor medio de los respondedores, lo que sí supone importantes limitaciones si los motivos de la falta de participación se relacionan con variables de interés para el estudio.

Ponderación

Consiste en aumentar el peso de quienes sí responden para que representen a los que no lo hacen. El objetivo es reducir el sesgo que introducen estos últimos, ya que el resultado final presupone que todos los sujetos contestaron. En general, este proceso requiere información auxiliar de los participantes y de los que no proporcionan información. Un ejemplo es el siguiente: se envía una encuesta a un número determinado de colegios para reconocer los programas compensatorios disponibles para niños con problemas de lectura; empero, no se obtiene la totalidad de las respuestas; si uno de los colegios que sí contesta es muy similar a dos que no lo hicieron respecto de las variables conocidas para ambos, entonces se multiplica el peso de ese colegio por tres para que represente a los tres colegios. Este proceso se repite para el total de instituciones no participantes.

Pueden utilizarse varios procedimientos para llevar a cabo la ponderación,12,13 entre ellos la ponderación ajustada a la muestra. Para ello se necesitan datos de los integrantes que no participaron. Se divide la muestra en clases que tengan valores similares o se recurre a algunas variables, sea que se preestablezcan o que se conozcan para respondedores y no respondedores; con posterioridad se determinan las clases a las que pertenecen los segundos. Por lo regular, las variables auxiliares empleadas para integrar las clases asumen la forma de sondeos y se delinean antes de iniciar la obtención de datos. Los pesos son iguales para cada clase y representan la relación inversa de la proporción de respuesta en cada una.

Otro método es la ponderación ajustada a la probabilidad de respuesta calculada mediante regresión logística. Se efectúa una regresión logística entre el estado de respuesta (0= no respondedor, 1= respondedor) y se conforma un conjunto de variables disponibles para participantes y no participantes. Los valores obtenidos en la regresión se toman como probabilidad de respuesta. Se establecen clases en función del valor de estas probabilidades y después se siguen los pasos de ponderación ya descritos, según sea la muestra, tras multiplicar las clases por sus pesos (relación inversa de la probabilidad de respuesta). Este método sólo se puede aplicar cuando se conocen suficientes datos de la población que no suministró información.12

El problema radica en que la ponderación puede dar lugar a cálculos de una varianza muy grande.12 El cómputo de la varianza para los cálculos ajustados por pesos es muy difícil, los métodos no están bien desarrollados y la mayoría de las veces ignoran el componente de variabilidad debido a la determinación de los pesos.12 Como solución, Kessler y colaboradores14 para medir la variabilidad propusieron aplicar de manera repetida el método de corrección por pesos a muestras generadas con base en una técnica de remuestreo (bootstrap).

Tratamiento estadístico de datos faltantes

La finalidad de estas herramientas es analizar los datos de forma especial para minimizar las consecuencias de la falta de respuesta. Es posible clasificarlas en dos grandes grupos según sea que utilicen técnicas de asignación o no (análisis con datos completos). Al seleccionar el método más adecuado debe tenerse en cuenta el mecanismo que al parecer genera los datos ausentes. Little y Rubin15 definen tres tipos de mecanismos de generación de información incompleta: datos faltantes estrictamente aleatorios (DFEA), datos faltantes aleatorios (DFA) y datos faltantes no aleatorios (DFNA); este último también se conoce como datos faltantes con sesgo o mecanismo no ignorable. Para una descripción detallada de estos mecanismos véase el cuadro I.

En la práctica es muy difícil observar datos faltantes estrictamente aleatorios; la existencia de DFEA representa un caso demasiado exigente, poco realista para uso general; casi siempre las situaciones corresponden a DFA o casos con sesgo.16

Sin embargo, la comprobación de que los datos faltantes introducen este sesgo17 para una variable determinada no es posible sólo con la realización de pruebas sobre los datos que los investigadores sí obtuvieron (los datos que los sujetos sí contestaron); en realidad, su verdadera confirmación exige una averiguación posterior de los valores de esta variable para los individuos con datos faltantes.1

Las bases de datos manipuladas con métodos estadísticos de datos faltantes pueden analizarse después con diversas técnicas estadísticas, por ejemplo con análisis factorial o técnicas de regresión, tanto si las variables donde existen los datos faltantes son dependientes o independientes. No obstante, algunos métodos de tratamiento de datos faltantes tienen la peculiaridad de registrar un comportamiento dudoso cuando se analizan mediante determinadas técnicas estadísticas, lo cual se detalla en la descripción de los métodos en esta revisión.





Análisis con datos completos


Este tipo de análisis puede dividirse en dos:

1. Análisis de casos (o sujetos) completos. Se elimina de los cálculos a los individuos que no suministraron información en alguna de las variables. Tiene la ventaja de proporcionar cálculos fáciles, es el método más natural y lo adoptan la mayor parte de los programas de análisis multivariado de forma automática.1 En el sistema SPSS corresponde a la opción por defecto (opción listwise). Como inconvenientes, puede introducir un sesgo si no se cumplen las condiciones de DFEA18 y puede ser muy ineficiente (produce cómputos con una varianza muy grande) al disminuir el tamaño de la muestra por la eliminación de valores de la variable de interés pertenecientes a un caso que contiene ausencias en alguna otra variable.

2. Análisis de casos disponibles. El análisis de casos completos presenta una gran pérdida de información para el análisis univariado, ya que los valores de una variable se eliminan cuando pertenecen a casos de ausencia para otras variables. Una alternativa natural, el denominado análisis de casos disponibles,15 es incluir todos los casos con las variables de interés observadas, aunque contenga faltantes en otras variables. El problema radica en que de ese modo el tamaño de la muestra real cambia de una variable a otra, lo que genera problemas prácticos.1 Sin embargo, en contraparte, tiene la ventaja de utilizar la máxima información posible. En consecuencia, su aplicación se restringe a los estudios en los que el número de casos válidos (sujetos sin ningún dato faltante) es demasiado pequeño.19 Al igual que el método de casos completos, sus resultados pueden sesgarse si no se cumplen las condiciones DFEA.18

Técnicas de asignación

La asignación consiste en otorgar un valor a la variable en los lugares en los que no se dispone del valor. En ciertas situaciones no debe aplicarse,15 por ejemplo cuando hay demasiados datos faltantes para una pregunta (es posible que la pregunta esté tan mal formulada que los sujetos no la entienden con propiedad); en estos casos es mejor eliminar la variable (si carece de importancia). Tampoco debe aplicarse cuando se sabe que hay un sesgo muy acusado o si la información para un sujeto es muy limitada, esto es, cuando ha contestado pocas preguntas del cuestionario (casi siempre es preferible considerarlos como no participantes).

Existen distintas técnicas de asignación y se pueden clasificar en dos grupos: a) las que sólo usan los datos del sujeto de asignación (sólo son válidas para cuestionarios específicos en los que las preguntas poseen un significado clínico similar y medidas correlacionadas en la misma escala; por ejemplo, los sujetos valoran en una escala su estado de bienestar físico, bienestar psíquico, vida social, etc.); y b) las que utilizan datos de otros individuos, además de los que fueron objeto de asignación.

Entre los que sólo emplean los datos del sujeto de asignación figuran los siguientes:

Asignar la media del sujeto. En la variable que falta para un individuo se asigna la media de las demás variables que el encuestado ha respondido y que tienen un significado clínico similar dado que son medidas obtenidas en la misma escala y están correlacionadas.20

Asignar la media del sujeto dentro de un subgrupo: en la variable que falta para un elemento se asigna la media de las demás variables que el individuo ha respondido, al igual que el método anterior, pero dentro de un grupo de variables que tienen sólida relación (casi siempre una subescala de un cuestionario con puntos vinculados que tienen una notoria correlación entre sí). Proporciona cálculos más válidos que el método anterior.20

Entre las técnicas de asignación que emplean datos de otros elementos diferentes al sujeto destacan las siguientes:

Asignar la media de la variable. Consiste en conceder a la variable del sujeto, cuyo valor se desconoce, la media de los valores de todos los miembros que respondieron. Este método tiene el gran inconveniente de subestimar con frecuencia el valor de la varianza.21 Por lo general suministra resultados sesgados si no se cumplen las condiciones DFEA,22 aunque es posible reducir el sesgo si se estratifican las asignaciones por otra variable conocida para todos los sujetos, como la zona de residencia.23


Asignar en función de la regresión. Este método consiste en hallar la relación en forma de regresión entre la variable con datos faltantes (variable dependiente) y las demás variables (variables independientes) dentro de un subgrupo. Considerar otras variables al asignar favorece la obtención de un cálculo mejor. Tiene el inconveniente de que no es válido si no se cumplen las condiciones DFEA.24

Asignación hot-deck. En este método los datos faltantes de un sujeto se sustituyen con los valores de un sujeto “donante”, que coincide en la respuesta para otras variables (esto es, variables que están relacionadas o son predictivas para las variables para las que deben asignarse los datos faltantes). Cuando hay más de un posible “donante” se pueden seguir varios procedimientos; lo más común es elegirlos al azar o bien asignar la media del valor de la variable de dichos “donantes”.25 Cuando las condiciones no son DFEA es posible obtener resultados inválidos, lo cual se agrava cuando el porcentaje de datos faltantes es mayor de 10%.26

Múltiple asignación. Este método se caracteriza porque en el sitio de un dato faltante se asignan varios valores, no uno solo. Consta de tres grandes pasos: asignación, análisis de datos y unión. Durante el primero se crean k asignaciones para cada dato faltante (según Rubin,27 el k mínimo para proporcionar estimaciones válidas es en general tres y Schafer28 no aconseja usar más de 10). Cada una de las k asignaciones anteriores se puede crear con una gran variedad de métodos, desde los más simples, como la asignación de la media,29-31 hasta los más complejos, como los modelos Monte Carlo con cadenas de Markov.32 Al final de este paso se obtienen K matrices de datos. En el segundo paso se analiza cada una de las K matrices de datos y se consiguen al final de esta fase K resultados (estimadores obtenidos). En el último paso se unen los K resultados anteriores en uno solo y se obtiene la media entre las k medias resultantes; la varianza total se halla mediante fórmulas matemáticas que suman un componente por la variación dentro de cada matriz de datos (variabilidad intragrupal) y otro por la variación entre las medias de las matrices de datos (variabilidad intergrupal).15 La asignación múltiple ha demostrado ser uno de los métodos más eficaces, ya que tiene un buen comportamiento en situaciones en las que otros métodos fracasan, por ejemplo cuando no se cumplen las condiciones DFEA o el porcentaje de datos faltantes es muy elevado (hasta 40% de los datos faltantes).33,34 Si el porcentaje de valores faltantes es muy bajo, los métodos de asignación múltiple proporcionan resultados muy similares a los de los demás métodos de asignación.29 Rubin35 afirma que los resultados se deben interpretar con cautela si el tipo de proceso de generación de datos faltantes es no ignorable, a pesar de presentar un comportamiento mejor que otros métodos en estas condiciones, como se ha comprobado en estudios de simulación.21 El método se ha utilizado de modo creciente en estudios epidemiológicos, puesto que en un principio sólo lo usaban programas como el GAUSS o SOLAS,38 pero hoy están disponibles de modo gratuito programas para Windows y módulos para S-Plus o SAS. Estos programas realizan la fase de asignación mediante métodos iterativos complejos, cada uno con procesos específicos. Por ejemplo, el programa NORM36 construye cadenas de Markov suficientemente largas para que los elementos se estabilicen en una determinada distribución, de tal modo que al efectuar la simulación de modo repetido se obtengan las distintas matrices de datos de forma independiente. Este programa supone que el modelo de probabilidad para los datos completos es el de una distribución normal, aunque según Schafer basta redondear el valor asignado a la categoría más cercana para variables binarias o categóricas.37 El programa SOLAS38 puede utilizar un procedimiento no paramétrico basado en bottstrap bayesiano que usa la puntuación de propensión (propensity score) calculada a partir de otras covariables.39 Para cada observación el método genera una puntuación de propensión para que ese valor de la variable se omita mediante el ajuste de un modelo de regresión logística entre una serie de covariables y una variable que vale cero cuando el dato falta y uno si no está ausente. A continuación se agrupan las observaciones en función de los valores de esa puntuación de propensión y dentro de cada grupo se llevan a cabo las asignaciones mediante el bootstrap bayesiano. Sin embargo, Allison40 desaconseja el procedimiento mediante bottstrap bayesiano debido a que puede arrojar resultados erróneos cuando es preciso analizar la matriz de datos mediante regresión. Aunque la múltiple asignación representa muchas ventajas respecto de otros métodos, no debe considerarse una panacea puesto que es aún importante que el investigador verifique que no se producen las circunstancias en las cuales los métodos de asignación no se deben aplicar, ya que podría ello resultar inválido;41 por otra parte, el empleo de distintos métodos para efectuar las asignaciones múltiples y diferentes programas informáticos con sus procesos iterativos específicos puede hacer que los resultados de distintos estudios no sean comparables entre sí.18

Método de máxima verosimilitud. Es un método iterativo en el que se ajusta un modelo conjunto para la variable dependiente, la distribución de la variable
independiente y, si es posible, la generación de datos faltantes, lo cual requiere la elaboración de software especial para cada problema específico,42 razón por la cual es muy complejo llevarlo a la práctica. El método emplea procesos interactivos como el método de Newton-Raphson o más a menudo el algoritmo EM (expectation maximization). Este método también se usa con datos completos para calcular un parámetro a partir de observaciones de la muestra. Cuando hay datos faltantes, el método funciona del siguiente modo:15 en primer término realiza la máxima verosimilitud como si no hubiera datos faltantes y de ese modo estima q(1) para luego computar los valores faltantes mediante una función que relaciona estos valores con los observados y con los parámetros calculados en el paso anterior (q(1)). A continuación se realiza la máxima verosimilitud con los valores faltantes sustituidos por los calculados para el paso anterior y así se computa q(2). En seguida se calculan de nueva cuenta los valores faltantes mediante una función que relaciona estos valores con los observados y con los parámetros calculados en el paso anterior (q(2)) y se sigue así la interacción hasta la convergencia entre q(t) y q(t+1). El método de máxima verosimilitud suele mostrar un buen comportamiento incluso en condiciones DFA.43

Discusión

Las soluciones estadísticas para la falta de participación se han estudiado muy poco y, en consecuencia, están poco extendidas.

En cuanto a las soluciones estadísticas para los valores ausentes, una visión general de la bibliografía lleva a concluir que al elegir el método más adecuado para el tratamiento estadístico es fundamental realizar un estudio en la matriz de datos para identificar el mecanismo de generación de datos ausentes (DFEA, DFA o mecanismo no ignorable), puesto que tiene una enorme influencia en el modo en el que se comporta este método (cuadro II). Si los valores ausentes son sólo una pequeña fracción de todos los casos, por ejemplo menos de 5%, entonces un método simple como el de casos completos es una alternativa razonable; empero, si
el porcentaje de datos faltantes es elevado, es preferible el empleo de métodos más complejos desde el punto de vista computacional, como la múltiple asignación, dado que representan una mejor solución en términos generales.40

Sin embargo, en virtud de la variabilidad de comportamiento de un mismo método de tratamiento de datos faltantes, al variar las matrices de datos es aconsejable realizar un análisis de sensibilidad para confirmar que la elección de un método es la adecuada para el tratamiento estadístico de los datos ausentes.22





Otra recomendación que se desprende de la bibliografía, en particular en la fase de diseño del estudio, es la investigación de posibles variables que sirvan para predecir los valores de variables con datos faltantes e incluirlas de esa manera en el proceso de obtención de datos.42

Bibliografía

1. Streiner DL. The case of the missing data: methods of dealing with dropouts and other vagaries. Can J Psychiatry 2002;47:68-75.
2. Kim JO, Curry J. The treatment of missing data in multivariate analysis. Sociol Methods Res 1977;6:215-241.
3. Hunsberger S, Murria D, Davis CE, et al. Imputation strategies for missing data in school-based multicenter study: the pathways study. Stat Med 2001;20:305-316.
4. Abramson JW. Métodos de estudio en medicina comunitaria. Madrid: Díaz de Santos, 1990.
5. Asch DA, Jedrziewski MK, Christakis NA. Response rates to mail surveys published in medical journals. J Clin Epidemiol 1997;50:1129-1136.
6. Nielsen-Thompson N, Boyer EM. Components of nonresponse in mail surveys of dental hygienists. J Dent Hyg 1994;68:188-192.
7. Edwards P, Roberts I, Clarke M, et al. Increasing response rates to postal questionnaires: systematic review. BMJ 2002;324:1-9.
8. Eaker S, Bergström R, Bergström A, et al. Response rate to mailed epidemiologic questionnaires: a population-based randomized trial of variations in design in design and mailing routines. Am J Epidemiol 1998;147:74-82.
9. Baker DW, Brown J, Chan KS, et al. A telephone survey to measure communication, education, self-management, and health status for patients with heart failure: the improving chronic illness care evaluation (ICICE). J Card Fail 2005;11(1):36-42.
10. Argimón J, Jiménez J. Diseño de estudios descriptivos (III): estudios sobre fiabilidad de una medida. Diseño y validación de cuestionarios. Barcelona: Signo, 2003.
11. O´toole BI, Battistutta D, Long A, et al. A comparison of costs and data quality of three health survey methods: mail, telephone and personal home interview. Am J Epidemiol 1986;124:317-328.
12. Holt D, Elliot D. Methods of weighting for unit nonresponse. Statistician 1991;40:333–342.
13. Kalton G, Kasprzyk D. The treatment of missing survey data. Surv Methodol 1986;12:1-16.
14. Kessler RC, Little JA, Groves RM. Advances in strategies for minimizing and adjusting for survey nonresponse. Epidemiol Rev 1995;17:192-204.
15. Little RJA, Rubin DB. Statistical analysis with missing data. New York: Wiley, 2002.
16. Vach W, Bletner M. Biased estimation of the odds ratio in case-control studies due to the use of ad hoc methods of correcting for missing values for confounding variables. Am J Epidemiol 1991;134:895-907.
17. Rothman KJ, Greenland S. Modern epidemiology. 2a ed. Filadelfia: Lippincot & Wilkins, 1998.
18. Kneipp SM, McIntosh M. Handling missing data in nursing research with multiple imputation. Nurs Res 2001;50:384-389.
19. Domenech JM, Sarriá A. Análisis multivariante en ciencias de la salud. Diagnósticos de un modelo de regresión múltiple. Barcelona: Signo, 2003.
20. Fairclough DL. Functional assessment of cancer therapy (FACT-G): non-response to individual questions. Qual Life Res 1996;5:321-329.
21. Crawford SL, Tennstedt LT, Mckinlay JB. A comparison of analytic methods for non-random missingness of outcome data. J Clin Epidemiol 1995;48:209-219.
22. Cañizares M, Barroso K, Alfonso I. Datos incompletos: una mirada crítica para su manejo en estudios sanitarios. Gac Sanit 2004;18(1):58-63.
23. Weinberg CR, Moledor ES, Umbach DM, et al. Imputation for exposure histories with gaps, under an excess relative risk model. Epidemiology 1996;7:490-497.
24. Greenland S, Finkle W. A critical look at methods for handling covariates in epidemiologic regression analyses. Am J Epidemiol 1995;142:1255-1264.
25. Gmel G. Imputation of missing values in the case of a múltiple item instrument measuring alcohol consumption. Stat Med 2001;20:2369-2381.
26. Wang ST, Lin LY, Yu ML. A SAS macro for a simulation study of imputation methods for missing values. An application of Bebbington’s algorithm. Public Health 1998;112:129-132.
27. Rubin DB. Multiple imputation after 18+ years. J Am Stat Assoc 1996;91:473-489.
28. Schafer JL. Multiple imputation: a primer. Stat Methods Med Res 1999;8:3-15.
29. Zhou X. Multiple imputation in public health research. Stat Med 2001;20:1541-1549.
30. Kmetic A. Multiple imputation to account for missing data in a survey: estimating the prevalence of osteoporosis. Epidemiology 2002;13:437-444.
31. Patrician P. Focus on research methods multiple imputation for missing data. Res Nurs Health 2002;25:76-84.
32. Faris PD, William AG, Brant R, et al. Multiple imputation versus data enhancement for dealing with missing data in observational health care outcome analyses. J Clin Epidemiol 2002;55:184-191.
33. Rubin DB, Schenker N. Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. J Am Stat Assoc 1986;81:366-374.
34. Taylor J. Use of multiple imputation to correct for nonresponse bias in a survey of urologic symptoms among african-american men. Am J Epidemiol 2002;156:774-782.
35. Rubin DB. Multiple imputation for nonresponse in surveys. Nueva York: John Wiley and Sons, 1987.
36. Schafer J. NORM: multiple imputation of incomplete multivariate data under a normal model. Version 2.02, 1999.
37. Schafer. Analisis of incomplete multivariate data. Londres: Chapman and Hall, 1997.
38. Statistical solutions. SOLAS for missing data. Version 3.0, 2000.
39. Lavori P, Dawson D, Shera D. A multiple imputation strategy for clinical trials with truncation of patient data. Stat Med 1995;14:1913-1925.
40. Allison. Multiple imputation for missing data: a cautionary tale. Sociol Methods Res 2000;28:301-309.
41. Barnard J, Meng XL. Applications of multiple imputation in medical studies: from AIDS to NHANES. Stat Methods Med Res 1999;8:17-36.
42. Raghunathan TE. What do we do with missing data? Some options for analysis of incomplete data. Annu Rev Public Health 2004;25:99-117.
43. Schafer JL, Graham JW. Missing data: our view of the state of the art. Psychol Methods 2002;7(2):147-177.

Enlaces refback

  • No hay ningún enlace refback.




Salud Pública de México es una publicación periódica electrónica, bimestral, publicada por el Instituto Nacional de Salud Pública (con domicilio en Avenida Universidad núm. 655, col. Santa María Ahuacatitlán, Cuernavaca, Morelos, C.P. 62100, teléfono 329-3000, página web, www.insp.mx), con ISSN: 1606-7916 y Reserva de Derechos al Uso Exclusivo con número: 04-2012-071614550600-203, ambos otorgados por el Instituto Nacional del Derecho de Autor. Editor responsable: Carlos Oropeza Abúndez. Responsable de la versión electrónica: Subdirección de Comunicación Científica y Publicaciones, Avenida Universidad núm. 655, planta baja, col. Santa María Ahuacatitlán, Cuernavaca, Morelos, C.P. 62100, teléfono 329 3000. Fecha de última modificación: 7 de junio de 2018. D.R. © por el sitio: Instituto Nacional de Salud Pública.

Gestionando el conocimiento