Regresión logística no condicionada y tamaño de muestra: una revisión bibliográfica
Publicación original: |
- Primeras
aportaciones - Una
cuestión fundamental: la regresión a la
media - Modelo
con salida binaria y exposición
ordinal - Otros
Diseños - El
concepto de «evento de interés por
variable» - Muestreo
por Conglomerados - Una
visión escéptica del problema - Conclusiones
- Bibliografía
RESUMEN: La regresión
logística no condicionada es un método de
predicción de riesgo muy
útil en epidemiología. En este artículo
revisamos las diferentes soluciones que
han dado diversos autores sobre la interfase entre el cálculo
del tamaño muestral y la utilización de la
regresión logística. A partir del conocimiento
de las primeras aportaciones, se revisan los fenómenos de
regresión a la media y de la constricción
predictiva, el diseño
de una exposición
ordinal con una salida binaria, el concepto de
evento de interés
por variable, las variables
indicadoras, la fórmula clásica de Freeman, etc.
Recogemos también algunas ideas escépticas sobre
este tema.
Palabras clave: Regresión
logística. Tamaño muestral. Diseño de
estudios. Epidemiología.
ABSTRACT: Uconditioned logistic regression and sample
size: a reference source review. Unconditioned logistic
regression is a highly useful risk prediction method in
epidemiology. This article reviews the different solutions
provided by different authors concerning the interface between
the calculation of the sample size and the use of logistics
regression. Based on the knowledge of the information initially
provided, a review is made of the customized regression and
predictive constriction phenomenon, the design of an ordinal
exposition with a binary output, the event of interest per
variable concept, the indicator variables, the classic Freeman
equation, etc. Some skeptical ideas regarding this subject are
also included.
Key words: Logistic regression. Sample size.
Research Design. Epidemiology.
El modelado es la emoción que la mano experimenta
en la caricia.
Auguste Rodin
INTRODUCCIÓN
Uno de los elementos que más ha contribuido al
avance de la epidemiología en los últimos
años ha sido el desarrollo de
determinados métodos de
análisis como la regresión
logística1. Mediante ella se pueden hacer
cuantificaciones de riesgo en un determinado carácter biológico o no
biológico (por ejemplo, el hábito tabáquico)
permitiendo al investigador la creación de modelos uni o
multivariantes que sean predictivos de fenómenos
complejos. También ayuda a controlar el efecto de posibles
variables confusoras y la
interacción2.
El modelo
logístico aplicado a los estudios de seguimiento fue
introducido por Cornfield en el año 19623 y
posteriormente aplicado al análisis de los datos del estudio
de Framingham4. La adaptación al contexto de
estudios causales planteaba el problema de la estimación
de los coeficientes, por lo que el uso de ordenadores era
imprescindible.
El algoritmo de
Walker-Duncan5 para la obtención de los
estimadores de máxima verosimilitud y los trabajos de Day
y Kerridge6 y de Cox7 vinieron a solucionar
en parte este problema. Los estudios de bondad de ajuste
descritos con posterioridad han aportado las técnicas
de diagnóstico adecuadas8-13. La
aplicación de los modelos logísticos en los
estudios caso-control fue
sugerida y justificada por Mantel14 y por Siegel y
Greenhouse15. Poco después se planteó la
estimación de los coeficientes utilizando un argumento
condicionado16, lo cual permitía la
aplicación en diseños pareados (regresión
logística «condicionada»).
El objetivo de
este trabajo es la
revisión de las diferentes soluciones que distintos
autores han dado al problema del cálculo del tamaño
muestral para el caso en el que se aplique la regresión
logística no condicionada en la modelación estadística de un estudio
epidemiológico.
Primeras aportaciones
A pesar de que, como hemos visto, el método de
análisis basado en el modelo logístico
comenzó a existir científicamente a partir de la
década de los sesenta3-6, es interesante hacer
notar que existe poca bibliografía
específicamente dedicada a este modelo y al cálculo
del tamaño de muestra hasta el
año 198117. Basada en una matriz de
información para los parámetros
estimados de una regresión logística
múltiple y en una aproximación a ella mediante otra
matriz para las covariables, Whittemore publicó una
solución de tamaños de muestra en circunstancias
uni y multivariadas para eventos
raros17. En el año 1989 aparece otra
publicación con objetivos
similares18. Basado matemáticamente en el de
Whittemore, Hsieh escribe de forma más comprensible, con
unas tablas muy claras que contemplan las diferentes prevalencias
asumidas en la enfermedad a estudiar y las odds ratio que se
pretenden detectar (tabla 1), si la variable independiente
fuera de tipo dicotómico y si se tratara de estudios
caso-control apareados nos remite a otras
fuentes19-20. Aunque no refiere nada acerca de las
técnicas analíticas para el cumplimiento de
normalidad uni o multivariante21-22 si que recomienda
que si se constata su falta en una o varias de las covariables se
realice una transformación23 antes de aceptar
el tamaño de muestra18.
Página siguiente |