Monografias.com > Sin categoría
Descargar Imprimir Comentar Ver trabajos relacionados

Transformaciones a una linea recta (página 3)



Partes: 1, 2, 3

ccionaron dos gráficas para diagnóstico, Delta Chi cuadrada de
Pearson versus la probabilidad estimada del evento y Delta Pearson versus los valores influyentes.

La Delta Chi cuadrada de Pearson para el j-ésimo patrón de factor/covariado es el cambio en la Chi
cuadrada de Pearson cuando se omiten todas las observaciones con ese patrón de factor/covariado.

Las gráficas indican que dos observaciones no ajustan bien en el modelo (alto Delta Chi cuadrado).
Puede ser causado por un valor influeyente grande y/o un residuo alto de Pearson, que fue el caso ya
que los valores influyentes fueron menores 0.1.

Monografias.com

Delta Chi-Square
Delta Chi-Square
1.0
0.9
0.8
0.7
0.6
0.5
0.4
Hosmer y Lemeshow indican que Delta Chi cuadrado o Delta Deviance mayores a 3.84 son grandes.

Delta Chi-Square versus Probability
6

5

4

3

2

1

0
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
6

5

4

3

2

1

0
Probability

Delta Chi-Square versus Leverage
Leverage

Si se seleccionar Editor > Brush, se marcan los puntos, y dando clic en ellos, se identifican como
valores de 31 y 66. Estos son individuos con un pulso en reposo alto, queines no fuman, y quienes
tienen menos peso que el promedio (peso promedio = 116.136 libras). Se pueden hacer más
investigaciones para ver por qué el modelo no se ajustó a ellos.

Monografias.com

Corrida con SPSS
Variables
Pulsorep
Fuma
peso
String
String
Numeric
Instrucciones:
1. Analyze > Regresión > Binary Logistic
2. Seleccionar en Dependent – Pulsorep; Covariates – Fuma Peso
3. Con el botón Categorical – Fuma > Continue
4. Con boitón Options Seleccionar Calsification Plots, Hosmer Goodness of fit, CI for Exp(B) >
Continue
5. OK

Exportar el reporte a Word con:
Seleccionar el reporte Output1
File > Export > seleccionar All Visible Objects y dar el nombre de archivo
OK

Cargarlo en Word y hacer comentarios:

Logistic Regression

Monografias.com

Block 0: Beginning Block
Classification Table(a,b)

Predicted

PULSOREP
Percentage Correct
Observed
Bajo
Alto
Step 0
PULSOREP
Bajo
70
0
100.0
Alto
22
0
.0
76.1
Overall Percentage

a Constant is included in the model.

b The cut value is .500

Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
Step 0 Constant -1.157 .244 22.425
1 .000
.314
Variables not in the Equation

Score df
Sig.
Step 0
Variables
FUMA(1)
3.081
1 .079
PESO

Overall Statistics
2.721

7.249
1 .099

2 .027
Block 1: Method = Enter
Omnibus Tests of Model Coefficients
Chi-square df
Sig.
Step

Step 1 Block

Model
7.574

7.574

7.574
2 .023

2 .023

2 .023
Model Summary

Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1
93.640
.079
.118

Monografias.com

Hosmer and Lemeshow Test
Step
Chi-square
df
Sig.
1
7.561
8
.477
Contingency Table for Hosmer and Lemeshow Test
PULSOREP = Bajo
PULSOREP = Alto
Observed Expected Observed
Expected Total
Step 1
1

2

3

4

5
9

10

8

7

6
8.345

9.591

9.322

7.379

7.119
0

1

3

2

3
.655

1.409

1.678

1.621

1.881
9

11

11

9

9
6

7

8

9

10
9

7

6

4

4
6.782

7.213

5.419

5.532

3.299
0

3

2

5

3
2.218

2.787

2.581

3.468

3.701
9

10

8

9

7
Classification Table(a)

Predicted

PULSOREP
Percentage Correct
Observed
Bajo
Alto
Step 1
PULSOREP
Bajo
68
2
97.1
Alto
20
2
9.1
Overall Percentage

a The cut value is .500

Variables in the Equation
B
S.E.
Wald
df
Sig.
Exp(B)
76.1

95.0% C.I.for EXP(B)
Lower
Upper
Step 1(a) FUMA(1) -1.193
.553 4.654
1 .031
.303
.103
.897

Monografias.com

Step number: 1
Observed Groups and Predicted Probabilities
16 ô ô
ó ó
ó
ó
F ó ó
R 12 ô ô
E ó A
ó
Q ó B ó
U ó B ó
E 8ô B ô
N ó B B
ó
C ó BA AA B ó
Y ó BAABA B A B A ó
4 ô BBBBB ABB A B A ô
ó B B BBBBBABBB B B B A ó
ó B B BBBBBBBBBABAB B B ó
ó B BBBBBBBBBBBBBBBBBAB BAA AB A A B B ó
Predicted òòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòôòòòòòòòòòòòòòòò
Prob: 0 .25 .5 .75 1
Group: BBBBBBBBBBBBBBBBBBBBBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
Predicted Probability is of Membership for Alto
The Cut Value is .50
Symbols: B – Bajo
A – Alto
Each Symbol Represents 1 Case.

Ejemplo con HATCO
Tomando la base de datos de HATCO donde:
X1 – Rapidez de entregas
X2 – Nivel de precios percibido
X3 – Flexibilidad en precios (para negociar)
X4 – Imagen de manufactura
X5 – Service global necesario para mantener satifacción del cliente
X6 – Imagen de la fuerza de ventas
X7 – Calidad del producto pericbida por los clientes
X8 – Tamaño de la mepresa: 1 = grande; 0 = pequeña.
X9 – Nivel de utilización, porcentaje de productos adquiridos de Hatco
X10 – Nivel de satisfacción del cliente, en las mismas unidades que las percepciones X1 a X7
X11 – Uso de especificaciones: 1 – Valor; 0-con especificaciones.
X12 – Estrutura del abastecimiento: 1-Centralizado; 0-Descentralizado
X13 – Tipo de industria: 1 – industria A; 0 – otras industrias.
X14 – Tipo de situación de compra para el cliente: 1-Nueva tarea; 2-Compra modificada; 3-
Compra normal

Monografias.com

2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
1.8
3.4
2.7
6
1.9
4.6
1.3
5.5
4
2.4
3.9
2.8
3.7
4.7
3.4
3.2
4.9
5.3
4.7
3.3
3.4
3
2.4
5.1
4.6
2.4
5.2
3.5
4.1
3
2.8
5.2
3.4
2.4
1.8
3.6
4
0
2.4
1.9
5.9
4.9
5
2
5
3.1
3.4
5.8
3
5.2
1
0.9
3.3
2.4
4.2
1.6
3.5
1.6
2.2
1.4
1.5
1.3
2
4.1
1.8
1.4
1.3
0.9
0.4
4
1.5
1.4
2.1
1.5
1.3
2.8
3.7
3.2
3.8
2
3.7
1
3.3
4
0.9
2.1
2
3.4
0.9
2.3
1.3
2.6
2.5
1.9
3.9
0.2
6.3
5.7
7.1
9.6
7.9
9.5
6.2
9.4
6.5
8.8
9.1
8.1
8.6
9.9
9.7
5.7
7.7
9.7
9.9
8.6
8.3
9.1
6.7
8.7
7.9
6.6
9.7
9.9
5.9
6
8.9
9.3
6.4
7.7
7.5
5.8
9.1
6.9
6.4
7.6
9.6
9.3
8.6
6.5
9.4
10
5.6
8.8
6.6
6
5.9
7.8
4.8
6.6
5.1
4.7
6
4.8
4.6
3.8
5.7
6.7
4.7
5.1
4.3
6.1
6.7
4
2.5
7.1
4.8
4.8
5.8
4.8
6.1
3.5
5.5
5.3
6.9
5.9
5.7
3.4
4.5
5.8
5.4
5.4
4.5
4.6
7.8
4.5
4.7
3.7
4.6
4.5
5.6
4.5
2.5
4.3
1.8
3.4
2.6
3.5
2.8
3.5
3.7
2
3
2.1
2.7
3
2.7
3.6
3.4
3.3
3
2.1
1.2
3.5
1.9
3.3
3.4
1.9
3.2
3.1
3.9
3.1
3.3
3.7
3.5
1.7
2.5
3.7
2.4
1.1
2.1
2.6
3.4
3.6
3.1
2.4
3.7
2.6
3.6
3
4
2.7
2.3
4.6
1.9
4.5
2.2
3
3.2
2.8
2.5
1.4
3.7
2.6
1.7
2.9
1.5
3.9
2.6
1.8
1.7
3.4
2.5
2.6
2.8
2.5
3.9
1.7
3
3
3.2
2.4
3.4
1.1
2.4
2.5
2.6
2.6
2.2
2.5
4.6
1.3
2.5
1.7
1.4
3.2
2.3
2.4
8.4
8.2
7.8
4.5
9.7
7.6
6.9
7.6
8.7
5.8
8.3
6.6
6.7
6.8
4.8
6.2
5.9
6.8
6.8
6.3
5.2
8.4
7.2
3.8
4.7
7.2
6.7
5.4
8.4
8
8.2
4.6
8.4
6.2
7.6
9.3
7.3
8.9
8.8
7.7
4.5
6.2
3.7
8.5
6.3
3.8
9.1
6.7
1
1
1
0
1
0
1
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
1
0
0
1
0
0
1
1
0
0
1
1
1
1
0
1
1
1
0
0
0
1
0
0
1
0
43
48
32
58
45
46
44
63
54
32
47
39
38
54
49
38
40
54
55
41
35
55
36
49
49
36
54
49
46
43
53
60
47.3
35
39
44
46
29
28
40
58
53
48
38
54
55
43
57
4.3
5.2
3.9
6.8
4.4
5.8
4.3
5.4
5.4
4.3
5
4.4
5
5.9
4.7
4.4
5.6
5.9
6
4.5
3.3
5.2
3.7
4.9
5.9
3.7
5.8
5.4
5.1
3.3
5
6.1
3.8
4.1
3.6
4.8
5.1
3.9
3.3
3.7
6.7
5.9
4.8
3.2
6
4.9
4.7
4.9
0
0
0
1
0
1
0
1
0
1
1
0
1
1
1
1
1
1
1
1
1
1
0
1
1
0
1
1
0
0
1
1
0
0
0
0
1
0
0
0
1
1
1
0
1
1
0
1
1
1
1
0
1
0
1
0
1
0
0
1
0
0
0
1
0
0
0
0
0
1
1
0
0
1
0
0
1
1
1
0
1
1
1
1
0
1
1
1
0
0
0
1
0
0
1
0
0
1
1
1
1
1
0
1
0
0
1
0
1
0
0
1
0
1
0
0
0
0
0
0
1
0
1
1
0
0
0
0
0
0
1
1
1
1
1
1
1
0
0
1
0
1
1
1
1
2
1
3
2
1
2
3
2
1
2
1
1
3
3
2
2
3
3
2
1
3
1
2
3
1
3
3
2
1
3
3
1
1
1
2
3
1
1
1
3
3
2
1
3
3
2
3

Monografias.com

50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
5.4
3.7
2.6
4.5
2.8
3.8
2.9
4.9
5.4
4.3
2.3
3.1
5.1
4.1
3
1.1
3.7
4.2
1.6
5.3
2.3
3.6
5.6
3.6
5.2
3
4.2
3.8
3.3
1
4.5
5.5
3.4
1.6
2.3
2.6
2.5
2.4
2.1
2.9
4.3
3
4.8
3.1
1.9
4
0.6
6.1
2.1
0.7
4.8
4.1
2.4
0.8
2.6
4.4
2.5
1.8
4.5
1.9
1.9
1.1
3.8
2
1.4
2.5
4.5
1.7
3.7
5.4
2.2
2.2
1.3
2
2.4
0.8
2.6
1.9
1.6
1.8
4.6
2.8
3.7
3
3.1
2.9
3.5
1.2
2.5
2.8
1.7
4.2
2.7
0.5
1.6
0.5
8
8.2
8.2
6.3
6.7
6.7
7.7
7.4
9.6
7.6
8
9.9
9.2
9.3
5.5
7.2
9
9.2
6.4
8.5
8.3
5.9
8.2
9.9
9.1
6.6
9.4
8.3
9.7
9.1
8.7
8.7
5.5
6.1
7.6
8.5
7
8.4
7.4
7.3
9.3
7.8
7.6
5.1
5
6.7
6.4
9.2
3
6
5
5.9
4.9
2.9
7
6.9
5.5
5.4
4.7
4.5
5.8
5.5
4.9
4.7
4.5
6.2
5.3
3.7
5.2
6.2
3.1
4.8
4.5
6.6
4.9
6.1
3.3
4.5
4.6
3.8
8.2
6.4
5
6
4.2
5.9
4.8
6.1
6.3
7.1
4.2
7.8
4.9
4.5
5
4.8
3.8
2.1
3.6
4.3
2.5
1.6
2.8
4.6
4
3.1
3.3
2.6
3.6
2.5
3.4
1.6
2.6
3.3
3
3.5
3
4.5
4
2.9
3.3
2.4
3.2
2.2
2.9
1.5
3.1
3.6
4
2.3
3
2.8
2.8
2.7
2.8
2
3.4
3
3.3
3.6
2.2
2.2
0.7
3.3
1.4
2.5
2.5
3.4
2.6
2.1
3.6
4
3
2.5
2.2
3.1
2.3
2.7
2.6
3.2
2.3
3.9
2.5
1.9
2.3
2.9
1.6
1.9
2.7
2.7
2.7
2.6
1.5
3.1
2.1
2.1
4.4
3.8
2.5
2.8
2.2
2.7
2.3
2.5
4
3.8
1.4
4
2.5
2.1
2.1
2.8
5.2
5.2
9
8.8
9.2
5.6
7.7
9.6
7.7
4.4
8.7
3.8
4.5
7.4
6
10
6.8
7.3
7.1
4.8
9.1
8.4
5.3
4.9
7.3
8.2
8.5
5.3
5.2
9.9
6.8
4.9
6.3
8.2
7.4
6.8
9
6.7
7.2
8
7.4
7.9
5.8
5.9
8.2
5
8.4
7.1
0
0
1
1
1
0
0
1
0
0
1
0
0
0
0
1
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
0
1
0
1
1
1
0
1
0
0
0
0
1
0
1
0
53
41
53
50
32
39
47
62
65
46
50
54
60
47
36
40
45
59
46
58
49
50
55
51
60
41
49
42
47
39
56
59
47.3
41
37
53
43
51
36
34
60
49
39
43
36
31
25
60
3.8
5
5.2
5.5
3.7
3.7
4.2
6.2
6
5.6
5
4.8
6.1
5.3
4.2
3.4
4.9
6
4.5
4.3
4.8
5.4
3.9
4.9
5.1
4.1
5.2
5.1
5.1
3.3
5.1
4.5
5.6
4.1
4.4
5.6
3.7
5.5
4.3
4
6.1
4.4
5.5
5.2
3.6
4
3.4
5.2
1
1
0
0
0
1
1
0
1
1
0
1
1
1
1
0
1
1
0
1
0
0
1
1
1
0
1
1
1
0
1
1
1
0
1
0
0
0
1
0
1
1
1
1
0
1
0
1
0
0
1
1
1
0
1
1
0
0
1
0
0
0
1
1
0
0
1
0
1
1
0
0
0
1
0
0
0
1
0
0
1
1
1
1
1
1
1
1
0
1
0
1
1
0
1
0
1
0
1
0
1
0
1
0
0
1
1
1
0
1
1
1
0
0
0
0
1
1
1
0
1
0
1
0
1
1
0
0
1
0
0
0
1
0
0
1
0
1
0
1
0
1
1
1
3
2
2
2
1
1
2
2
3
3
2
3
3
3
2
1
2
3
2
3
2
2
3
3
3
1
2
2
3
1
3
3
2
1
1
2
1
2
1
1
3
2
2
2
1
1
1
3

Monografias.com

Paso 1. Obtener el comportamiento del modelo por cada variable X1 a X7:

La variable dependiente es X11:

Corrida en Minitab:
1
2
3
4
Abrir la hoja de trabajo HATCO.MTW o tomar datos de esta tabla.
Seleccionar Stat > Regression > Binary Logistic Regression.
En Response, seleccionar X11 En Model, seleccionar X1-X7
Click Graphs. Seleccionar Delta chi-square vs probability y Delta chi-square vs leverage. Click
OK.
5
Click Results. Seleccionar In addition, list of factor level values, tests for terms with more
than 1 degree of freedom, and 2 additional goodness-of-fit tests. Click OK en cada uno de las
ventanas de diálogo.
Model: Especificar los términos a ser incluidos en el modelo.

Los resultados de la corrida son los siguientes:

Binary Logistic Regression: X11 versus X1, X2, X3, X4, X5, X6, X7

Link Function: Logit
Response Information

Variable Value Count
X11 1 60 (Event)
0 40
Total 100

Logistic Regression Table
95% CI
Predictor
Coef SE Coef Z P Odds Ratio Lower Upper
Constant
-1.37522
5.27926 -0.26 0.794
X1
X2
X3
X4
X5
X6
X7
0.0759455 4.00067 0.02 0.985 1.08 0.00 2744.24
-0.349077 4.00277 -0.09 0.931 0.71 0.00 1801.48
2.21451 0.869462 2.55 0.011 9.16 1.67 50.33
-2.04458 1.75315 -1.17 0.244 0.13 0.00 4.02
2.63834 8.25052 0.32 0.749 13.99 0.00 1.47505E+08
5.10396 2.97675 1.71 0.086 164.67 0.48 56297.08
-3.39040 1.09301 -3.10 0.002 0.03 0.00 0.29
Log-Likelihood = -12.479
Test that all slopes are zero: G = 109.645, DF = 7, P-Value = 0.000

Goodness-of-Fit Tests

Method Chi-Square DF P
Pearson 41.5472 91 1.000
Deviance 24.9571 91 1.000
Hosmer-Lemeshow
2.0928 8 0.978
Brown:
General Alternative 2.5040 2 0.286
Symmetric Alternative 0.0018 1 0.966

Monografias.com

Delta Chi-Square
Table of Observed and Expected Frequencies:
(See Hosmer-Lemeshow Test for the Pearson Chi-Square Statistic)

Group
Value 1
2
3
4 5
6
7
8
9
10 Total
1
Obs 0
Exp 0.0
0
Obs 10
Exp 10.0
Total 10
0 0 2 9 9 10 10 10 10 60
0.0 0.3 2.1 8.0 9.6 9.9 10.0 10.0 10.0

10 10 8 1 1 0 0 0 0 40
10.0 9.7 7.9 2.0 0.4 0.1 0.0 0.0 0.0
10 10 10 10 10 10 10 10 10
100
Measures of Association:
(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures
Concordant 2375 99.0 Somers' D 0.98
Discordant 25 1.0 Goodman-Kruskal Gamma 0.98
Ties
0 0.0 Kendall's Tau-a
0.47
Probability
1.0
0.8
0.6
0.4
0.2
0.0
Total 2400 100.0

Delta Chi-Square versus Probability

20

15

10

5

0

Monografias.com

Delta Chi-Square
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
20

15

10

5

0
Delta Chi-Square versus Leverage
Leverage

Corrida en SPSS de Hatco
Logistic Regression

Case Processing Summary
a. If weight is in effect, see classification table for the total
number of cases.

Dependent Variable Encoding

Block 0: Beginning Block
Iteration History a,b,c
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 134.602
c. Estimation terminated at iteration number 2 because
log-likelihood decreased by less than .010 percent.

Monografias.com

Classification Table a,b
a. Constant is included in the model.
b. The cut value is .500

Variables in the Equation

Variables not in the Equation
Block 1: Method = Enter

Monografias.com

Iteration History a,b,c,d
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 134.602
d. Estimation terminated at iteration number 8 because log-likelihood decreased by less than .010 percent.

Omnibus Tests of Model Coefficients
Model Summary

Hosmer and Lemeshow Test

Monografias.com

Contingency Table for Hosmer and Lemeshow Test
Classification Table
a. The cut value is .500
Variables in the Equation
a. Variable(s) entered on step 1: X1, X2, X3, X4, X5, X6, X7.

Correlation Matrix
Step number: 1

Monografias.com

80

60

40
F
R
E
Q
U
E
N
C
Observed Groups and Predicted Probabilities

1
1
1
Y
0
1
20
0
0
0
000
1
1
1
11 1
Predicted

Prob: 0 .25 .5 .75 1
Group: 000000000000000000000000000000111111111111111111111111111111

Predicted Probability is of Membership for 1.00
The Cut Value is .50
Symbols: 0 – .00
1 – 1.00
Each Symbol Represents 5 Cases.
Casewise List b

a. S = Selected, U = Unselected cases, and ** = Misclassified cases.
b. Cases with studentized residuals greater than 2.000 are listed.
Ejemplo del Titanic
En 1912, se hunde el Titanic, de los 2,228 pasajeros y tripulación, sólo sobrevivieron 705. Se reunió
información de 1,309 pasajeros observando si sobrevivieron en función de su edad, género, tipo de
boleto y número de miembros de la familia que los acompañaban.

Se investigó para tratar de determinar si había algunas variables explicativas de la supervivencia.

Monografias.com

Fig. 1 Características de 21 pasajeros
4
Este problema puede ser abordado con la Regresión Logística, donde la respuesta es binaria (0,1) y
no sigue una distribución normal con varianza constante.

En el modelo general:

El valor esperado es la probabilidad de que la variable tome el valor de uno (1 = supervivencia). Para
poder utilizar un modelo más general se hace una transformación logística (por ejemplo ln(p/(1-p)), lo
que nos lleva al modelo de regresión logística:

Los parámetros en la regresión logística se estiman por el método de máxima verosimilitud, en
términos de p, el modelo de regresión se puede escribir como:
En el ejemplo, “1” equivale a sobrevivió y “0” a no sobrevivió, y las cinco características de los
pasajeros son:

? Pclass es la clase “1” es primera, “2” es segunda y “3” es tercera.
? Age es la edad del pasajero.
? Sex es “1” para mujeres y “1” para hombres.
4
Landau Sabine y Everitt Brian, Statistical Analysis USing SPSS, Chapman & Hall/ CRC, Chicago,
EEUU., 2004

Monografias.com

? Parch, número de familiares directos padres e hijos.
? Sibsp, número de hermanos o esposa.

Las tablas de contingencia para las diferentes variables son las siguientes (comando Crosstabs…):
Las proporciones de supervivencia decrecen para boletos en primera clase.
Las proporciones de supervivencia son mayores en las mujeres que en los hombres.

Monografias.com

Las proporciones de supervivencia son mayores para pasajeros con un hermano o esposa o tres
familiares directos (padres / hijos) con ellos.

Para examinar la asociación entre la edad y la supervivencia, se puede observar una gráfica de
dispersión de dos variables, con la opción de Lowess curve. La cuál proporciona una representación
informal del cambio en la proporción de “1” con la edad.
___________________________________________________________________.
Por ejemplo al examinar las edades de las parejas que contraen matrimonio se observa que hay cierta
concentración en los jóvenes, como sigue:
La curva Lowess (locally weighted regresión fit) permite revelar la relación entre las dos edades en
vez de asumir que es lineal

Monografias.com

________________________________________________________________.

Monografias.com

Para el caso que se está tratando de encontrar la relación entre edad y supervivencia se tiene:
A pesar de que las tablas de contingencia y gráficas de dispersión son útiles para los análisis iniciales,
no describen las posibles confusiones o interacciones entre las variables consideradas.

Haciendo un análisis de tablas de contingencia adicionales con las variables se encuentra que:
?
?
?
?
?
Los hombres tienden a tener un boleto de tercera clase que las mujeres.
Los hombres llevan menos hermanos que las mujeres.
La mediana de edad es decreciente con la clase baja de pasajeros.
El número de hermanos o esposa decrece con la edad.
El número de familiares directos se incrementa con la edad.
Para clarificar la presentación de los datos, se puede hacer una clasificación múltiple de supervivencia
de pasajeros dentro de estratos definidos por variables explicativas. Para lo cual se categorizar las
variables edad, parch y sibsp, formando nuevas variables:

? Age_cat para categorizar a los pasajeros en niños (< 21 años) y adultos (>21 años).
? Marital, para categorizar en cuatro estados civiles (1-Sin hermanos o esposa; 2-Con hermanos o
esposa pero sin niños; 3- Sin hermanos o esposa pero con niños; 4- Con hermanos o esposa y
además con niños). Para generar estas variables se pueden utilizar los comandos de SPSS Recode,
Compute e If Cases. También se usa el comando Crosstabs para generar la tabla de cinco vías y
Layer para indicar que forme celdas para cada combinación de las variables.

Monografias.com

Los resultados se muestran a continuación:

Monografias.com

Las conclusiones del estudio indican que para los pasajeros sin hermanos o esposa o sin niños, a los
cuales pertenecía el 60% de los pasajeros se observa que:
? Las mujeres con boleto de primera clase tenían una probabilidad mayor de supervivencia.

Monografias.com

? Los hombres con boleto de tercera clase tenían menos probabilidad de sobrevivir.
? Los niños tuvieron mayor probabilidad de sobrevivir que los adultos.

Ahora se procederá a investigar las asociaciones entre la supervivencia y los cinco predictores
potenciales utilizando la regresión logística con el comando:

Analyze – Regression – Binary Logistic
Se inicia incluyendo una variable a la vez para observar su efecto no ajustado, en este caso Pclass.
? La variable binaria se declara en la ventana de Dependent, y la variable explicatorio en la vantana
Covariates.

? Por omisión SPSS asume que las variables explicativas se miden en una escala de intervalo. Para
informar a SPSS que la variable pclass es categórica, se le indica con el botón Categorical y se
incluye en la ventana Categorical Covariates. Esto hará que se generen las variables artificiales
apropiadas, por omisión se generan k-1 variables indicadoras para k categorías, donde el código de la
categoría más alta representa la categoría de referencia, también puede cambiarse esto.

? Con el botón Options seleccionar CI for exp(B) en la ventana de diálogo, para incluir intervalos de
confianza para las razones de indicadores en los resultados.

Los resultados de la codificación de la categoría de clase de boleto se muestran a continuación:

Monografias.com

Se observa que la codificación de la variable artificial, para la variable categórica predoctora única, es
(1) para primera clase, (2) para segunda clase y la tercera clase representa la categoría de referencia.
SPSS inicia con ajustar un null model vgr. Un modelo que contiene sólo un parámetro de intersección
(ver Block 0: beginning block).

Monografias.com

La primera parte de esta tabla es una “tabla de clasificación” para el modelo nulo, que compara las
predicciones de supervivencia realizadas con base en el modelo ajustado con el estatus verdadero de
supervivencia. Se pronostica a los pasajeros en la categoría de supervivencia si sus probabilidades
son superiores a 0.05 (la cuál puede cambiarse en el diálogo Options), de manera que la proporción
de no supervivencia de 0.382 está por debajo del límite de 0.5 y así el modelo calsifica a los no
sobrevivientes con una exactitud del 61.8%.
A continuación la tabla de “Variables en la ecuación” proporciona la prueba de Wald para la hipótesis
nula de intersección cero (o un número igual de las proporciones de supervivientes y no
supervivientes). También muestra las pruebas para las variables aún no incluidas en el modelo, aquí
pclass. Es claro que la supervivencia está relacionada significativamente con la clase del boleto del
pasajero (Chi cuadrada = 127.9, p < 0.001), también se incluyen comparaciones entre las clases de
pasajeros con la categoría de referencia (tercera clase).

Monografias.com

Los resultados anteriores muestran la “Tabla de clasificación” donde se indica que Pclass incrementa
el porcentaje de clasificación correcta a 67.7%.
La tabla “Ominibus Test of Model” muestra la razón de verosimilitud (LR) o sea es una prueba para
evaluar los efectos de Pclass, de nuevo se detecta un efecto significativo con Chi cuadrada = 127.8 y
p < 0.001.
Finalmente la tabla de “Variables en la ecuación” proporciona las pruebas de Wald para todas las
variables incluidas en el modelo. Consistente con las pruebas LR, el efecto de Pclass es significativo
(Chi cuadrada de 120.5 con p < 0.001). Los parámetros estimados, son proporcionados en la columna
“B” y su error estándar en “SE”. Como los efectos son difíciles de interpretar, se proporcionar en
términos logarítmicos en la columna “Exp(B)”. Comparando cada clase con la tercera, se estima que
las probabilidades de supervivencia fueron 4.7 veces más altas para pasajeros de primera clase (CI
de 3.6 a 6.3) y 2.2 veces más altas que para la segunda clase (1.6 a 2.9). Claramente, las
probabilidades de supervivencia son mayores en las dos clases superiores.
Los resultados de las otras variables categóricas explicativas consideradas individualmente se
muestran a continuación, las variables sibsp y parch se recodificaron previamente en sibsp1 y parch1
dado que la supervivencia de pasajeros acompañados por muchos familiares o niños fue cero, se
agruparon en una sola categoría.

Monografias.com

Se muestra que la probabilidad de supervivencia entre pasajeros es 8.4 veces mayor para las mujeres
que para los hombres.
Las edades se centran en 30 años, se determinan los términos lineales, cuadráticos y cúbicos y se
dividen por sus desviaciones estándar para mejor comparación.

Monografias.com

Se observa que los términos combinados de Age tienen un efecto significativo en la supervivencia
(Chi cuadrada (3) = 16.2, p = 0.001). Las pruebas de Wald indican que el modelo cuadrático y cúbico
contribuyen significativamente a explicar la variabilidad en las probabilidades de supervivencia y el
modelo logarítmico lineal no es suficiente.

Habiendo analizado que todos los predoctores potenciales tienen asociación con la supervivencia
cuando se consideran de manera singular, el siguiente paso es estimar sus efectos simultáneamente.
De esta manera, se puede estimar el efecto para cada uno, ajustado por el remanente. El modelo de
regresión logística incluye en su ventana de Covariates, las cuatro variables categóricas y los tres
términos de edad (con el botón Categorical). Los resultados se muestran a continuación:
Se puede notar que de la tabla “Case Processing Summary”, los casos incluidos en el análisis se
reduce a 1046 dado que falta información en la variable de edad para 263 pasajeros.

La tabla “Ómnibus..” proporciona el efecto de todas las variables explicativas simultáneamente, la guía
de la significancia son las pruebas de Wald. En esta corrida se observa que la variable Patch1 no
contribuye a la explicación de las probabilidades de supervivencia, una vez que se introducen las
otras variables, de manera que se excluye del modelo y se hace una nueva corrida, donde ahora el
tercer término de la edad no es necesario.

Monografias.com

El modelo final de efectos principales contiene términos de edad, clase del boleto, género, y número
de hermanos/esposas, cada contribuye significativamente a un nivel del 5% después de ajustar los
otros términos del modelo.

Ahora se prueban los términos de interacción de dos vías, una por una, por medio de la opción de
bloqueo para agregar los términos de interacción de interés, a los efectos principales significativos
identificados previamente. Por ejemplo para Age y Sex:
Un término de interacción se puede definir en la ventana de Logistic Regresión, seleccionando las
variables involucradas y el botón >a*b> para crear términos de interacción.

Los resultados se indica como sigue:
El primer término permite que el efecto del término lineal de Age varie con Sex, la segunda hace lo
mismo con el término cuadrático y Age.

Se procede a analizar las otras interacciones.

De la tabla siguiente se observa que se deben incluir en el modelo las interacciones entre: género y
clase de boleto; género y edad; clase de boleto y número de hermanos/esposa; y edad y número de
hermanos/esposa. Si se considera el 10% también se debe incluir este último término.

Monografias.com

Como un medio alterno para interpretar el modelo logístico de ajuste, se obtienen gráficas de las
probabilidades logarítmicas de la supervivencia, dado que el modelo asume efectos aditivos de las
variables explicativas en esta escala.
Las instrucciones son las siguientes:
? Guardar las probabilidades de supervivencia como una nueva variable pre_1, en la vista de Datos,
seleccionado Predicted Values:Probabilities en la ventana Save New Variables cuando se obtenga
el modelo de regresión final.
? Transformar estos valores en posibilidades usando la fórmula odds = pre_1/(1-Pre_1) y calcular la
variable logarítmica con la fórmula ln_odds= ln(odds).

Monografias.com

? Generar un factor de interacción clase y género (class.se) con Compute Numeric Expresión 100
x pclass + 1 x Sex. Resultará en un factor con 6 niveles, cada uno con tres dígitos: el primero indica la
clase; el intermedio es cero; y el último indica el género.
? Usar el comando Split File para organizar la salida en grupos definidos por sibsp2.
? Usar el comando Simple Scatterplot para producir una gráfica de dispersión de ln_odds contra la
edad con marcadores definidos por class.se.

Monografias.com

Monografias.com

? Predictores identificados: cada una de las variables, edad del pasajero, género, clase de boleto,
y número de hermanos/esposa, hacen una contribución independiente a la predicción de las
posibilidades de supervivencia. Quienes tienen mayores posibilidades son: los jóvenes (< 20 años),
mujeres, en primera clase. Los que tienen menos posibilidades son: los de tercera clase, adultos
acompañados de dos o más hermanos/esposa.
? Interacción edad por género: Las posibilidades de supervivencia son mayores para mujeres que
para hombres conforme se tiene mayor edad.
? Interacción de género por clase de boleto: Las posibilidades de supervivencia de las mujeres
sobre los hombres se incrementa con la clase.
9. REGRESIÓN LOGÍSTICA ORDINAL
La regression logística ordinal realiza una regresión con una variable de respuesta ordinal. Las
variables ordinales son variables categóricas que tienen tres o más niveles posibles con un orden
natural, tal como fuertemente en desacuerdo, desacuerdo, de acuerdo, y fuertemente de acuerdo. Un
modelo con uno o más predictores se ajusta usando un algoritmo iterativo de mínimos cuadrados
reponderado, para obtener los estimados de los parámetros por máxima verosimilitud.
Se asumen líneas de regresión paralelas, y por tanto, se determina una sóla pendiente para cada
covariado. En situaciones donde este supuesto no es válido, la regresión logística nominal es más
apropiada, ya que genera funciones logit separadas.
Ejemplo:
Suponiendo que un biólogo cree que la población adulta de salamandras en el Norte se ha hecho más
pequeña durante los últimos años. Se quiere determinar si existe alguna asociación entre el tiempo
que vive una salamandra recien nacida y el nivel de toxicidad del agua, así como si hay un efecto
regional. El tiempo de supervivencia se codifica como sigue: 1 si es < 10 días; 2 = 10 a 30 días; 3 = 31
a 60 días.

Monografias.com

2
2
2
2
2
2
3
2
2
2
2
2
1
1
2
2
1
2
1
2
1
2
2
2
34.25
41.25
41.75
45.25
43.50
53.00
38.00
59.00
52.50
42.75
31.50
43.50
2
2
1
2
2
3
2
2
2
1
2
3
2
2
1
2
1
1
2
2
2
2
2
2
47.00
39.75
60.00
41.00
41.00
30.00
45.00
51.00
35.25
40.50
39.50
36.00
2
2
40.00
Instrucciones de Minitab
1
2
3
Open worksheet EXH_REGR.MTW.
Seleccionar Stat > Regression > Ordinal Logistic Regression.
En Response, seleccionar Survival. En Model, seleccionar Region ToxicLevel. En Factors
(optional), seleccionar Region.
4
Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more
than 1 degree of freedom. Click OK en cada ventana de diálogo.
Los resultados se muestran a continuación:
Results for: Exh_regr.MTW

Ordinal Logistic Regression: Supervivencia versus Region, NivelToxico

Link Function: Logit

Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las
categorías de respuesta. Abajo se muestran los valores ordenados de la respuesta de menor a mayor.
1 corresponde a < 10 días; 2 = 10 a 30 días; y 3 = 31 a 60 días.

Información de factores: muestra todos los factores en el modelo, el número de niveles para cada
factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de
referencia, es el primer dato en Valores. En este caso Región 1.

Niveles de Referencia para los factores
Se requiere asignar un nivel de factor como el nivel de referencia. Los coeficientes estimados se
interpretan respecto a este nivel de referencia. Minitab asigna el nivel de referencia como sigue
dependiendo del tipo de datos:



Para factores numéricos, el nivel de referencia es el valor con el menor valor numérico.
Para fechas, el nivel de referencia es el nivel con la fecha/hora más antigua.
Para factores de texto, el nivel de referencia es el nivel que está primero en orden alfabético.
Se puede cambiar esta configuración de Default en la ventana de diálogo de Options. Para cambiar el
nivel de referencia de un factor, especificar la variable del factor seguida por el nuevo nivel de
referencia en la ventana Reference factor level. Se puede especificar niveles de referencia para más
de un factor al mismo tiempo. Si todos los niveles son texto o fecha/hora, encerrarlos entre comillas.
Si ya se definió un valor de orden para un factor de texto, la regla por omisión es que se designa el
primer valor en el orden definido como valor de referencia.
La regression logística crea un conjunto de variables de diseño para cada uno de los factores en el
Modelo. Si hay k niveles, habrá k-1 variables de diseño y el nivel de referencia será codificado con
cero. Por ejemplo:

Monografias.com

Nivel de referencia para la variable de respuesta

Minitab asigna el nivel de referencia como sigue dependiendo del tipo de datos:



Para factores numéricos, el nivel de referencia es el valor con el mayor valor numérico.
Para fechas, el nivel de referencia es el nivel con la fecha/hora más reciente.
Para factores de texto, el nivel de referencia es el nivel que es último en orden alfabético.
Se pueden cambiar en la ventana siguiente:
Response Information

Variable Value Count
Supervivencia 1 15
2 46
3 12
Total 73

Factor Information

Factor Levels Values
Region 2 1, 2

Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los
coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las
tasas de posibilidades calculadas, y un intervalo de confianza del 95% para las tasas de posibilidades.

Los valores etiquetados Const(1) y Const(2) son intersecciones estimadas para las funciones logit
de probabilidad acumuladas de supervivencia para < 10 días, y para 10-30 días respectivamente.

Monografias.com


El coeficiente de 0.2015 para la región es el cambio estimado en la función logit acumulativa del
tiempo de supervivencia cuando la región es 2 comparada con la región 1, con el covariado Nivel
Toxico mantenido constante. Dado que el coeficiente estimado es 0.685, no hay suficiente evidencia
de que la región tenga un efecto sobre el tiempo de supervivencia.

Hay un coeficiente estimado para cada covariado, que da líneas paralelas para el nivel del factor.
En este caso, el coeficiente estimado para un covariado simple, Nivel Toxico, es 0.121, con un valor p
< 0.0005. El valor p indica que para la mayoría de niveles alfa, hay evidencia suficiente para concluir
que el nivel de toxicidad afecta la supervivencia. El coeficiente positivo, y una tasa de posibilidades
mayor a uno, indica que los niveles de toxicidad más altos tienden a estar asociados con menores
valores de superviviencia. Específicamente, un incremento de una unidad en la toxicidad del agua
resulta en un 13% de incremento en las posibilidades que la salamadra viva menos o igual a 10 días
contra más de 30 días, y que la salamandra viva menos que o igual a 30 días versus más que 30 días.

Se muestra la verosimilitud logarítmica (log Likelihood) de las iteraciones de máxima verosimilitud
junto con el estadístico G. Este estadístico prueba la hipótesis que todos los coeficientes asociados
con los predictores son iguales a cero versus al menos un coeficiente no es cero. En este caso G =
14.713 con un valor p de 0.001, indicando que hay suficiente evidencia para concluir que al menos
uno de los coeficientes estimados es diferente de cero.

Logistic Regression Table
Odds 95% CI
Predictor Coef SE Coef Z P Ratio Lower Upper
Const(1)
Const(2)
-7.04343
-3.52273
1.68017 -4.19 0.000
1.47108 -2.39 0.017
Region
2 0.201456 0.496153 0.41 0.685 1.22 0.46 3.23
NivelToxico 0.121289 0.0340510 3.56 0.000 1.13 1.06 1.21

Log-Likelihood = -59.290
Test that all slopes are zero: G = 14.713, DF = 2, P-Value = 0.001

Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este
ejemplo para Pearson se tiene un valor P de 0.463, y para la prueba de deviance es 0.918, indicando
que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el
valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo
ajusta los datos adecuadamente.

Goodness-of-Fit Tests

Method Chi-Square DF P
Pearson
122.799 122 0.463
Deviance 100.898 122 0.918

Medidas de asociación: muestra una tabla de los números y porcentajes de parejas concordantes,
discordantes y similares, y estadísticas de correlación de rango común. Estos valores miden la
asociación entre las respuestas observadas y las probabilidades estimadas o pronosticadas.

La tabla de pares concordantes, discordantes y similares, se calcula emparejando las
observaciones con diferentes valores de respuestas. Si se tienen 15 1’s, 46 2’s, y 12 3’s, resultan en
15 x 46 + 15 x 12 + 46 x 12 = 1422 pares de diferentes valores de respuesta. Para pares incluyendo
los valores de respuesta codificados menores (1-2 y 1-3 pares de valores en el ejemplo), un par es
concordante si la probabilidad acumualtiva hasta el valor de respuesta más bajo (aquí 1) es mayor
para la observación con el valor más bajo. De manera similar para otros pares. Para pares con
respuestas 2 y 3, un par es concordante si la probabilidad acumulativa hasta 2 es mayor para la
observación codificada como 2. El par es discordante si ocurre lo opuesto. El par es similar si las
probabilidades son iguales. En este caso, 79.3% de pares son concordantes, 20.3% son discordantes,
y 0.5% son similares. Se pueden usar estos valores como medida comparativa de predicción, por
ejemplo para evaluar predictores de diferentes funciones de enlace.

Monografias.com


Se muestran resúmenes de pares concordantes y discordantes de Somers’D, Goodman-Kruskal
Gamma y la Tau-a de Kendall. Los números tienen el mismo numerador: el número de pares
concordantes menos el número de pares discordantes. El denominador es el número total de pares
con Somers’D, el número total de pares excepto los similares con Goodman-Kruskal Gamma, y el
número de todas las posibles observaciones para la Tau-a de Kendall. Estas medidas tienden a estar
entre 0 y 1 donde los valores mayores indican una mejor capacidad predictiva del modelo.

Measures of Association:
(Between the Response Variable and Predicted Probabilities)

Pairs Number Percent Summary Measures
Concordant 1127 79.3 Somers' D 0.59
Discordant 288 20.3 Goodman-Kruskal Gamma 0.59
Ties 7 0.5 Kendall's Tau-a
0.32
Total 1422 100.0

10. REGRESIÓN LOGÍSTICA NOMINAL
Usar la regression logística nominal para realizar regresión sobre una variable de respuesta nominal,
usando un algoritmo iterativo de mínimos cuadrados reponderados, para obtener la estimación de
máxima verosimilitud de los parámetros.

Las variables nominales son variables categóricas que tienen tres o más niveles posibles, sin un
orden natural. Por ejemplo, los niveles en un estudio de gusto por la comida, puede incluir: crujiente,
fresca y firme (crunchy, mushy, and crispy).

Ejemplo:
Suponiendo que un director de escuela se interesa por identificar la materia favorita de los niños,
como se asocia con su edad o con el método de enseñanza empleado. Se toman 30 niños, de 10 a 13
años, con clases de ciencias, matemáticas, y lenguaje, que emplean ya sea técnicas de enseñanza de
exposición o discusión. Al final del año escolar, se les preguntó por su materia favorita. Se usa la
regresión logística nominal porque la respuesta es categórica pero no tiene un órden implícito.
Los datos considerados son los siguientes:

Monografias.com

Instrucciones de Minitab:
1
2
3
Open worksheet EXH_REGR.MTW.
Seleccionar Stat > Regression > Nominal Logistic Regression.
En Response, seleccionar Subject. En Model, seleccionar TeachingMethod Age. En Factors
(optional), seleccionar TeachingMethod.
4
Click Results. Seleccionar In addition, list of factor level values, and tests for terms with more
than 1 degree of freedom. Click OK en cada ventana de diálogo.
Los resultados se muestran a continuación:

Nominal Logistic Regression: Materia versus MetodoEnseñanza, Edad

Información de respuesta: muestra el número de observaciones que caen dentro de cada una de las
categorías de respuesta (ciencias, matemáticas y artes del lenguaje).

Response Information

Variable Value Count
Materia Matemáticas 11 (Reference Event)
Ciencias 10
Artes 9
Total 30

Información de factores: muestra todos los factores en el modelo, el número de niveles para cada
factor, y los valores de los niveles del factor. El nivel del factor que ha sido designado como el nivel de
referencia, es el primer dato en Valores. Aquí, el esquema de codificación de default define el nivel de
referencia como Discusión usando el orden alfabético.

Factor Information

Factor Levels Values
MetodoEnseñanza 2 Discusión, Exposición

Tabla de regression logística: muestra los coeficientes estimados, el error estándar de los
coeficientes, los valores Z, los valores p. Cuando se utiliza la función de enlace logit, se muestran las
tasas de posibilidades calculadas, y un intervalo de confianza del 95% para la tasa de posibilidades.
El coeficiente asociado con un predictor es el cambio estimado en la función logia con el cambio de
una unidad en el predictor, asumiendo que todos los otros factores y covariados permanecen
constantes.

Si hay k respuestas distintas, Minitab estima k-1 conjuntos de parámetros estimados, denominados
Logia(1) y Logia (2). Estas son diferencias estimadas en logaritmo de posibilidades o logias de
matemáticas y artes de lenguaje, respectivamente, comparado con la ciencia como el evento de
referencia. Cada conjunto contiene una constante y coeficientes para los factores, aquí el método de
enseñanza, y el covariado edad. El coeficiente del método de enseñanza es el cambio estimado en el

Monografias.com

Logit cuando el método de enseñanza sea exposción comparado a cuando sea discusión,
manteniendo la edad constante. El coeficiente de la edad es el cambio estimado en el logit con un año
de incremento en edad manteniendo constante el método de enseñanza. Estos conjuntos de
estimados de parámetros dan líneas no paralelas para los valores de respuesta.

El primer conjunto de logiats estimados, etiquetados como Logia(1), son los parámetros estimados
del cambio en Logias de matemáticas respecto al evento de referencia, ciencia. Como el valor p tiene
valores de 0.548 y 0.756 para el método de enseñanza y edad, indica que hay insuficiente evidencia
para concluir que un cambio en el método de enseñanza de discusión a exposición, o en edad afecten
la selección de materia favorita cuando se compara con la ciencia.

El segundo conjunto de logias estimados, Logia(2), son los parámetros estimados del cambio en
Logias de artes del lenguaje respecto al evento de referencia ciencia. Los valores p de 0.044 y 0.083
para método de enseñanza y edad, respectivamente, indica que hay suficiente evidencia, si los
valores p son menores al valor aceptable de alfa, se concluye que la selección favorece a la ciencia.

El coeficiente positivo del método de enseñanza indica que los estudiantes que se les aplica el
método de enseñanza de exposición, prefieren las artes del lenguaje sobre la ciencia comparado a
estudiantes que se les da un método de enseñanza de discusión. La tasa estimada de posibilidades
de 15.96 indica que las posibilidades de seleccionar el lenguaje sobre la ciencia es de alrededor de 16
veces más alto para los estudiantes, cuando el método de enseñanza cambia de discusión a lectura.
El coeficiente positivo asociado con la edad indica que los estudiantes tienden a preferir las artes del
lenguaje sobre las ciencias confoirme se hacen más maduros.

Logistic Regression Table
95%
Odds CI
Predictor Coef SE Coef Z P Ratio Lower
Logit 1: (math/science)
Constant
TeachingMethod
lecture
-1.12266 4.56425 -0.25 0.806

-0.563115 0.937591 -0.60 0.548 0.57 0.09
Age 0.124674 0.401079 0.31 0.756 1.13 0.52
Logit 2: (arts/science)
Constant
TeachingMethod
lecture
-13.8485 7.24256 -1.91 0.056

2.76992 1.37209 2.02 0.044 15.96 1.08
Age 1.01354 0.584494 1.73 0.083 2.76 0.88
Predictor Upper
Logit 1: (math/science)
Constant
TeachingMethod
lecture 3.58
Age
2.49
Logit 2: (arts/science)
Constant
TeachingMethod
lecture 234.91
Age 8.66

Log-Likelihood: de las iteraciones de máxima verosimilitud junto con el estadístico G. G es la
diferencia en -2 log-likelihood (-2LL) para un modelo el cual sólo tiene los términos de la constante y
el modelo ajustado indicado en la Tabla de la Regresión logística. G prueba la hipótesis nula que los
coeficientes asociados con los predictores son iguales a cero versus que no todo son cero. G = 12.825
con un valor p de 0.012, indican que para alfa = 0.05, hay evidencia suficiente que al menos uno de
los coeficientes es diferente de cero.

Log-Likelihood = -26.446
Test that all slopes are zero: G = 12.825, DF = 4, P-Value = 0.012

Monografias.com

Prueba de bondad de ajuste: muestra tanto las pruebas de Pearson como deviance. En este
ejemplo para Pearson se tiene un valor P de 0.730, y para la prueba de deviance es 0.640, indicando
que no hay suficiente evidencia para afirmar que el modelo no ajusta los datos adecuadamente. Si el
valor P es menor que el nivel de alfa seleccionado, la prueba rechaza la hipótesis de que el modelo
ajusta los datos adecuadamente.

Goodness-of-Fit Tests
Method
Chi-Square DF P
Pearson 6.95295 10 0.730
Deviance 7.88622 10 0.640

BIBLIOGRAFÍA
?

?

?
Montgomery, Doglas C., Peck, Elizabeth A., Introduction to Linear Regression Analysis, John
Wiley and Sons, 2º edition, Inc., New York, 1992

Chatterjee, Samprit, Price, Bertram, Regression Analysis by Example, John Wiley and Sons,
Inc., 2º edition, 1991

Draper, Norman R., Smith, Harry, Applied Regression Analysis, John Wiley and Sons, Inc.,
New York, 1998

TAREA NO. 1 DE ANALISIS DE REGRESIÓN
Con apoyo de Minitab
11/11/00
PROBLEMA 2.1

Calcular lo siguiente (Y vs X8):

a) La recta de regresión

The regression equation is
Y = 21.8 – 0.00703 X8

b) La tabla ANOVA y prueba de significancia

Analysis of Variance
Source DF SS
MS F P
Regression 1 178.09 178.09 31.10 0.000
Residual Error 26 148.87 5.73
Total 27 326.96
Ftablas=F1,26,0.05=4.23
Nota: Como p = 0 equivale a Fc > F tablas y se rechaza la Ho: Beta1 = 0
quiere decir que existe la recta de regresión

c) El intervalo de confianza al 95%
de la pendiente b1
Predictor Coef StDev
Constant 21.788 2.696
T P
8.08 0.000
X8
-0.007025
0.001260
-5.58
0.000

Monografias.com

El intervalo de confianza para ?1 se calcula como sigue:
t0.025,26 = 2.056
b1 ? t*std dev (Predict.X8) =-0.007025 ? 2.056* (0.00126) =
-0.0096 < = ?1 < = -0.004435;

El iuntervalo de confianza para ?0 es:
b0 ? t*std dev (Constant) =21.788 ? 2.056* (2.696);

d) % de la variabilidad explicada por la
regresión

R-Sq = 54.5%

e) El intervalo de confianza a un 95% para la media
del valor estimado de Y, cuando Xo = 2000 yardas (corresponde a CI).
Predicted Values
Fit StDev Fit 95.0%CI para media 95.0% PI p.valor futuro
7.738 0.473 ( 6.766; 8.710) ( 2.724; 12.752)

f) Probar la hipótesis nula de que el coeficiente de
correlación es cero. Ho: ? = 0
?5.58055
0.738234 26
1?0.545
t0 ?
Ttablas 0.025,26 = 2.056
Cómo to > ttablas, se rechaza Ho. Es decir que ? es diferente de cero.

g) Probar la hipótesis nula de que el coeficiente de
correlación es Ho: ?0 = -0.80
Zo = -0.76006
Z tablas = Z0.025 = 1.96
Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho

h) Encontrar el intervalo de confianza del 95% para ?.
– 0.87134< = ? < = – 0.50396

i) Con Minitab construir las sig. gráficas de residuos
y comentar acerca de la adecuación del modelo
– Gráfica de probabilidad normal
– Gráfica de residuos contra Yi est.

Gráfica de residuos contra Xi8..
Los residuos muestran una variación normal con varianza constante
j) Graficar los residuos contra el porcentaje de juegos
ganados X7i, ¿se mejora el modelo agregando esta
variable?.

No se mejora la distribución de los residuos

The regression equation is
Y = 17.9 – 0.00654 X8 + 0.048 X7
S = 2.432
R-Sq = 54.8%
R-Sq(adj) = 51.1%

Monografias.com

Al agregar la nueva variable X7, el modelo no mejora realmente (comparar R^2)

PROBLEMA 2.2
Si las yardas ganadas se limitan a 1800. Hallar el intervalo de predicción al 90% en el número de
juegos ganados (corresponde a PI).
t(0.05,26) = 1.705616
Alfa = 0.1
Intervalo
8.1238 < = Ymedia < =10.16
4.936< =Ypuntual< =13.35
PROBLEMA 2.3
Calcular lo siguiente:

a) La recta de regresión
The regression equation is
Y1 = 607 – 21.4 X4

b) La tabla ANOVA y prueba de significancia
Analysis of Variance
Source DF SS
Regression 1 10579
Residual Error 27 4103
Total 28 14682
MS F P
10579 69.61 0.000
152
Ftablas=F1,27,.05=4.21
Como Fc=69.61 es mayor que Ftablas=4.21, se rechaza Ho y existe la regresión

c) El intervalo de confianza al 99%
de la pendiente ?1
Predictor Coef StDev T P
Constant 607.10 42.91 14.15 0.000
X4
-21.402
2.565
-8.34
0.000
El intervalo de confianza para ?1 se calcula como sigue:
t0.005,27 = 2.771 7.1076
b1 ? t*std dev (Predict.X4) =-21.402 ? 2.771* (2.565) =
-28.5096 < = ?1 < = -14.2943

d) % de la variabilidad explicada por la
regresión R^2
R-Sq = 72.1%
R-Sq(adj) = 71.0%
e) El intervalo de confianza a un 95% para la media
del valor estimado de Y, cuando Xo = 16.5 (corresponde a CI).
Predicted Values

Fit StDev Fit 95.0% CI para media 95.0% PI p.valor futuro
253.96 2.35 ( 249.15; 258.78) ( 228.21; 279.71)

f) Probar la hipótesis nula de que el coeficiente de
correlación es cero. Ho: ? = 0

Monografias.com

?8.3427
0.84882 27
1?0.7205
t0 ?
Ttablas 0.025,27 = 2.052
Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.

g) Probar la hipótesis nula de que el coeficiente de
correlación es ?0 = – 0.80.
Zo = 0.78172
Z tablas = Z0.025 = 1.96
Cómo Zo < |Ztablas| no hay evidencia suficiente para rechazar Ho

h) Encontrar el intervalo de confianza del 95% para ?.
– 0.927 < = ? < = – 0.7

i) Con Minitab construir las sig. gráficas de residuos
y comentar acerca de la adecuación del modelo
– Gráfica de probabilidad normal
– Gráfica de residuos contra Yi est.
– Gráfica de residuos contra Xi4.

Unusual Observations
Obs X4 Y1 Fit StDev Fit Residual St Resid
22 17.6 254.50 229.99 3.28 24.51 2.06R
24 19.1 181.50 199.39 6.44
25 16.5 227.50 253.75 2.34
-17.89
-26.25
-1.70 X
-2.17R
R denotes an observation with a large standardized residual
X denotes an observation whose X value gives it large influence.

Los residuos no muestran una distribución aleatoria

PROBLEMA 2.7
a) Ecuación de regresión
The regression equation is
Y78 = 77.9 + 11.8 X78

b) Probar la hipótesis nula de que Ho: ?1 = 0

Analysis of Variance
Source DF SS
Regressio 1 148.31
Residual 18 232.83
error
Total 19 381.15
MS F P
148.31 11.47 0.003
12.94

Ftablas = F0.05,1,18=4.41
Cómo Fc > F tablas se rechaza la hipótesis Ho, implicando ?1 ? 0

c) Calcular R^2

R-Sq = 38.9%

d) Encontrar el intervalo de confianza al 95% para la pendiente:
Predictor
Coef
StDev
T
P

Monografias.com

Constant
X78
77.863
11.801
4.199
3.485
18.54 0.000
3.39 0.003
t0.025,18 = 2.101
b1 ? t*std dev (Predict.X78) =11.801 ? 2.101* (3.485) =
4.47699 < = ?1 < = 19.12301

e) Encontrar el intervalo de confianza para la pureza media si el % de hidrocarbono es de 1.00

Predicted Values

Fit StDev Fit 95.0% CI p. la media 95.0% PI p. valor futuro
89.664 1.025 ( 87.510; 91.818) ( 81.807; 97.521)

PROBLEMA 2.8
a) ¿Cuál es la correlación entre las dos variables?

R-Sq = 38.9% entonces r = 0.6237

b) Probar la Hipótesis nula Ho: ? = 0
?3.38527
0.6237 18
1?0.389
t0 ?
Ttablas 0.025,18 = 2.101
Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.

c) Contruir un intervalo de confianza del 95% para ?.

0.25139 < = ? < = 0.8356

PROBLEMA 2.9
a) Ecuación de regresión

The regression equation is
Y9 = – 6.33 + 9.21 X9

b) Probar la significancia de la regresión

Analysis of Variance
0.000
Source DF SS
Regressi 1 280590
Residual 10 38
MS F P
280590 74122.78
4
error
Total 11 280627

Como el valor de p es cero, se rechaza la hipótesis Ho: ?1 = 0, por tanto existe la regresión.

c) Si se incrementa la temperatura ambiente promedio en un grado, el consumo de vapor se
incrementa en 10 unidades. ¿se soporta esta afirmación?.

Column Mean
Mean of X9 = 46.500; se incrementa en un grado

Monografias.com

S(?) ???i2 ??'? ? (Y ? X?)'(Y ? X?)
Predicted Values

Fit StDev Fit 95.0% CI 95.0% PI
421.862 0.562 ( 420.610; 423.113) ( 417.350; 426.374)
431.070 0.563 ( 429.816; 432.324) ( 426.557; 435.583)

Por los resultados observados se cumple la afirmación

d) Intervalo de predicción con un 99% de nivel de confianza para Xo = 58.

Predicted Values

Fit StDev Fit 99.0% CI 99.0% PI
527.759 0.683 ( 525.593; 529.925) ( 521.220; 534.298)

PROBLEMA 2.10
a) Encontrar el coeficiente de correlación r

R-Sq = 100.0% por tanto r = 1

b ) Probar la Hipótesis nula Ho: ? = 0
? 272.25
0.999 10
1?0.999
t0 ?
Ttablas 0.005,10 = 1.812
(3.1)

(3.2)
Cómo to > Ttablas, se rechaza Ho. Es decir que ? es diferente de cero.

c) Contruir un intervalo de confianza del 95% para ?.

0.99 < = ? < = 0.999

FÓRMULAS DE REGRESIÓN LINEAL MÚLTIPLE
Modelos de Regresión Múltiple

Asumiendo que N observaciones de la respuesta se tiene:
Yu ? ?0 ??1Xu1 ??2Xu2 ?…….??kXuk ??u

Para N observaciones el modelo en forma matricial es:

Y = X ? + ? = [1 : D] ? + ?

k es el número de variables independientes o regresores
Y es un vector N x 1.
X es una matriz de orden N x (k + 1), donde la primera columna es de 1’s.
? es un vector de orden (k + 1) x 1.
? es un vector de orden N x 1.
D es la matriz de Xij con i = 1, 2, …, N; j = 1, 2, ……, k

Se trata de encontrar el vector de estimadores de mínimos cuadrados b que minimicen:
n

i?1
quedando
X’X b = X’ Y
(3.4)

Monografias.com

b = (X’X)
X’Y
Var(b) = C = (X’X) ?
La covarianza del elemento bi y bj de b esCovar(cij) ? cij? .
SST ??(Yu ?Y)2
(3.5)
A) VECTOR DE ESTIMADORES DE MINIMOS CUADRADOS b de ?
-1

B) VARIANZAS Y COVARIANZAS DE b
-1
2
(3.6)
El elemento (ii) de esta matriz cii? 2 ?Var(bi) es la varianza del elemento bi .
El error estándar de bi es la raíz cuadrada positiva de la varianza de bi o sea:
se.bi ? cii? 2
(3.7)
2
(3.8)
La desviación estándar se estima como sigue:
n

i?1
SSE ?(Y ? Xb)'(Y ? Xb) ?Y'Y ?b'X'Y ?Y'Xb?b'X'Xb ?Y'Y ?2b'X'Y ?b'X'Xb
SSE
N ? p
s2 ? MSE ?
(3.15)
C) INTERVALO DE CONFIANZA PARA LOS COEFICIENTES ?j
Con intervalo de confianza 100(1 – ? )% , para j = 0, 1, …., k es:

bj ?t? /2,n?pse(bj) ? ? j ? bj ?t? /2,n?pse(b j)

Donde se(bj) es el error estándar del coeficiente de regresión bj.
se(bj) ? S 2C jj
(3.17)

(3.18)
Siendo Cjj el j-ésimo elemento de la matriz (X’X
)-1
.
ˆ ˆ
D) INTERVALO DE CONFIANZA PARA LA RESPUESTA MEDIA Yo en Xo
El intervalo de confianza para el 100( 1 – ? ) % es:
Y0 ?t? /2,n?p S 2X'0 (X'X)?1X0 ?Y0 ?Y0 ?t? /2,n?p S 2X'0 (X'X)?1X 0
(3.21)
?1,2,…,k
E) TABLA ANOVA PARA LA REGRESIÓN
H0 :?1 ? ?2 ?….? ?k ?0; Ha :??i ?0,i
Ho se rechazará si Ft >= Fo

Fuente de
MS
MSR
MSE
F0 .
MSR/MSE
Ft=F?,p-1,N-p
variación
Regresión
Residuos
Total
SS
SSR
SSE
SST=SSR+SSE
df
k= p-1
n–k–1= N-p
n – 1=k+(n-k+1)
Donde:
N __

u?1
con N-1 grados de libertad
(3.24)

Monografias.com

^
SSR ??(Y(xu)?Y)2 con p (parámetros) – 1 grados de libertad
^
SSE ??(Yu ?Y(xu))2 con (N-1) – (p –1) grados de libertad
SSR ? b'X'Y ?
(3.25)

(3.26)
N __

u?1

N

u?1

En forma matricial se tiene:
(1'Y)2
N
SST ?Y'Y ?
(3.27)
(3.28)
(1'Y)2
N
SSE ?Y'Y ?b'X'Y
F) PRUEBA DE LA SIGNIFICANCIA DE LOS COEFICIENTES INDIVIDUALES BETAx
H0 : ? j ? 0 H1 : ? j ? 0
Si no se rechaza Ho quiere decir que el regresor Xj puede ser excluido del modelo,
Ho es rechazada si
t0 ? t? /2,n?k?1, donde:
bj
se(bj)
t0 ?
ˆ ˆ
G) INTERVALO DE PREDICCIÓN PARA LA RESPUESTA Yo en Xo
El intervalo de confianza para el 100( 1 – ? ) % es:
Y0 ?t? /2,n?p S 2(1? X'0 (X'X)?1X0) ?Y0 ?Y0 ?t? /2,n?p S 2(1? X'0 (X'X)?1X 0)

FORMULAS

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Monografias.com

Bibliografía
[1]
[2]
[3]
[4]
A. Agresti (1984). Analysis of Ordinal Categorical Data. John Wiley & Sons, Inc.
A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
D.A. Belsley, E. Kuh, and R.E. Welsch (1980). Regression Diagnostics. John Wiley & Sons, Inc.
A. Bhargava (1989). "Missing Observations and the Use of the Durbin-Watson Statistic,"
Biometrik, 76, 828 831.
[5]
C.C. Brown (1982). "On a Goodness of Fit Test for the Logistic Model Based on Score Statistics,"
Communications in Statistics, 11, 1087 1105.
[6]
D.A. Burn and T.A. Ryan, Jr. (1983). "A Diagnostic Test for Lack of Fit in Regression Models,"
ASA 1983 Proceedings of the Statistical Computing Section, 286 290.
[7]
R.D. Cook (1977). "Detection of Influential Observations in Linear Regression," Technometrics,
19, 15 18.
[8]
[9]
R.D. Cook and S. Weisberg (1982). Residuals and Influence in Regression. Chapman and Hall.
N.R. Draper and H. Smith (1981). Applied Regression Analysis, Second Edition. John Wiley &
Sons, Inc.
[10]
[11]
S.E. Fienberg (1987). The Analysis of Cross-Classified Categorical Data. The MIT Press.
I.E. Frank and J.H. Friedman (1993). "A Statistical View of Some Chemometrics Regression
Tool," Technometrics, 35, 109 135.
[12]
I.E. Frank and B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from
Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta,
162, 241 251.
[13]
M.J. Garside (1971). "Some Computational Procedures for the Best Subset Problem," Applied
Statistics, 20, 8 15.
[14]
P. Geladi and B. Kowalski (1986). "Partial Least-Squares Regression: A Tutorial," Analytica
Chimica Acta, 185, 1 17.
[15]
P. Geladi and B. Kowalski (1986). "An Example of 2-Block Predictive Partial Least-Squares
Regression with Simulated Data," Analytica Chimica Acta, 185, 19-32.
[16]
James H. Goodnight (1979). "A Tutorial on the Sweep Operator," The American Statistician, 33,
149 158.
[17]
W.W. Hauck and A. Donner (1977). "Wald's test as applied to hypotheses in logit analysis,"
Journal of the American Statistical Association, 72, 851-853.
[18]
D.C. Hoaglin and R.E. Welsch (1978). "The Hat Matrix in Regression and ANOVA," The
American Statistician, 32, 17 22.
[19]
R.R. Hocking (1976). "A Biometrics Invited Paper: The Analysis and Selection of Variables in
Linear Regression," Biometrics, 32, 1 49.
[20]
[21]
A. Hoskuldsson (1988). "PLS Regression Methods," Journal of Chemometrics, 2, 211 228.
D.W. Hosmer and S. Lemeshow (2000). Applied Logistic Regression. 2nd ed. John Wiley &
Sons, Inc.
[22]
LINPACK (1979). Linpack User's Guide by J.J. Dongarra, J.R. Bunch, C.B. Moler, and G.W.
Stewart, Society for Industrial and Applied Mathematics, Philadelphia, PA.
[23]
A. Lorber, L. Wangen, and B. Kowalski (1987). "A Theoretical Foundation for the PLS
Algorithm," Journal of Chemometrics, 1, 19 31.
[24]
[25]
[26]
J.H. Maindonald (1984). Statistical Computation. John Wiley & Sons, Inc.
P. McCullagh and J.A. Nelder (1992). Generalized Linear Model. Chapman & Hall.
W. Miller (1978). "Performing Armchair Roundoff Analysis of Statistical Algorithms,"
Communications in Statistics, 243 255.
[27]
D.C. Montgomery and E.A. Peck (1982). Introduction to Linear Regression Analysis. John Wiley
& Sons.
[28]
J. Neter, W. Wasserman, and M. Kutner (1985). Applied Linear Statistical Models. Richard D.
Irwin, Inc.
[29]
S.J. Press and S. Wilson (1978). "Choosing Between Logistic Regression and Discriminant
Analysis," Journal of the American Statistical Association, 73, 699-705.
[30]
M. Schatzoff, R. Tsao, and S. Fienberg (1968). "Efficient Calculation of All Possible
Regressions," Technometrics, 10, 769 779.
[31]
G.W. Stewart (1973). Introduction to Matrix Computations. Academic Press.

Monografias.com

[32]
Hall.
[33]
R.A. Thisted (1988). Elements of Statistical Computing: Numerical Computation. Chapman &

P. Velleman and R. Welsch (1981). "Efficient Computation of Regression Diagnostics," The
American Statistician, 35, 234 242.
[34]
P.F. Velleman, J. Seaman, and I.E. Allen (1977). "Evaluating Package Regression Routines,"
ASA 1977 Proceedings of the Statistical Computing Section.
[35]
[36]
S. Weisberg (1980). Applied Linear Regression. John Wiley & Sons, Inc.
H. Wold (1975). "Soft Modeling by Latent Variables; the Nonlinear Iterative Partial Least Squares
Approach," in Perspectives in Probability and Statistics, Papers in Honour of M.S. Bartlett, ed. J. Gani,
Academic Press.

Partes: 1, 2, 3
 Página anterior Volver al principio del trabajoPágina siguiente 

Nota al lector: es posible que esta página no contenga todos los componentes del trabajo original (pies de página, avanzadas formulas matemáticas, esquemas o tablas complejas, etc.). Recuerde que para ver el trabajo en su versión original completa, puede descargarlo desde el menú superior.

Todos los documentos disponibles en este sitio expresan los puntos de vista de sus respectivos autores y no de Monografias.com. El objetivo de Monografias.com es poner el conocimiento a disposición de toda su comunidad. Queda bajo la responsabilidad de cada lector el eventual uso que se le de a esta información. Asimismo, es obligatoria la cita del autor del contenido y de Monografias.com como fuentes de información.

Categorias
Newsletter