MÀSTER DE LOGÍSTICA TRANSPORT I MOBILITAT (UPC) CURS 0708

DIPLOMATURA D’ESTADÍSTICA

MÀSTER DE LOGÍSTICA, TRANSPORT I MOBILITAT (UPC).

CURS 07-08 Q1 – EXAMEN FINAL ORDINARI

Mètodes de Captació, Anàlisi y Interpretació de Dades .

(Data: 17/1/2008 16:00-19:00 h Lloc: Aula H-9.2 CS)

Nom de l’alumne:

Professor responsable: Lídia Montero Mercadé

Localització: Edifici C5 D217 – Campus Nord

Normativa: NO ES PERMÉS DE DUR LOS APUNTS PUBLICATS

SI TAULES ESTADÍSTIQUES

ES POT DUR CALCULADORA y FORMULARI OFICIAL

Durada de l’examen: 3h 00 min

Sortida de notes: Abans 21/1/2008 al WEB de l’assignatura.

Revisió: El 21/1/2008 a las 15:00 hores (C5-217 Campus Nord).

Puntuació sobre 20 – 1 Punt per Apartat

DASL, Data and Story Library del Carnegie Mellon, dispone para un conjunto de 23 países de datos relativos a su tasa de inflación anual, dos indicadores de la independencia del banco central (un indicador basado en cuestionario y otro no) y un indicador de si el país está en vías de desarrollo o es un país desarrollado. Los datos originales y su descripción exhaustiva se encuentran en la URL http://lib.stat.cmu.edu/DASL/Stories/inflation.html . Las variables son:

país
cbi: central bank independence questionnaire index.
inf: tasa de inflación anual (var.respuesta).
legal: central bank independence legal index.
desenv: indicador de si el país es desarrollado (1-Si, 0-No (Ref.))

pais cbi inf legal desenv

23 Ethiopia 1.3 4 4.0 0

22 Yugoslavia 1.7 73 1.7 0

21 Peru 2.2 108 4.3 0

20 Tanzania 3.8 27 4.4 0

19 Turkey 4.4 41 4.6 0

17 Uruguay 4.9 45 2.4 0

16 Uganda 5.3 72 3.8 0

15 Barbados 5.4 7 3.8 0

13 Lebanon 5.9 NA 4.0 0

12 Zaire 6.1 45 4.3 0

7 Bahamas 7.1 6 4.1 0

2 CostaRica 8.1 23 4.7 0

18 Belgium 4.7 5 1.7 1

14 Ireland 5.7 9 4.4 1

10 UKingdom 6.4 7 2.7 1

11 SAfrica 6.4 14 2.5 1

9 France 6.5 7 2.4 1

8 Luxemberg 6.6 5 3.3 1

5 Italy 7.3 11 2.5 1

6 Denmark 7.3 7 5.0 1

4 Australia 7.6 8 3.6 1

3 Finland 7.8 7 2.8 1

1 Germany 10.0 3 6.9 1

Referència

A. Cukierman, S.B. Webb, and B. Negapi, "Measuring the Independence of Central Banks and Its Effect on Policy Outcomes," World Bank Economic Review, Vol. 6 No. 3 (Sept 1992), 353-398.

El diagrama bivariante de la tasa de inflación vs la variable cbi, donde se usan diferentes símbolos para países desarrollados y en vías de desarrollado se muestra a continuación. Valorar la relación entre la tasa de inflación y la variable cbi.

MÀSTER DE LOGÍSTICA TRANSPORT I MOBILITAT (UPC) CURS 0708

Fijaros en el punto del extremo inferior izquierdo Podríais identificarlo.

A la vista del diagrama bivariante que acompaña la pregunta 1, pensaís que la inflación se relaciona de la misma manera con la variable cbi en paises desarrollados y no desarrollados? Justificar la respuesta. Pensemos en el coeficiente de correlación lineal entre la inflación y el índice cbi para paises en vías de desarrollo: ¿cual es el signo que debería tener y aproximadamente qué magnitud? Pensemos en el coeficiente de correlación lineal entre la inflación y el índice cbi para paises en desarrollados: ¿cual es el valor que le suponeis?

Los resultados del paquete R que seguen a continuación muestran una regresión lineal con variable de respuesta la inflación (inf) y con la variable explicativa dummy que modeliza el grado de desarrollo del país en la reparametrización base-line de los paises no desarrollados. Interpretad los coeficientes. El nivel de desarrollo es estadísticamente significativo? Valorad el contraste por varianza incremental que figura en los resultados.

> options(contrasts=c("contr.treatment","contr.treatment"))

> infla.w2 <- lm(inf ~ fdes, data=infla)

> summary(infla.w2)

Call:

lm(formula = inf ~ fdes, data = infla)

Residuals:

Min 1Q Median 3Q Max

-37.0000 -4.0455 -0.5455 3.8636 67.0000

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 41.000 7.028 5.834 1.05e-05 ***

fdesDesenvolupat -33.455 9.939 -3.366 0.00307 **

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 23.31 on 20 degrees of freedom

Multiple R-Squared: 0.3616, Adjusted R-squared: 0.3297

> anova(infla.w0,infla.w2,test="F")

Analysis of Variance Table

Modelo 1: inf ~ 1

Modelo 2: inf ~ fdes

Res.Df RSS Df Sum of Sq F Pr(>F)

1 21 17022.4

2 20 10866.7 1 6155.6 11.329 0.003074 **

---

El modelo lineal general con la variable explicativa numèrica cbi y el factor dicotòmico, indicatibo de país desenvolupat o en vies de desarrollo con la reparametrización base-line, se muestra a continuación. Interpretad el modelo y comentad los resultados. Sobreponed las rectas ajustadas al diagrama bivariante del punto 1.

> infla.w3 <- lm(inf ~ fdes + cbi , data=infla)

> summary(infla.w3)

Call:

lm(formula = inf ~ fdes + cbi, data = infla)

…

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 60.437 14.414 4.193 0.000493 ***

fdesDesenvolupat -23.408 11.650 -2.009 0.058936 .

cbi -4.251 2.779 -1.530 0.142576

Residual standard error: 22.57 on 19 degrees of freedom

Multiple R-Squared: 0.4316, Adjusted R-squared: 0.3718

F-statistic: 7.214 on 2 and 19 DF, p-value: 0.004667

Se repite el análisis del punto 5 omitiendo la observación 23. Comentad las diferencias detectadas. Sobreponed las rectas ajustadas al diagrama bivariante del punto 1.

> # Preg. 6 Repetir 5 però sense obs.23

> infla$filtre[ which(infla$pais=="Ethiopia") ] <- FALSE

> infla.w2s <- lm(inf ~ fdes, subset=filtre, data=infla)

> summary(infla.w2s)

Call:

lm(formula = inf ~ fdes, data = infla, subset = filtre)

Residuals:

Min 1Q Median 3Q Max

-38.7000 -3.7000 -0.5455 1.4545 63.3000

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 44.700 7.019 6.368 4.14e-06 ***

fdesDesenvolupat -37.155 9.698 -3.831 0.00113 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 22.2 on 19 degrees of freedom

Multiple R-Squared: 0.4358, Adjusted R-squared: 0.4061

F-statistic: 14.68 on 1 and 19 DF, p-value: 0.001127

> infla.w3s <- lm(inf ~ fdes + cbi,na.action = na.exclude, subset=filtre, data=infla)

> summary(infla.w3s)

Call:

lm(formula = inf ~ fdes + cbi, data = infla, subset = filtre,

na.action = na.exclude)

Residuals:

Min 1Q Median 3Q Max

-33.883 -7.517 2.231 6.048 42.687

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 82.108 13.684 6.000 1.13e-05 ***

fdesDesenvolupat -21.608 9.601 -2.251 0.03715 *

cbi -7.634 2.523 -3.026 0.00726 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 18.57 on 18 degrees of freedom

Multiple R-Squared: 0.6261, Adjusted R-squared: 0.5845

F-statistic: 15.07 on 2 and 18 DF, p-value: 0.0001429

> anova(infla.w2s,infla.w3s,test="F")

Analysis of Variance Table

Model 1: inf ~ fdes

Model 2: inf ~ fdes + cbi

Res.Df RSS Df Sum of Sq F Pr(>F)

1 19 9360.8

2 18 6203.9 1 3156.9 9.1596 0.007255 **

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

A la vista del contraste formal llistado a continuación, pensaís que el efecto de la variable cbi es diferente en paises desarrollados y en vias de desarrollo con y sin la obs.23 . Comentad comparativamente los resultados y detallad el mejor modelo ANCOVA con y sin la observación 23.

> # Preg. 7 : Interaccions factor - covariable Con /Sin obs 23

> options(contrasts=c("contr.treatment","contr.treatment"))

> infla$filtre <- rep(TRUE,length(infla$desenv))

> infla.w4 <- lm(inf ~ fdes * cbi ,subset=filtre, data=infla)

> summary(infla.w4)

Call:

lm(formula = inf ~ fdes * cbi, data = infla, subset = filtre)

Residuals:

Min 1Q Median 3Q Max

-55.4624 -2.7296 -0.1682 5.3042 53.6147

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 66.796 16.573 4.030 0.000785 ***

fdesDesenvolupat -54.986 41.115 -1.337 0.197755

cbi -5.641 3.298 -1.710 0.104394

fdesDesenvolupat:cbi 5.026 6.271 0.802 0.433269

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 22.78 on 18 degrees of freedom

Multiple R-Squared: 0.4512, Adjusted R-squared: 0.3597

F-statistic: 4.933 on 3 and 18 DF, p-value: 0.01131

> infla$filtre[ 23 ] <- FALSE

> infla.w4s <- lm(inf ~ fdes * cbi , subset=filtre, data=infla)

> summary(infla.w4s)

Call:

lm(formula = inf ~ fdes * cbi, data = infla, subset = filtre)

Residuals:

Min 1Q Median 3Q Max

-32.1001 -3.9205 -0.3219 3.6781 33.0603

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 99.579 14.804 6.727 3.55e-06 ***

fdesDesenvolupat -87.769 31.577 -2.780 0.01285 *

cbi -11.200 2.818 -3.975 0.00098 ***

fdesDesenvolupat:cbi 10.585 4.855 2.180 0.04358 *

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 16.89 on 17 degrees of freedom

Multiple R-Squared: 0.7078, Adjusted R-squared: 0.6562

F-statistic: 13.73 on 3 and 17 DF, p-value: 8.474e-05

> # Falten els contrastos

> anova(infla.w3,infla.w4,test="F")

Analysis of Variance Table

Modelo 1: inf ~ fdes + cbi

Modelo 2: inf ~ fdes * cbi

Res.Df RSS Df Sum of Sq F Pr(>F)

1 19 9675.2

2 18 9341.8 1 333.4 0.6425 0.4333

> anova(infla.w3s,infla.w4s,test="F")

Analysis of Variance Table

Modelo 1: inf ~ fdes + cbi

Modelo 2: inf ~ fdes * cbi

Res.Df RSS Df Sum of Sq F Pr(>F)

1 18 6203.9

2 17 4848.2 1 1355.7 4.7536 0.04358 *

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

En los siguientes apardos se ha aplicado la transformación logarítmica de la variable de respuesta: le llamaremos log.inf y serà usada como variable de respuesta en los siguientes apartados.

Comentad el diagrama bivariante del logaritmo de la tasa de inflación vs la variable cbi, usando diferentes símbolos para paises desarrollados y en vias de desarrollo. Fijaros en el punto del extremo inferior izquierdo.

MÀSTER DE LOGÍSTICA TRANSPORT I MOBILITAT (UPC) CURS 0708

Los resultados muestran un modelo lineal con la variable explicativa cbi y la variable dummy que modeliza el grado de desarrollo del país en base-line de paises no desarrollados. Interpretad el modelo para los 2 tipos de país y justificad si la relación entre el logaritmo de la inflación y el cbi es el mismo para paises desarrollados y no desarrollados.

> infla$filtre[ which(infla$pais=="Lebanon") ] <- FALSE

> infla.lw0 <- lm(log(inf) ~ 1 , subset=filtre, data=infla)

> infla.lw0

Call:

lm(formula = log(inf) ~ 1, data = infla, subset = filtre)

Coefficients:

(Intercept)

2.616

> options(contrasts=c("contr.treatment","contr.treatment"))

> infla.lw2 <- lm(log(inf) ~ fdes , subset=filtre, data=infla)

> summary(infla.lw2)

Call:

lm(formula = log(inf) ~ fdes, data = infla, subset = filtre)

Residuals:

Min 1Q Median 3Q Max

-1.898383 -0.290314 0.005137 0.504264 1.397454

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.2847 0.2526 13.005 3.24e-11 ***

fdesDesenvolupat -1.3379 0.3572 -3.746 0.00127 **

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.8377 on 20 degrees of freedom

Multiple R-Squared: 0.4123, Adjusted R-squared: 0.3829

F-statistic: 14.03 on 1 and 20 DF, p-value: 0.001275

> summary(infla.lw3)

Call:

lm(formula = log(inf) ~ fdes + cbi, data = infla, subset = filtre)

Residuals:

Min 1Q Median 3Q Max

-2.1938 -0.2904 0.1080 0.5346 1.1833

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 3.69737 0.53836 6.868 1.49e-06 ***

fdesDesenvolupat -1.12456 0.43514 -2.584 0.0182 *

cbi -0.09025 0.10379 -0.870 0.3954

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.8429 on 19 degrees of freedom

Multiple R-Squared: 0.4348, Adjusted R-squared: 0.3753

F-statistic: 7.307 on 2 and 19 DF, p-value: 0.004428

> anova(infla.lw2,infla.lw3,test="F")

Analysis of Variance Table

Modelo 1: log(inf) ~ fdes

Modelo 2: log(inf) ~ fdes + cbi

Res.Df RSS Df Sum of Sq F Pr(>F)

1 20 14.0348

2 19 13.4976 1 0.5372 0.7561 0.3954

Se han calculado los factores de anclaje de uno de los modelos que aparecen en el apartado 9. ¿Cuál es el umbral màximo a partir del cual una observación se denomina influente a priori con el juego de datos completo actual ? Comentad brevemente los 4 paises con factor d’anclaje elevado. ¿Por qué pensaís que Costa Roca encabeza la lista?

> # Con obs 23.

> par(mfrow=c(1,1))

> hatvalues(infla.lw3)

23 22 21 20 19 17 16

0.25332284 0.21604788 0.17627782 0.09996341 0.09136149 0.09253323 0.09892952

15 12 7 2 18 14 10

0.10128678 0.12627920 0.18776082 0.27956970 0.16674729 0.11408814 0.09527145

11 9 8 5 6 4 3

0.09527145 0.09379645 0.09262471 0.09291420 0.09291420 0.09758735 0.10221915

0.23323291

Se han calculado los residuos estudentizados de uno de los modelos que aparecen en el apartado 9 y se ha dibujado el diagrama bivariante con ordenadas los residuos y en abscisas los factores de anclaje. Comentd los resultados. ¿Pensaís que alguno de los paises es un outlier?

MÀSTER DE LOGÍSTICA TRANSPORT I MOBILITAT (UPC) CURS 0708

Calculad el umbral de Chatterjee-Hadi para las distancias de Cook de las observaciones del modelo lw3. Indicad a la vista de la lista de paises que superan este umbral, si hay alguna observación influyente a posteriori. ¿Por qué pensaís que Etiopia es más influyente que Alemania?

> infla$filtre <- rep(TRUE,length(infla$desenv))

> infla$filtre[ which(infla$pais=="Lebanon") ] <- FALSE

> cooks.distance(infla.lw3)

23 22 21 20 19 17

1.026026e+00 9.192219e-02 1.706901e-01 1.987009e-04 8.869490e-03 1.603751e-02

16 15 12 7 2 18

6.395104e-02 9.402657e-02 3.379231e-02 2.136355e-01 7.232298e-03 3.276188e-02

14 10 11 9 8 5

1.314909e-03 1.326995e-04 2.263997e-02 8.690069e-05 7.137556e-03 1.240809e-02

6 4 3 1

5.403322e-05 2.084505e-03 3.533630e-04 6.083442e-02

MÀSTER DE LOGÍSTICA TRANSPORT I MOBILITAT (UPC) CURS 0708

Ahora cambiando de anàlisis se quiere determinar si es posible clasificar los paises desarrollados y no desarrollados en función de la su tasa de inflación anual (infl) y del index cbi, la variable de respuesta dicotòmica serà si el país es o no desarollado (desenv). Se ensayan modelos de respuesta binaria con enlacee logit. Calculad manualmente el modelo nulo. ¿ Cual es el estimador de la constante?
Cuál es el AIC del modelo?

> options(contrasts=c("contr.treatment","contr.treatment"))

> fla.w0 <- glm(desenv ~ 1, family=binomial, data=fla)

> summary(fla.w0)

Call:

glm(formula = desenv ~ 1, family = binomial, data = fla)

Deviance Residuals:

Min 1Q Median 3Q Max

-1.141 -1.141 -1.141 1.215 1.215

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -0.08701 0.41742 -0.208 0.835

(Dispersion parameter for binomial family taken to be 1)

> logLik(fla.w0)

'log Lik.' -15.92064

A la vista de los resultados de los siguientes modelos, seleccionad el mejor modelo justificando estadísticamente la respuesta.
Interpretad la/s variable/s explicativa/s del mejor modelo en la escala logit.
Interpretad la/s variable/s explicativa/s del mejor modelo en la escala de los odds.
Interpretad la/s variable/s explicativa/s del mejor modelo en la escala de las probabilidades.
Calculad el coeficiente de determinación generalizado del mejor modelo.
Determinad cual es la probabilidad de ser un país desarrollado aquel que muestra un valor de cbi de 6 y una tasa anual de inflación del 10%, según el mejor modelo.

> fla.w1 <- glm(desenv ~ cbi, family=binomial, data=fla)

> summary(fla.w1)

Call:

glm(formula = desenv ~ cbi, family = binomial, data = fla)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -5.3550 2.6117 -2.050 0.0403 *

cbi 0.8843 0.4182 2.115 0.0344 *

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 31.841 on 22 degrees of freedom

Residual deviance: 23.160 on 21 degrees of freedom

AIC: 27.160

Number of Fisher Scoring iterations: 5

> fla.w2 <- glm(desenv ~ inf, family=binomial, data=fla)

> summary(fla.w2)

Call:

glm(formula = desenv ~ inf, family = binomial, data = fla)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 2.27892 1.03169 2.209 0.0272 *

inf -0.15361 0.08523 -1.802 0.0715 .

---

Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 30.498 on 21 degrees of freedom

Residual deviance: 17.272 on 20 degrees of freedom

(1 observation deleted due to missingness)

AIC: 21.272

Number of Fisher Scoring iterations: 7

> fla.w3 <- glm(desenv ~ cbi + inf,family=binomial, data=fla)

> summary(fla.w3)

Call:

glm(formula = desenv ~ cbi + inf, family = binomial, data = fla)

Coefficients:

Estimate Std. Error z value Pr(>|z|)

(Intercept) -1.8164 2.7219 -0.667 0.505

cbi 0.7698 0.5010 1.536 0.124

inf -0.2217 0.1442 -1.537 0.124

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 30.498 on 21 degrees of freedom

Residual deviance: 13.368 on 19 degrees of freedom

(1 observation deleted due to missingness)

AIC: 19.368

Number of Fisher Scoring iterations: 8

Tags: transport, (upc), màster, logística, mobilitat