1 INTRODUCTION

1.1 Packages

Voici les packages que nous utiliserons dans cette conférence. Si vous ne vous souvenez pas comment les installer, vous pouvez consulter le code.

1.2 Ce qu’il faut maîtriser à la fin de la séance

  • Que sont les scores de propension (Propensity Scores) ?

  • Comment calculer les scores de propension?

  • Quelles stratégies pouvez-vous utiliser pour appareiller les observations? Quels sont les avantages et les inconvénients?

  • Quelles sont les limites de l’utilisation des scores de propension?

1.3 L’idée principale de la méthode

Nous avons appris que les essais contrôlés randomisés sont considéré dans l’approche standard comme l’“étalon or” pour évaluer l’efficacité d’un programme ou d’une politique publique. Pourtant, dans de très nombreux cas en sciences sociales, un essai contrôlé n’est pas une option réalisable et/ou, lorsque cette méthode est appliquée, fait l’objet de limites réelles et sérieuses affectant la validité externe (très souvent) mais aussi interne d’une telle évaluation. Face à la tension entre la force théorique des RCT et leur impossibilité en sciences sociales, nous devons considérer d’autres méthodes, telles que les méthodologies quasi-expérimentales. L’appariement des scores de propension (Propensity Score Matching, PSM) est une autre méthodologie qui tente de reproduire une piste contrôlée randomisée à partir de données d’observation.

Dans plusieurs circonstances, les individus choisissent eux-mêmes le traitement ou le groupe témoin en raison de «certaines caractéristiques» qui les rendent plus susceptibles de choisir dans un groupe ou dans l’autre. Par exemple, nous pourrions être intéressés à comprendre si le financement gouvernemental accordé aux petites entreprises pour embaucher des personnes issues de populations défavorisées est réellement efficace. Si nous considérons seulement les entreprises qui ont demandé et reçu le financement, nous pourrions estimer une corrélation positive… Mais dans quelle mesure ces entreprises prévoyaient-elles déjà d’embaucher des personnes issues de populations défavorisées? Qu’auraient fait ces entreprises si elles n’avaient pas reçu de financement? Autrement dit, dans les suivis non-randomisés, nous avons des biais d’auto-sélection (selection bias, c.f. séance 8 !) et nous pourrions manquer d’un contrefactuel approprié.

L’idée clé derrière les scores de propension est de trouver des individus qui sont similaires sur la base d’un ensemble donné de caractéristiques mais qui se sont repartis (“auto-sélectionnés”) dans le traitement et le groupe témoin. En d’autres termes, nous recherchons deux (ou plusieurs) entreprises similaires, dont l’une a demandé et reçu un financement (traitement), une autre qui n’a pas demandé de financement (contrôle ou contrefactuel). Nous pouvons ensuite comparer leurs résultats.

Finalement, nous recherchons des “sosies” comme ceux de l’image ci-dessous: deux individus qui semblent identiques même s’ils ne sont pas génétiquement apparentés !

Sosie

Figure 1.1: Sosie

2 EXEMPLE

2.1 Contexte

Imaginez que vous avez 10 étudiants. Certains de ces élèves participent à un programme après l’école visant à accroître la cohésion sociale et l’interaction entre les élèves ; certains autres étudiants décident de ne pas participer. Nous voulons estimer l’effet du programme sur le comportement social des étudiants. Le comportement social est mesuré sur un indice de 0 à 7 (“social behavior index”).

2.2 Problème

Nous ne pouvons pas simplement comparer les deux groupes. Par exemple, les étudiants qui ont déjà de nombreux amis pourraient être plus susceptibles de décider de participer au programme (pro-social behavior). Par conséquent, ils rapporteraient de plus grandes habilités sociales avec ou sans le programme.

Nous voulons trouver des paires d’étudiants qui ont le même nombre d’amis mais où un étudiant s’est inscrit au programme et l’autre pas. Nous pourrions commencer par créer un graphique représentant le nombre d’amis de chaque élève et leur indice de comportement social.

Certains étudiants correspondent parfaitement entre eux car ils ont le même nombre d’amis. Toutefois, d’autres ne “match” à aucune obsevation et nous pouvons décider de les éliminer afin de ne comparer que les individus comparables. De cette manière, nous avons des “correspondances” parfaites concernant le nombre d’amis (covariable), répartis (auto-sélectionnés) dans le groupe de traitement (ayant participé au programme) ou le groupe de contrôle (n’ayant pas particpé).

En d’autres termes, nous avons créé un groupe d’individus qui subissent le traitement et leurs contrefactuels afin que nous puissions estimer l’efficacité du traitement à partir d’individus parfaitement comparables, au moins à propos de cette covariable.

Nous pouvons désormais utiliser un simple test T (appareillé) pour calculer la différence entre le groupe de traitement et le contrefactuel (groupe de contrôle), dans la mesure où ils sont parfaitement comparables.

Puisque la valeur de p <0,05, nous pouvons rejeter l’hypothèse nulle selon laquelle les moyennes des deux groupes sont égales.

Ainsi, les étudiants qui participent au programme rapportent un score sur l’indice de comportement social plus élevé que les étudiants qui n’ont pas participé au programme. Rappelons que ce résultat a peu de chance d’être affecté par le biais de sélection (auto-sélection, c.f. séance 8) en raison de la procédure d’appariement (mise en correspondance).

df = df[!df$x == 10,]
df = df[!df$x == 3,]

Ttest<-t.test(df$y[df$tc == "c"], df$y[df$tc == "t"])

Ttest
## 
##  Welch Two Sample t-test
## 
## data:  df$y[df$tc == "c"] and df$y[df$tc == "t"]
## t = -9.0268, df = 7.929, p-value = 1.92e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -4.998324 -2.961676
## sample estimates:
## mean of x mean of y 
##      2.10      6.08

Cet exemple ne prend en compte qu’une seule covariable (le nombre d’amis), mais nous pourrions vouloir en utiliser plusieurs pour contrôler les différences selon le sexe, le revenu, les notes scolaires, etc. Les techniques de score de propension nous permettent de le faire.

3 RAPPELS THEORIQUES

3.1 Lecture obligatoire

La revue méthodologique proposée par Li (2013) https://journals.sagepub.com/doi/abs/10.1177/1094428112447816 est incontournable pour préparer cette séance.

3.2 Concepts clès

  • Score de propension

Un score de propension représente la probabilité d’être attribué au traitement ou au groupe témoin sur la base d’un ensemble donné de caractéristiques. En faisant correspondre les observations dans le traitement et dans le contrôle en fonction de leur score de propension, nous pouvons créer des groupes de traitement et de contrôle artificiels qui peuvent être comparés car nous avons réduit ou éliminé les effets des variables de confusion.

4 APPLICATION

4.1 “Class Size Reduction” (CSR): A famous public policy!2

En tant qu’objectif de réforme éducative, la réduction de la taille des classes (CSR) vise à augmenter le nombre d’interactions individuelles élèves-enseignants destinées à améliorer l’apprentissage des élèves. Une réforme qui a longtemps attiré théoriquement de nombreuses circonscriptions, certains ont affirmé que la CSR était la réforme éducative la plus étudiée du siècle dernier3. Ce type de politiques publiques est d’ailleurs toujours “à la mode” en particulier en France où le gouvernement a introduit un dédoublement des classes de CP (à 12 élèves) et de CE1 en zone de réseaux d’éducation prioritaire (REP et REP+)4.

L’une des deux études de CSR les plus importantes et les plus étudiées est le projet STAR, mené du milieu à la fin des années 80 dans le Tennessee5.

4.1.1 Description du programme STAR

Mis en place dans le Tennessee à partir de 1985, le programme STAR succède au programme de CSR implémenté dans l’Indiana (Project Prime Time) qui avait mis en valeur l’intérêt de réduire la taille des classes engendrant des des coûts potentiels à grande échelle de salles de classe et d’enseignants supplémentaires. En 1985, le gouverneur Lamar Alexander, du Tennessee6, a alors lancé un projet en trois phases pour déterminer les effets de la la taille des classes sur les performances des élèves à court et à long terme dans les premières années.

La première phase, appelée Project STAR (Student-Teacher Achievement Ratio), a réparti au hasard les enseignants et les élèves en trois groupes, les classes «petites» (13 à 17), «régulières» (22 à 25) avec un aide rémunéré, et des cours «réguliers» (22 à 25) sans aide. Au total, quelque 6 500 élèves dans environ 330 salles de classe d’environ 80 écoles ont participé 7.

Surnommée “étude sur les avantages durables”, la deuxième phase a commencé en 1989 et visait à déterminer si les avantages de la RSE persistaient dans les classes supérieures lorsque tous les élèves entraient dans des classes de taille standard.

Dans le cadre de la troisième phase, Project Challenge, les 17 districts scolaires les plus pauvres sur le plan économique ont été suffisamment financés pour fournir des classes plus petites à leurs élèves de la maternelle à la 3e année.

Dans le cadre de cette séance, nous nous focaliserons uniquement sur la phase 1 du projet STAR.

4.1.2 Controverse dans la littérature

-Le rapport STAR (phase 1 : 85-89)

En utilisant à la fois des tests standardisés (en maths et en lecture) et basés sur le curriculum des enseignants, le rapport STAR initial sur la phase 1 a conclu que les petites classes produisaient «une amélioration substantielle de l’apprentissage précoce et des études cognitives», avec un effet à peu près le double pour les élèves des minorités. Comme il s’agit de l’étude fondamentale (dans un domaine qui a fait l’objet d’une grande attention politique), de nombreuses tentatives ont été faites pour réinterpréter les données. Cependant, jusqu’à récemment, les interprétations des résultats des données STAR ont été controversées.

-STAR un projet inefficace…

D’un côté, Hanushek a remis en question la validité de l’étude sur le projet STAR, arguant que la majeure partie de la recherche scientifique sur les petites classes ne montre aucun effet statistiquement insignifiant et qu’il doit y avoir une autre explication, comme l’assignation aléatoire imparfaite, qui a produit le résultat plutôt qu’une petite classe8. Cependant, des recherches ultérieures ont remis en question l’affirmation de Hanushek selon laquelle “il n’y a pas de relation forte ou cohérente entre les imputs scolaires et le rendement des élèves”9.

-Sauver le soldat STAR et des politiques publiques de CPR

En face, Krueger a réanalysé les données sur lesquelles Hanushek a fondé cette affirmation et a constaté que Hanushek “accorde une part disproportionnée de poids à un petit nombre d’études qui utilisaient fréquemment de petits échantillons et estimaient des modèles mal spécifiés”. Lorsque cela est corrigé, la littérature révèle en fait une forte corrélation entre la taille réduite des classes et les résultats scolaires et suggère que le taux de rendement interne de la réduction de la taille des classes de 22 à 15 étudiants est d’environ 6%10. En effet, l’analyse de Krueger évèle que les élèves du primaire assignés au hasard à de petites classes ont surpassé leurs camarades de classe qui étaient assignés à des classes régulières d’environ 0,22 écart-type après quatre ans11. Cela équivaut à ce que les élèves des classes plus petites aient reçu environ 3 mois de plus de scolarité que les élèves des classes ordinaires12. Cet effet s’est concentré au cours de la première année de participation des étudiants au programme. En outre, les effets positifs de la taille des classes étaient plus importants pour les étudiants noirs, les étudiants économiquement défavorisés et les garçons[Matthew M. Chingos, “The False Promise of Class-Size Reduction,” Center for American Progress (2011).][Des études internationales fournissent également des preuves positives des effets de la réduction de la taille des classes. Angrist et Lavy ont profité d’une limite de taille des classes en Israël de 40 étudiants. Chaque fois qu’il y a plus d’élèves dans une classe que 40 par enseignant, un enseignant et une classe doivent être ajoutés. L’effet sur la taille des classes dans les petites écoles peut être dramatique. Par exemple, avec 80 élèves dans une classe de 3e classe à deux classes, la taille de la classe sera de 40, mais avec 81 élèves elle sera de 27. Les chercheurs trouvent des effets positifs de classes plus petites de quatrième et cinquième année, avec toutefois des tailles d’effet qui sont inférieures à ceux trouvés dans l’étude STAR(Joshua D. Angrist and Victor Lavy, “Using Maimonides’ Rule to Estimate the Effect of Class Size on Scholastic Achievement,” Quarterly Journal of Economics, 114(2): 533–575 (1999)).].

-Le retour des vents contraires…

Contre les résultats positifs et ceux plus mitigés mais toujours en faveur des politiques de CPR, d’autres études ne trouvent aucun effet positif. Hoxby (2000) a notamment examiné la variation naturelle de la taille des classes dans le Connecticut qui a été causée lorsque la variation naturelle de la population a déclenché un changement dans le nombre de classes d’une année scolaire. Par exemple, une petite école qui compte 15 élèves de première année en une année et 18 l’année suivante aurait une classe plus grande pendant la deuxième année. En outre, une école qui a fixé une limite de 25 classes aurait une classe de deuxième classe de 25 s’il y avait 25 élèves de deuxième année, mais deux classes de 13 s’il y avait 26 élèves. Hoxby ne trouve aucune relation entre la taille des classes et les résultats en quatrième et sixième années (qui devraient refléter la taille des classes dans toutes les années précédentes). Hoxby ne trouve même pas d’effets sur la taille des classes dans les écoles qui accueillent une proportion disproportionnée d’élèves défavorisés ou issus de minorités13.

-Questions de recherche

A l’aide des données du programme STAR phase 1 nous tenterons de répondre à trois questions précises face à l’amibiguité de la litérature et la controverse :

-la réduction des effectifs (passage de 22 à 15 élèves) a t-elle un effet significatif sur les résultats des élèves ?

-si oui, est-il positif ?

-Quelle est la magnitude de l’effet ? Kruger estime que les résultats progressent de 6% en moyenne pour les élèves dans des classes réduites.

Table continues below
  tmathssk treadssk classk totexpk sex freelunk
2 473 447 small.class 7 girl no
3 536 450 small.class 21 girl no
5 463 439 regular.with.aide 0 boy yes
11 559 448 regular 16 boy no
12 489 447 small.class 5 boy yes
13 454 431 regular 8 boy yes
  race schidkn
2 white 63
3 black 20
5 black 19
11 white 69
12 white 79
13 white 5

Dependent variable:
tmathssk treadssk score
(1) (2) (3) (4) (5) (6) (7) (8) (9)
TreatmentPSM 8.335*** 8.338*** 8.253*** 5.495*** 5.514*** 5.462*** 6.915*** 6.926*** 6.858***
(1.369) (1.324) (1.316) (0.910) (0.874) (0.869) (1.058) (1.014) (1.007)
freelunkyes -22.597*** -19.555*** -16.323*** -14.838*** -19.460*** -17.197***
(1.218) (1.354) (0.804) (0.894) (0.933) (1.036)
totexpk 0.691*** 0.617*** 0.537*** 0.494*** 0.614*** 0.556***
(0.106) (0.105) (0.070) (0.070) (0.081) (0.081)
sexboy -7.872*** -6.133*** -7.002***
(1.209) (0.798) (0.925)
raceblack -7.747*** -3.789*** -5.768***
(1.454) (0.960) (1.113)
raceother -14.481 -1.913 -8.197
(8.840) (5.837) (6.764)
Constant 483.135*** 487.615*** 493.463*** 435.086*** 437.964*** 442.045*** 459.110*** 462.789*** 467.754***
(0.752) (1.398) (1.568) (0.500) (0.923) (1.035) (0.581) (1.071) (1.200)
Observations 5,748 5,748 5,748 5,748 5,748 5,748 5,748 5,748 5,748
R2 0.006 0.072 0.083 0.006 0.085 0.097 0.007 0.089 0.102
Adjusted R2 0.006 0.071 0.082 0.006 0.085 0.096 0.007 0.089 0.101
Residual Std. Error 47.622 (df = 5746) 46.033 (df = 5744) 45.761 (df = 5741) 31.675 (df = 5746) 30.398 (df = 5744) 30.214 (df = 5741) 36.805 (df = 5746) 35.259 (df = 5744) 35.014 (df = 5741)
F Statistic 37.084*** (df = 1; 5746) 148.432*** (df = 3; 5744) 87.004*** (df = 6; 5741) 36.428*** (df = 1; 5746) 178.184*** (df = 3; 5744) 102.406*** (df = 6; 5741) 42.731*** (df = 1; 5746) 187.832*** (df = 3; 5744) 109.161*** (df = 6; 5741)
Note: p<0.1; p<0.05; p<0.01
## 
## Call:
## glm(formula = Star$TreatmentPSM ~ freelunk + totexpk + sex + 
##     race, family = binomial(), data = Star)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -1.0205  -0.8586  -0.8296   1.5115   1.6664  
## 
## Coefficients:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -0.663458   0.071311  -9.304  < 2e-16 ***
## freelunkyes -0.035675   0.064571  -0.552  0.58061    
## totexpk     -0.014657   0.005077  -2.887  0.00389 ** 
## sexboy      -0.006543   0.057613  -0.114  0.90958    
## raceblack   -0.070716   0.069684  -1.015  0.31019    
## raceother    0.282627   0.400452   0.706  0.48033    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for binomial family taken to be 1)
## 
##     Null deviance: 7037.0  on 5747  degrees of freedom
## Residual deviance: 7026.6  on 5742  degrees of freedom
## AIC: 7038.6
## 
## Number of Fisher Scoring iterations: 4
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##  0.2445  0.2904  0.3017  0.3015  0.3142  0.4059
##    tmathssk treadssk            classk totexpk sex freelunk  race schidkn
## 5       463      439 regular.with.aide       0 boy      yes black      19
## 11      559      448           regular      16 boy       no white      69
## 12      489      447       small.class       5 boy      yes white      79
## 13      454      431           regular       8 boy      yes white       5
##    TreatmentPSM score prop_score
## 5             0 451.0  0.3150980
## 11            0 503.5  0.2881230
## 12            1 468.0  0.3145436
## 13            0 442.5  0.3051412
##    tmathssk treadssk            classk totexpk  sex freelunk  race schidkn
## 2       473      447       small.class       7 girl       no white      63
## 3       536      450       small.class      21 girl       no black      20
## 5       463      439 regular.with.aide       0  boy      yes black      19
## 11      559      448           regular      16  boy       no white      69
## 12      489      447       small.class       5  boy      yes white      79
##    TreatmentPSM score prop_score
## 2             1 460.0  0.3173323
## 3             1 493.0  0.2607687
## 5             0 451.0  0.3150980
## 11            0 503.5  0.2881230
## 12            1 468.0  0.3145436

(#tab:PSM_STEP1)4 random students (STAR data)
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score
5 regular.with.aide yes boy black 463 439 0 451.0 0.315
11 regular no boy white 559 448 0 503.5 0.288
12 small.class yes boy white 489 447 1 468.0 0.315
13 regular yes boy white 454 431 0 442.5 0.305
(#tab:dist_NN)Distances from student #12
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score distance
regular.with.aide yes boy black 463 439 0 451.0 0.315 0.000554413049420832
regular no boy white 559 448 0 503.5 0.288 0.026420600648544
small.class yes boy white 489 447 1 468.0 0.315 0
regular yes boy white 454 431 0 442.5 0.305 0.00940241352702442
(#tab:matching_CALIPER05)Caliper Distance (0.05)
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score distance Caliper_Distance
regular.with.aide yes boy black 463 439 0 451.0 0.315 0.001 MATCH
regular no boy white 559 448 0 503.5 0.288 0.026 MATCH
small.class yes boy white 489 447 1 468.0 0.315 0.000
regular yes boy white 454 431 0 442.5 0.305 0.009 MATCH
(#tab:matching_CALIPER001)Caliper Distance (0.01)
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score distance Caliper_Distance
regular.with.aide yes boy black 463 439 0 451.0 0.315 0.001 MATCH
regular no boy white 559 448 0 503.5 0.288 0.026 NO MATCH
small.class yes boy white 489 447 1 468.0 0.315 0.000
regular yes boy white 454 431 0 442.5 0.305 0.009 MATCH
Table 4.1: Caliper Distance
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score
2 small.class no girl white 473 447 1 460.0 0.317
3 small.class no girl black 536 450 1 493.0 0.261
5 regular.with.aide yes boy black 463 439 0 451.0 0.315
11 regular no boy white 559 448 0 503.5 0.288
12 small.class yes boy white 489 447 1 468.0 0.315
Table 4.2: Assignment with or without replacement
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score dist_to5 dist_to11 WithRep WithoutRep
small.class no girl white 473 447 1 460.0 0.317 0.020 0.029 5
small.class no girl black 536 450 1 493.0 0.261 0.054 0.027 11 11
regular.with.aide yes boy black 463 439 0 451.0 0.315 NA NA
regular no boy white 559 448 0 503.5 0.288 NA NA
small.class yes boy white 489 447 1 468.0 0.315 0.000 0.027 5 5
Table 4.3: Greedy and optimal process
classk freelunk sex race tmathssk treadssk TreatmentPSM score prop_score dist_to5 dist_to11 Start_2 Start_3 Start_12 Optimal
small.class no girl white 473 447 1 460.0 0.317 0.020 0.029 5 11
small.class no girl black 536 450 1 493.0 0.261 0.054 0.027 11 11
regular.with.aide yes boy black 463 439 0 451.0 0.315 NA NA
regular no boy white 559 448 0 503.5 0.288 NA NA
small.class yes boy white 489 447 1 468.0 0.315 0.000 0.027 11 5 5 5
## 
##  Welch Two Sample t-test
## 
## data:  Star$score[Star$TreatmentPSM == 1] and Star$score[Star$TreatmentPSM == 0]
## t = 6.3966, df = 3129.4, p-value = 1.826e-10
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  4.795406 9.034701
## sample estimates:
## mean of x mean of y 
##  466.0254  459.1103
## 
##  Welch Two Sample t-test
## 
## data:  Star$tmathssk[Star$TreatmentPSM == 1] and Star$tmathssk[Star$TreatmentPSM == 0]
## t = 5.9573, df = 3127.5, p-value = 2.85e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   5.591904 11.078673
## sample estimates:
## mean of x mean of y 
##  491.4703  483.1350
## 
##  Welch Two Sample t-test
## 
## data:  Star$treadssk[Star$TreatmentPSM == 1] and Star$treadssk[Star$TreatmentPSM == 0]
## t = 5.9426, df = 3172.5, p-value = 3.11e-09
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  3.681840 7.307795
## sample estimates:
## mean of x mean of y 
##  440.5805  435.0857

## 
##  Welch Two Sample t-test
## 
## data:  Star$totexpk[Star$TreatmentPSM == 1] and Star$totexpk[Star$TreatmentPSM == 0]
## t = -2.7451, df = 3310.7, p-value = 0.006081
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -0.7770948 -0.1295397
## sample estimates:
## mean of x mean of y 
##  8.990767  9.444085

## 
## Call:
## matchit(formula = Star$TreatmentPSM ~ freelunk + totexpk + sex + 
##     race, data = Star, method = "nearest")
## 
## Summary of balance for all data:
##             Means Treated Means Control SD Control Mean Diff eQQ Med eQQ Mean
## distance           0.3027        0.3010     0.0198    0.0018  0.0017   0.0022
## freelunkno         0.5268        0.5131     0.4999    0.0138  0.0000   0.0138
## freelunkyes        0.4732        0.4869     0.4999   -0.0138  0.0000   0.0138
## totexpk            8.9908        9.4441     5.7788   -0.4533  1.0000   0.6070
## sexboy             0.5141        0.5138     0.4999    0.0003  0.0000   0.0006
## raceblack          0.3116        0.3268     0.4691   -0.0152  0.0000   0.0150
## raceother          0.0058        0.0042     0.0649    0.0015  0.0000   0.0017
##             eQQ Max
## distance     0.0258
## freelunkno   1.0000
## freelunkyes  1.0000
## totexpk      3.0000
## sexboy       1.0000
## raceblack    1.0000
## raceother    1.0000
## 
## 
## Summary of balance for matched data:
##             Means Treated Means Control SD Control Mean Diff eQQ Med eQQ Mean
## distance           0.3027        0.3027     0.0187    0.0001       0   0.0001
## freelunkno         0.5268        0.5378     0.4987   -0.0110       0   0.0110
## freelunkyes        0.4732        0.4622     0.4987    0.0110       0   0.0110
## totexpk            8.9908        9.1627     5.7779   -0.1720       0   0.1904
## sexboy             0.5141        0.5107     0.5000    0.0035       0   0.0035
## raceblack          0.3116        0.2897     0.4537    0.0219       0   0.0219
## raceother          0.0058        0.0063     0.0794   -0.0006       0   0.0006
##             eQQ Max
## distance     0.0082
## freelunkno   1.0000
## freelunkyes  1.0000
## totexpk      2.0000
## sexboy       1.0000
## raceblack    1.0000
## raceother    1.0000
## 
## Percent Balance Improvement:
##             Mean Diff. eQQ Med  eQQ Mean eQQ Max
## distance       95.4107     100   94.9386 68.0995
## freelunkno     20.2998       0   20.8333  0.0000
## freelunkyes    20.2998       0   20.8333  0.0000
## totexpk        62.0671     100   68.6312 33.3333
## sexboy      -1002.0128       0 -500.0000  0.0000
## raceblack     -44.4846       0  -46.1538  0.0000
## raceother      62.4380       0   66.6667  0.0000
## 
## Sample sizes:
##           Control Treated
## All          4015    1733
## Matched      1733    1733
## Unmatched    2282       0
## Discarded       0       0

## 
##  Paired t-test
## 
## data:  m1data$score[m1data$TreatmentPSM == 1] and m1data$score[m1data$TreatmentPSM == 0]
## t = 5.4556, df = 1732, p-value = 5.586e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  4.244674 9.009798
## sample estimates:
## mean of the differences 
##                6.627236
## 
##  Paired t-test
## 
## data:  m1data$tmathssk[m1data$TreatmentPSM == 1] and m1data$tmathssk[m1data$TreatmentPSM == 0]
## t = 4.6302, df = 1732, p-value = 3.926e-06
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##   4.258316 10.517217
## sample estimates:
## mean of the differences 
##                7.387767
## 
##  Paired t-test
## 
## data:  m1data$treadssk[m1data$TreatmentPSM == 1] and m1data$treadssk[m1data$TreatmentPSM == 0]
## t = 5.733, df = 1732, p-value = 1.162e-08
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  3.859627 7.873783
## sample estimates:
## mean of the differences 
##                5.866705

Conformément aux études participant à la validation du programme STAR, il semble bien que de très grandes réductions de la taille des classes, de l’ordre de 7 à 10 élèves de moins par classe, ont :

  • des effets significatifs et positifs sur les résultats des élèves

Conformément au travail de Kruger, nous avons démontré que

-le rendement scolaire est bien de 6% en moyenne (plus encore en math 8% et moins en lecture 5.5%)

5 Compléments sur les programmes de CSR de CSR

5.1 Projet STAR phases 2 et 3

Les observations de la phase 2 du projet STAR ont confirmé que les enfants inscrits à l’origine dans des classes plus petites continuaient de surpasser leurs pairs lorsqu’ils retournaient dans des salles de classe de taille normale. Ces résultats ont été jugés vrais pour tous les types de classes et tous les types de villes (rurales, suburbaines et métropolitaines).

Dans le cadre de la phase 3 du projet STAR Ces districts ont amélioré leur classement de fin d’année (parmi 139 districts) en mathématiques et en lecture, passant de inférieur à la moyenne à supérieur à la moyenne.

5.2 Etudes ultérieures

Des études à la suite des travaux des projets STAR ont révélé que, même lorsqu’ils étaient réintroduits dans des classes plus grandes plus tard dans leur carrière éducative, les fondements positifs de l’apprentissage incitaient les élèves plus tard dans la vie à suivre des cours avancés, diplômés du secondaire , fréquenter le collège et majeure dans un domaine STEM14.

Des recherches ultérieures sur les effets de la réduction de la taille des classes ont lié les petites classes à une variété d’avantages cognitifs et non cognitifs pour les élèves et les enseignants, à court et à long terme, en particulier lorsque la taille des classes est réduite dans les premières années (K-3 ). Ses avantages sont particulièrement prononcés pour les élèves à faible revenu et les enfants de couleur, qui connaissent deux à trois fois les gains des classes plus petites, ce qui fait de la RSE l’une des rares réformes éducatives qui ont prouvé qu’elles réduisaient l’écart de réussite. Il a également été constaté que les classes plus petites ont un impact positif sur le climat scolaire, la croissance socio-émotionnelle des élèves, les taux de sécurité et de suspension, l’engagement des parents et l’attrition des enseignants, en particulier dans les écoles avec un grand nombre d’enfants défavorisés.


  1. LADYSS UMR 7533, University of Paris, ↩︎

  2. https://en.wikipedia.org/wiki/Class-size_reduction#cite_note-8.↩︎

  3. Biddle, B. J. & Berliner, D. C. (2002) Research synthesis: small class size and its effects, Educational Leadership, 59(5), 12–23.↩︎

  4. https://www.lejdd.fr/Societe/Education/24-eleves-par-classe-lidee-de-macron-nest-pas-si-simple-a-mettre-en-place-3894380. https://www.lexpress.fr/education/le-dedoublement-des-classes-de-cp-et-ce1-a-12-eleves-en-quartiers-defavorises_1921661.html↩︎

  5. Le projet STAR a été notamment suivi par le projet SAGE, mené au début des années 2000 dans le Wisconsin.↩︎

  6. Républicain devenu conseillé du Président Bush père.↩︎

  7. Mosteller, F. (1995). The Tennessee study of class size in the early school grades. The Future of Children, 5, 113-127.↩︎

  8. Hanushek, E. A. (1997). ‘Some Findings from an Independent Investigation of the Tennessee STAR Experiment and from Other Investigations of Class Size Effects’, Educational Evaluation and Policy Analysis, vol. 21(2), pp. 143-63 http://hanushek.stanford.edu/publications/some-findings-independent-investigation-tennessee-star-experiment-and-other↩︎

  9. Hanushek, E. A. (1997). ‘Assessing the effects of school resources on student performance: an update’, Educational Evaluation and Policy Analysis, vol. 19(2), pp. 141–64.↩︎

  10. Krueger, Alan B. 2003. “Economic Considerations and Class Size.” The Economic Journal 113 (February): F34-F63.↩︎

  11. Alan B. Krueger, “Experimental Estimates of Education Production Functions,” Quarterly Journal of Economics, 115(2): 497–532 (1999).↩︎

  12. Rivkin, Hanushek et Kain ont examiné les effets de la variation naturelle de la taille des classes au Texas au milieu des années 90 (Steven G. Rivkin, Eric A. Hanushek, and John F. Kain, “Teachers, Schools, and Academic Achievement,” Econometrica, 73(2): 417–458 (2005)). Utilisant des données longitudinales de plus d’un demi-million d’élèves dans plus de trois mille écoles, les chercheurs ont trouvé des effets positifs de classes plus petites sur la lecture et les mathématiques en 4e année, un effet plus petit mais toujours statistiquement significatif en 5e année, et peu ou pas d’effets dans les années ultérieures. Étant donné que les chercheurs ont utilisé les résultats des évaluations de l’état qui n’étaient disponibles qu’à partir de la 4e année, ils n’ont pas pu estimer les effets de la taille des classes pour les premières années étudiées dans STAR. Les effets de taille de classe estimés pour les élèves de 4e et 5e années au Texas étaient environ la moitié de la taille des effets K-3 dans le Tennessee.↩︎

  13. Caroline M. Hoxby, “The Effects of Class Size on Student Achievement: New Evidence from Population Variation,” Quarterly Journal of Economics, 115(4): 1239–1285 (2000).↩︎

  14. Dynarski, Susan, Joshua Hyman, and Diane Whitmore Schanzenbach. 2013. “Experimental Evidence on the Effect of Childhood Investments on Postsecondary Attainment and Degree Completion.” Journal of Policy Analysis and Management 32(4): 692-717.↩︎