2SLS : Maîtriser la méthode des moindres carrés en deux étapes pour l’identification causale

Dans l’arsenal des méthodes économétriques, la 2SLS (Two-Stage Least Squares) occupe une place centrale lorsque l’objectif est d’estimer des relations causales en présence d’endogénéité. L’endogénéité peut provenir d’un biais de sélection, d’un oubli de variables pertinentes ou d’instrumentation imparfaite. La 2SLS offre une solution robuste et pratique pour obtenir des estimations consistantes lorsque les conditions d’orthogonalité et de validité des instruments sont réunies. Cet article propose une présentation complète, accessible et approfondie de la méthode 2SLS, de son cadre théorique à ses applications et à ses limites, avec des exemples concrets et des conseils pour le diagnostic et l’interprétation.

Introduction : pourquoi la 2SLS est-elle nécessaire ?

Imaginez que l’on cherche à évaluer l’effet d’une politique publique sur une métrique économique, mais que les unités observées présentent des choix non aléatoires qui dépendent aussi de facteurs non observables. Dans ce cadre, les estimateurs en moindres carrés ordinaires (OLS) peuvent être biaisés par l’endogénéité. La 2SLS se révèle alors comme une réponse naturelle : elle permet d’utiliser des variables instrumentales (IV) qui expliquent la variable explicative endogène sans être corrélées avec l’erreur de l’équation outcome. En d’autres termes, elle transforme le problème en deux étapes clairement interprétables, tout en préservant l’information utile pour l’estimation causale.

Qu’est-ce que la 2SLS ? Définition et cadre général

La 2SLS est une méthode d’estimation par instruments qui s’applique à des modèles où une ou plusieurs variables explicatives (variables X) sont potentiellement corrélées avec l’erreur. Pour remédier à cette endogénéité, on introduit des instruments (variables Z) qui satisfont deux conditions essentielles : pertinence (les instruments expliquent substantiellement X) et validité (les instruments ne sont pas corrélés avec l’erreur et n’affectent pas directement la variable dépendante). Le cadre se résume à deux étapes distinctes : premièrement, on prédit X à partir de Z; deuxièmement, on estime le modèle en remplaçant X par sa version prédite dans l’équation de résultat. Cette approche garantit des estimations non biaisées et asymptotiquement efficaces sous les hypothèses appropriées.

Origine et motivation : les fondements de la 2SLS

Les origines de la 2SLS remontent à la théorie des variables instrumentales et à l’exigence de corriger les biais d’endogénéité. Dans le contexte des économètres, on a cherché à distinguer l’effet causal d’un regressor X sur une variable Y lorsque X est possiblement corrélé avec l’erreur u dans le modèle Y = βX + ε. En décomposant X en sa projection sur les instruments Z, la 2SLS effectue une estimation qui exploite la variation exogène fournie par Z. Cette démarche est particulièrement utile dans les environnements où les expériences aléatoires ne sont pas disponibles et où l’on dispose d’instruments plausibles et robustes. Le résultat est une estimation qui s’apparente à un mélange entre IV et Moindres Carrés en Deux Étapes, parfaitement adapté aux questions de politique publique et de microéconomie.

Comparaison avec OLS et IV : quand choisir 2SLS

Contrairement à l’OLS qui suppose que X est exogène, la 2SLS suppose que X est endogène mais que des instruments bien choisis existent. Par rapport à une approche IV simple, la 2SLS met l’accent sur deux étapes qui clarifient l’interprétation et permettent une estimation plus stable lorsque la relation entre X et Y est complexe. En pratique :

OLS peut être biaisé si X et l’erreur u sont corrélées.
IV crée des estimations si les instruments Z sont pertinents et valides, mais les coefficients peuvent être biaisés si les instruments sont faibles ou invalides.
La 2SLS combine les avantages des IV avec une estimation qui tient compte de la structure des données, en utilisant X prédit par Z dans l’équation de résultat.

Dans bien des applications, la 2SLS est plus robuste que l’OLS lorsque l’on est confronté à l’endogénéité, et elle permet d’obtenir des conclusions plus nettes sur les effets causaux, à condition que les instruments remplissent les critères de validité et de pertinence.

Le cadre théorique de la 2SLS

Le cadre standard suppose un système d’équations avec une équation structurelle de Y en fonction de X et d’autres variables, et une ou plusieurs équations instrumentales qui expliquent X via Z. Le modèle peut être exprimé en forme réduite et forme structurelle :

Équation structurelle : Y = βX + γW + u
Équation informative : X = πZ + θW + v

Où W représente d’éventuelles variables de contrôle. Dans la pratique, on estime X par Z pour obtenir X̂, puis on remplace X par X̂ dans l’équation de Y : Y = βX̂ + γW + ε. L’estimation est effectuée via les moindres carrés sur les variables instrumentales, d’où le nom de 2SLS. Cette approche repose sur des suppositions clés : pertinence des instruments (Z explique X), exogénéité des instruments (Z n’est pas corrélé avec l’erreur ε) et, souvent, identifiabilité du système (pas de redondance parfaite des instruments).

Instruments et identification : choisir des instruments pertinents pour 2SLS

Le choix des instruments est au cœur de la réussite de la méthode. Des instruments forts et plausibles renforcent la validité et la précision des estimations. Voici quelques conseils pour identifier des instruments pertinents :

Instruments pertinents : Z doit expliquer signicativement X. Des tests tels que le F-statistic dans la première étape (X̂ = πZ + …) permettent d’évaluer la force des instruments. En général, un F-statistique supérieur à 10 est souvent considéré comme indicateur minimal de force acceptable, mais le contexte peut influencer ce seuil.
Instruments valides : Z ne doit pas être corrélé avec l’erreur ε de l’équation de Y. Cette condition est plus théorique et repose sur le raisonnement économique ou sur une structure expérimentale convaincante.
Instruments multiples : lorsque plusieurs instruments existent, la sur-identification peut être testée, par exemple via le test de Hansen ou le test de Sargan, pour vérifier la validité globale des instruments.
Exemples concrets : en économie du travail, les variations de politique locale ou les variations d’offre de formation peuvent servir d’instruments plausibles si elles affectent X sans influencer directement Y. En santé publique, des variations temporelles ou géographiques non liées à l’état de santé des individus peuvent jouer ce rôle, selon le cadre d’étude.

Conditions de validité et diagnostics pour 2SLS

La validité des instruments implique deux piliers : la pertinence et l’orthogonalité. En pratique, on vérifie :

La force des instruments dans la première étape (X̂ dépend fortement de Z).
La validité des instruments pour éviter l’endogénéité résiduelle dans l’équation de Y.
La robustesse des résultats à des variations des instruments (tests de sensibilité).

Les diagnostics courants incluent :

Le test F dans la première étape pour la force des instruments.
Des tests de sur-identification si plusieurs instruments existent (Hansen J, Sargan).
Des tests de spécification et des analyses de robustesse (ex. exclusion d’un instrument et réestimation).

Algorithme de estimation en 2SLS : étapes claires et pratiques

La mise en œuvre de la 2SLS peut se décomposer en deux étapes simples, mais l’ordonnancement et les détails comptent :

Phase 1 — Régression des instruments sur X : On estime X = πZ + θW + v. Cette étape fournit les valeurs prédites X̂ à l’aide des instruments et des variables de contrôle.
Phase 2 — Régression de Y sur X̂ et W : On estime Y = βX̂ + γW + ε en utilisant X̂ comme substitut de X. L’estimation donne les coefficients β et γ, avec β interprété comme l’effet causal estimé sous les hypothèses d’instrumentabilité et de validité.

Dans les logiciels modernes, ces deux étapes peuvent être réalisées automatiquement via des commandes dédiées aux IV ou en utilisant des modules spécifiques pour les modèles à équations structurelles. La clé est de bien préparer les données, de vérifier les hypothèses et d’interpréter les résultats avec prudence.

Interprétation des résultats et inférence en 2SLS

Interpréter les résultats de la 2SLS nécessite de distinguer l’effet local moyen (LATE) de certains effets agrégés, surtout lorsque les instruments n’affectent X que par une sous-population. En pratique :

β représente l’effet causal sous les conditions d’endogénéité et les instruments choisis, mais il peut être local à la population « compliers » qui répondent à l’instrument.
Les intervalles de confiance et les tests statistiques doivent tenir compte du fait que X̂ est prédit à partir de Z. Cela peut influencer la distribution des estimateurs et nécessite des corrections standards dans certains cadres (par exemple, robustesse et erreurs standard corrigées).
Les diagnostics de validité (Hansen J, Sargan) aident à évaluer l’exogénéité des instruments et la robustesse des résultats.

Tests et diagnostics avancés pour 2SLS

Pour évaluer la solidité des instruments et la fiabilité des résultats, on recourt à plusieurs tests et approches :

Test de force des instruments : évaluer la statistique F de la première étape. Des instruments faibles biaisent les estimateurs et augmentent les biais finaux.
Test de sur-identification : lorsque plusieurs instruments existent, le test de Hansen J (ou le test de Sargan) permet d’évaluer la cohérence des instruments pris ensemble.
Vérification de l’exogénéité des instruments : en pratique, on cherche des arguments économiques et des tests qui renforcent la légitimité des instruments dans le cadre étudié.
Robustesse et spécifications alternatives : réestimation avec un sous-ensemble d’instruments ou en modifiant les variables de contrôle pour vérifier la stabilité des résultats.

Problèmes courants : instruments faibles et suridentification

Deux défis particulièrement fréquents menacent la qualité des résultats en 2SLS :

Instruments faibles : lorsqu’un instrument est peu corrélé avec X, l’estimation peut devenir biaisée et ses intervalles deviennent larges. On cherche alors à renforcer les instruments ou à ajouter des instruments pertinents.
Sur-identification et validité : trop d’instruments peuvent conduire à des problèmes de multicolinéarité et compliquer l’interprétation. Le test de Hansen J aide à évaluer si l’ensemble des instruments est globalement valide.

Extensions et variantes : 2SLS robuste et alternatives

La communauté économétrique a développé plusieurs variantes et extensions autour de la 2SLS pour répondre à des scénarios plus complexes :

2SLS robuste : ajustements pour les erreurs hétéroscédastiques, utilisant des erreurs standard robustes ( sandwich ) pour des inférences plus fiables.
GMM (Generalized Method of Moments) : lorsqu’on dispose de nombreux instruments, le cadre GMM peut être plus efficace et flexible que la simple 2SLS.
метод Two-Stage Residual Inclusion (2SRI) : variante utilisée dans certains modèles non linéaires, où la première étape prédit X et on inclut les résidus dans l’équation de Y pour capturer l’endogénéité.

Applications typiques de la 2SLS

La 2SLS est largement utilisée dans divers domaines pour estimer des effets causaux lorsque l’endogénéité est présente :

Économie du travail : estimation de l’impact des politiques de formation, de salaire, ou d’annonces de prestations sur l’employabilité et la productivité.
Politique publique : évaluation des effets des subventions ou des réformes sur la croissance régionale ou les comportements des ménages.
Santé et épidémiologie : étude des effets des comportements de santé ou des interventions sur les résultats de santé en présence de facteurs confondants non observés.
Éducation : estimation des retombées des programmes éducatifs sur les résultats scolaires quand les choix des élèves dépendent de facteurs non observables.

Avantages et limites de la 2SLS

Comme toute méthode, la 2SLS présente des atouts et des limites importantes à connaître :

Avantages :
- Estimation causale lorsque des instruments plausibles existent et que leurs hypothèses tiennent.
- Cadre simple et interprétation claire en deux étapes.
- Facilement implémentable dans les logiciels statistiques courants.
Limites :
- La précision dépend fortement de la force et de la validité des instruments.
- Instruments faibles mènent à des estimations biaisées et à des intervalles peu informatifs.
- Les résultats peuvent être locaux (compliers) et ne pas généraliser à l’ensemble de la population si l’instrument n’affecte X pas uniformément.

Cas pratiques : exemple simple d’application de la 2SLS

Supposons qu’un économiste veuille estimer l’effet de l’accès à une formation professionnelle (X) sur le taux de chômage (Y). On peut utiliser une politique régionale de financement de la formation (Z) comme instrument, si elle influence l’accès à la formation mais n’affecte pas directement le chômage hormis par le biais de la formation. La première étape prédit X à partir de Z et d’autres covariables, puis la seconde étape estime Y en fonction de X̂ et des covariables. Si l’instrument est fort et valide, l’estimation de β donnera une mesure crédible de l’effet causal de la formation sur le chômage.

Bonnes pratiques pour réussir une estimation 2SLS

Pour maximiser la qualité des résultats en 2SLS, voici quelques conseils pratiques :

Choisir des instruments plausibles et bien motivés économiquement et expérimentalement.
Vérifier la force des instruments avec le F-statistique et rechercher des instruments supplémentaires si nécessaire.
Tester la validité des instruments via des tests de sur-identification lorsque c’est possible.
Rendre l’analyse robuste en testant différentes combinaisons d’instruments et en examinant la stabilité des coefficients.
Interpréter avec prudence les résultats et préciser l’étendue de l’inférence (par exemple, l’effet sur les compliers).

Conclusion : quand et pourquoi privilégier la 2SLS

La 2SLS est un outil puissant pour l’estimation causale lorsque l’endogénéité menace la validité des estimations. En combinant des instruments pertinents et valides avec une approche en deux étapes claire, elle permet d’obtenir des conclusions plus fiables sur les effets des politiques et des comportements. Toutefois, sa réussite dépend fortement de la solidité des instruments et du cadre théorique qui soutient leur choix. En pratique, une application rigoureuse, des diagnostics approfondis et une interprétation nuancée constituent les meilleurs gages de résultats pertinents et utiles pour la prise de décision.

Glossaire rapide des notions clés autour de la 2SLS

Pour faciliter la lecture et l’appropriation des concepts, voici un bref glossaire des termes les plus fréquents :

2SLS (Two-Stage Least Squares) : estimation par instruments en deux étapes destinée à corriger l’endogénéité.
Instrument(s) : variable(s) Z utilisées pour expliquer X sans être directement liées à l’erreur de l’équation de Y.
Objets compliers : sous-population qui réagit à l’instrument et dont l’estimation peut être locale.
F-statistique : critère de force des instruments dans la première étape.
Test de Hansen J / Sargan : tests de sur-identification pour vérifier la validité globale des instruments.

Réflexions finales sur la 2SLS et les choix méthodologiques

En fin de compte, la réussite d’un travail basé sur la 2SLS repose sur l’art de choisir les bons instruments, de comprendre le cadre théorique, et de conduire des diagnostics rigoureux. L’objectif est non seulement d’obtenir des chiffres, mais aussi de transmettre une compréhension claire des mécanismes causaux à l’œuvre et des limites inhérentes à toute estimation empirique. En combinant rigueur, transparence et intuition économique, la 2SLS demeure une boussole précieuse pour naviguer dans les questions d’interdépendances et de politiques publiques.