THIBAUD DEGUILHEM
  • Research
  • Teaching
    • CC (ED 624)
    • ASA-R (M1)
    • AMA-R (M1)
    • ECON (L3)
  • DATALAB
  • Gallery
  • Research
  • Teaching
    • CC (ED 624)
    • ASA-R (M1)
    • AMA-R (M1)
    • ECON (L3)
  • DATALAB
  • Gallery
Search
 APPLIED MULTIVARIATE ANALYSIS ​USING R
[​AMA-R]
Picture

​Présentation et objectifs principaux

​
Destiné aux étudiant-e-s de première année des Masters MECI (PISE et CCESE option Data) et APE, cet enseignement offre un large panorama sur l'analyse multivariée appliquée (AMA). Utilisant Rstudio, certains packages spécifiques et l'environnement Markdown, ce cours propose aux étudiant-e-s de devenir autonomes dans l'utilisation des techniques usuelles d'exploration, de prédiction et d'identification des relations causales en sciences sociales (socio-économie en particulier) en leur permettant de développer différentes compétences :

  • Connaître les outils d'analyse multivariée afin d'apporter des réponses quantitatives à différents types de questions du même ordre
  • Maîtriser les packages essentiels pour conduire une analyse multivariée à partir d'un jeu de données
  • Interpréter et mettre en valeur des résultats d'analyse multivariée à l'aide de visualisations adaptées et de tableaux pertinents
  • Travailler en équipe lors d'un challenge sur Markdown à partir de jeux de données spécifiques

​​Prérequis : avoir suivi le cours d'ASA-R au premier semestre est un prérequis pour ce cours.
​
​
Organisation et déroulement

​Trois parties structurent ce cours abordant les trois approches essentielles de l'analyse multivariée appliquée :
​
  • Data mining : exploration de données par la réduction des dimensions et les algorithmes non-supervisés de regroupement  
  • Predictive modelling : prédiction de catégories par l'utilisation de modèles et d'algorithmes supervisés de classification
  • Causal modelling : identification de la causalité à partir de données non-expérimentales par les méthodes d'évaluation d'impact
 
Accompagnement durant le semestre :

  • A partir d'applications pédagogiques, les étudiant-e-s seront accompagné-e-s dans leur pratique de Rstudio tout au long du semestre par la mise à disposition de jeux de données. 
  • Une communauté (AMA-R sur le forum DATALAB) dédiée aux questions de méthodes, de "syntaxe" (script), de "tronçons" (chunk) ou de "tricotage" (knitr/compilation).
  • L'apprentissage sera guidé par la réalisation de deux fiches d'exercices.
  • Les étudiant-e-s peuvent enfin prendre rendez-vous durant les heures de permanence (mardi 9h-10h30).
​
​
Modalités d'évaluation
​

Les étudiant-e-s sont évalué-e-s individuellement et collectivement en 100% CC :

  • Assiduité et implication : 10%
    1. Présence durant le semestre
    2. Implication
  • Présentation initiale (draft) : 25% 
  • Rendu mémoire (draft) : 40%
  •  Présentation publique finale : 25% ​
​
Syllabus​

Toutes les informations utiles pour vous accompagner durant le semestre :
​
  • Description générale du cours
  • Plan avec les lectures conseillées
  • Contrat pédagogique
  • Informations pratiques
  • Références 

           [LINK]

​
amar2023.pdf
File Size: 1025 kb
File Type: pdf
Download File

Supports de cours et ressources

Introduction 
​Applied Multivariate Analysis!


  • Qu'est-ce que l'analyse multivariée ?
  • Plan du cours (data mining, predictive et causal modelling)​
  • Présentation du syllabus

​​[Introduction]                 

[Denis (2015, pp. 33-46) ; Zelterman (2015, pp. 1-13)]   
​

​[Ressources complémentaires]
Picture

PARTIE I - DATA MINING

​
Séance 2
Analyse en Composantes Principales (ACP)


  • Qu'est-ce que l'analyse factorielle ?
  • Réduction des dimensions
  • Distances, similarités, dissimilarités
  • Etapes clés de l'ACP (exemple Europe Jobs data)
  • Application : données USArrests

​​[Séance 2]     [La pratique avec R (STHDA)]       [Package `explor`]

[Husson et al. (2017, pp. 1-44)]        [Denis (2020, chap. 10)]

​[
Ressources complémentaires]          
Picture
Séance 3 
Partitionnement et K-means (KM)


  • Algorithmes non-supervisés de partitionnement (clustering)
  • Distance et proximité entre éléments
  • Itérations, optimisation et stabilisation 
  • Etapes clés de la méthode KM (exemple USArrests data)
  • Application : Europe Jobs data

​​[Séance 3]            [La pratique avec R (DATANOVIA)]          

[Husson et al. (2017, pp. 169-204)]    [Denis (2020, chap. 12)]​

​[Ressources complémentaires]
Picture
Séance 4 
Classification Ascendante Hiérarchique (CAH)


  • Algorithmes hiérarchiques non-supervisés
  • Agglomération vs. division
  • Méthodes d'association ("linkage")
  • Etapes clés de la méthode CAH (exemple USArrests data)
  • Complémentarité avec l'ACP : HCPC  (en complément)

​​[Séance 4] 

​
[La pratique avec R (DATANOVIA)]             [La pratique avec R (STHDA)] 

[Husson et al. (2017, pp. 169-204)]    [Denis (2020, chap. 12)]​

​[Ressources complémentaires]
Picture

PARTIE II - PREDICTIVE MODELLING

Séance 5
Modèles logistiques


  • Modèle de probabilités linéaires
  • Modèles Logit et Probit
  • Estimation par le maximum vraisemblance
  • Qualité du modèle et tests
  • Application : HDMA dataset

​​[Séance 5]                  [La pratique avec R DS4PS - Prog Eval III]

[Stock et Watson (2015, pp. 431-470)]    [Denis (2020, chap. 8)]​

​[Ressources complémentaires]
Picture
PARTIE III - Causal modelling
Séance 6
Causality, Quasi-Experiment & Propensity Score Matching (PSM)


  • Problème du biais de sélection
  • Groupes de "Traitement" et "Contrôle"
  • Estimation de la proba. d'être traité
  • Algorithmes d'appariement sur cette proba. entre "Treat" et "Cont"
  • Application : STAR dataset

[Séance 6]                           [La pratique avec R MatchIt with example]         

​[Li (2013)] 

​[Ressources complémentaires]
​
Picture
Forum pour répondre à toutes vos questions

​
Vous pouvez me poser toutes vos questions sur le forum "DATALAB" en vous connectant et en allant sur les topics qui concernent le cours d'AMA-R      ​[LINK]

​
Ressources importantes pour retravailler à la maison
​​

STHDA Statistical tools for high-throughput data analysis       [LINK] 

DATANOVIA      [LINK] 

UC Business Analytics R Programming Guide      [LINK]

​

Références
En gras les plus importantes pour ce cours (les livres disponibles à la BU des Grands Moulins sont indiqués avec leur côte)

​
​
Denis, D. J. (2015). Applied Univariate, Bivariate, and Multivariate Statistics. Wiley-Blackwell, Hoboken. 

Denis, D. J. (2020). Univariate, Bivariate, and Multivariate Statistics Using R. Wiley-Blackwell, Hoboken. 
[côte : 519.22 DEN]

 Everitt, B. and Hothorn, T. (2011).  An Introduction to Applied Multivariate Analysis with R. Springer, New York.

Giordani, P., Ferraro, M. B. and Martella, F. (2020). An Introduction to Clustering with R. Springer, Singapore.

Grolemund, G. and Wickham, H. (2015). R for Data Science. O'Reilly, Sebastopol.

Husson, F., Le, S., and Pagès, J. (2017). Exploratory Multivariate Analysis by Example Using R. CRC Press, Boca Raton. [côte :
519.22 HUS]

Irizarry, R. A. (2019). Introduction to Data Science: Data Analysis and Prediction Algorithms With R. CRC Press, Boca Raton.

Li, M. (2013). Using the Propensity Score Method to Estimate Causal Effects : A Review and Practical Guide. Organizational Research Methods, 16(2) :188-226.

MacKinnon, D. P., Fairchild, A. J., and Fritz, M. S. (2007). Mediation Analysis. Annual Review of Psychology, 58(1) :593.

Stock, J. H. and Watson, M. (2014). Principes d'économétrie. Pearson, Paris. [côte :
330.4 STO]

Zelterman, D. (2015). Applied Multivariate Statistics with R. Springer International Publishing, Geneva.​
  • Research
  • Teaching
    • CC (ED 624)
    • ASA-R (M1)
    • AMA-R (M1)
    • ECON (L3)
  • DATALAB
  • Gallery