fbpx

ACP : Nature et principes d’utilisation

La branche de la statistique dénombre une grande liste de méthodes et de pratiques qui servent à affiner les résultats, pour les rendre plus lisibles, pertinents, et exploitables. L’analyse en composantes principales ou ACP fait partie de ce panel, en faisant figure d’outil puissant en matière de synthèse de données à multiples variables. On la réalise notamment avec différents types de package R, pour ne citer que FactoMineR ou encore FactoExtra.

On considère l’ACP comme un des outils statistiques et de data mining les plus accessibles, sachant qu’il n’est pas nécessaire à son utilisateur d’être habitué aux méthodes de traitement statistique ou à la manipulation des chiffres. Faisons le tour de cette méthode statistique exploratoire : quelle est sa nature ? Comment expliquer sa mise en œuvre ? Quels sont ses objectifs et son utilité ?

Analyse en composantes principales : de quoi s’agit-il ?

La grande disponibilité actuelle des données multidimensionnelles nécessite une stratégie d’analyse plus performante et plus fiable. L’ACP ou analyse en composantes principales répond justement à ce besoin de traiter et d’interpréter une somme considérable de données quantitatives en un temps record. Il s’agit d’une méthode d’analyse et de visualisation de données appartenant à la catégorie de la statistique multivariée, s’intéressant aux lois de la probabilité à multiples variables

L’analyse en composantes principales est également une forme d’analyse descriptive largement utilisée en réduction de dimension. Son champ d’étude concerne le degré de variabilité entre les individus (différences ou ressemblances), ainsi que les liens entre les variables. Elle permet donc d’éliminer des redondances pour réduire la dimension des jeux données, tout en mettant en évidence des variables corrélées et des profils cachés dans un ensemble d’informations. Il s’agit en somme de connaître s’il existe des individus très liés entre eux et qui peuvent être regroupés pour créer de nouveaux groupes synthétiques de variables.

Finalité d’une analyse en composantes principales

Cette méthode sert à supprimer la corrélation entre des variables « corrélées ». L’ACP cible notamment une compilation de données dans laquelle les individus sont représentés par un certain nombre de variables quantitatives. Cela donne naissance à une quantité réduite de nouvelles variables « décorrélées » les unes des autres et qui sont appelées « composantes principales ». Encore plus précisément, la méthode ACP vise à réduire les proportions d’informations multivariées pour obtenir seulement 2 ou 3 composantes principales par exemple. La visualisation graphique qui en est issue ,est censée être plus facile à interpréter, tout en intégrant le plus d’informations essentielles.

L’Analyse en Composantes Principales fait partie des outils statistiques permettant de « compresser » et de structurer une somme considérable de données en vue d’en dégager d’autres informations essentielles. Elle est particulièrement puissante et efficace pour synthétiser une masse importante d’informations et en faire ressortir l’essentiel. En somme, les principaux objectifs de l’ACP sont de permettre : 

  • la compréhension de la structure d’un ensemble de donné de variables
  • le développement d’outils servant à analyser des données non susceptibles d’être mesurées de façon directe, 
  • la compilation dans un ensemble restreint de données issues d’une multitude de variables, en garantissant un minimum de perte d’informations. Il s’agit donc d’éviter au maximum de déformer la réalité des faits.

Mécanisme de l’analyse en composantes principales

Théoriquement, l’ACP est une méthode complexe, qui utilise des notions mathématiques avancées : matrices, éléments propres, etc. En la matière, l’objectif est d’abord de trouver la matrice des composantes principales. Pour ce faire, on part donc d’un calcul consistant à dégager le produit de la matrice des valeurs propres et de celle des variables indépendantes. L’APC va mettre au clair la plus grande proportion possible de la variance, en prenant en compte la grandeur la plus faible de composantes principales.

L’Analyse en Composantes Principales se déroule sur 4 étapes :

  1. Définition de l’approche en ACP  

Il s’agit d’identifier les objectifs de l’ACP. Deux choix d’approches se présentent : 

  • L’approche exploratoire : pour le cas où il n’existe pas d’a priori théorique concernant la structure sous-jacente des données, et quand on veut en étudier la structure. L’utilisation de l’ACP se fonde alors sur deux grands motifs, à savoir : l’identification de ladite structure sous-jacente des informations, et la transformation des variables en quelques facteurs.
  • L’Approche confirmatoire : en cas de présence d’a priori théorique et quand on veut confirmer une structure de facteurs. Il s’agit alors de confirmer la présence de facteurs décrits.
  1. Préparation de l’ACP

Cette étape consiste à définir les paramètres d’étude :

  • Nombre de variables : La réalisation d’une analyse ACP porte sur un jeu de variables substantiel. Pour extraire le nombre adéquat de facteurs, et donc d’obtenir des données de façon pertinente, il est important d’avoir le minimum de variables originales.
  • Types de variables : on peut avoir des variables continues (idéalement), dichotomiques ou ordinales.
  • Taille d’échantillon : il est généralement recommandé de détenir un ratio de 10 individus pour chaque variable introduite. L’usage veut que l’on utilise un échantillon relativement grand afin d’obtenir une puissance statistique adéquate.
  1. Définition des corrélations

Il s’agit de mettre en évidence la présence de corrélations minimales entre les variables affichées, suivant un processus précis : 

  • Créer une matrice de corrélation en faisant usage de toutes les variables insérées et définir la magnitude des coefficients. A noter qu’il n’est pas impossible que les corrélations soient minimes, voire inexistantes. Il sera alors difficile ou même impossible de mettre en évidence un ou des facteurs avec l’ACP.
  • Évaluer l’adéquation de l’échantillonnage en utilisant l’indice KMO : il s’agit d’avoir un aperçu global de la qualité des corrélations entre les items. L’indice KMO donne une information complémentaire à l’examen de la matrice de corrélation. Sa valeur part de 0 à 1. À mesure qu’il croît, on obtient : une taille de l’échantillon plus élevée, des corrélations plus importantes, un nombre plus élevé de variables, puis un nombre décroissant de facteurs.
  • Procéder au test de sphéricité de Bartlett : Il indique qu’on n’est pas en présence d’une matrice de corrélation dite « d’identité » où toutes les corrélations sont « nulles ». Si le test est significatif (p < 0,05), on peut écarter l’hypothèse nulle selon laquelle on serait en présence d’une matrice identité : les corrélations ne sont donc pas toutes égales à zéro. L’analyse peut se poursuivre.
  1. Extraction des facteurs

Ici, la méthode ACP est habituellement privilégiée. Elle s’appuie alors sur la variance caractéristique des variables, pour extraire des facteurs dont le nombre sera fonction de deux critères spécifiques : 

  • La valeur de eigen (« eigenvalue » ou Valeur propre initiale) : c’est le critère le plus courant.  En fonction de l’augmentation de l’eigenvalue, le facteur explique une portion significative de la variance totale. En principe, tout facteur ayant une valeur eigen au-delà de 1 est considéré comme significatif. 
  • Le coude de Cattell : c’est un critère plus rigoureux en matière de définition du nombre de facteurs. Seuls sont pris en compte les facteurs situés avant le changement de la pente (point de décroissance ou de décrochage des valeurs propres).

ACP : comment interpréter les résultats ?

L’explication d’une analyse en composante principale consiste à identifier des facteurs qui ne sont pas corrélés (au moyen d’une matrice de composantes), c’est-à-dire des combinaisons linéaires entre variables initiales, puis entre variables et facteurs. Concrètement, l’avantage de l’ACP est de permettre une analyse facile des corrélations entre les variables d’un jeu de données, la réduction du nombre de variables en créant de nouvelles plus lisibles, de mieux comprendre les données grâce à des résultats visuels. Il ne suffit donc pas de réduire les dimensions des données multidimensionnelles, mais aussi de rendre possible la visualisation graphique des composantes principales issues de l’analyse à travers des outils comme les biplots

En ce qui concerne l’interprétation d’une analyse en composantes principales, quelques approches sont mises en œuvre : 

  • Interprétation sans rotation de la matrice des composantes. Celle-ci indique les poids, la corrélation ou encore le degré de correspondance des variables et des facteurs. On peut ainsi interpréter le rôle de chaque variable dans la définition de chaque facteur. Ces poids indiquent la représentativité d’une variable vis-à-vis d’un facteur. En somme, les premiers facteurs extraits constituent ainsi les meilleures synthèses de variables. Les autres facteurs constituent des combinaisons où la variance à expliquer est de moins en moins optimale. 
  • L’interprétation avec rotation des facteurs est la plus parlante et qui permet de simplifier les matrices interdépendantes des variables et facteurs. Cette approche consiste à faire pivoter virtuellement les axes des facteurs, de façon à mieux mettre en évidence la variance à expliquer. Il sera plus aisé d’interpréter l’ACP : la visualisation des poids des variables est simplifiée. Les pratiques statistiques proposent un certain nombre de méthodes de rotation factorielle, dont la plus utilisée : le Varimax (méthode orthogonale).

Toujours en matière de lecture d’ACP, d’autres étapes sont mises en œuvre à la suite de l’examen de la matrice des composantes, à savoir : l’identification du poids le plus élevé de chaque variable et le nommage des facteurs.

Dans quelle situation faire usage de l’ACP ?

L’Analyse en Composants Principales ou ACP est principalement un outil d’exploration de données, à mettre en œuvre en présence d’un dataset avec un nombre considérable de variables. Il existe aussi inévitablement des corrélations dans cet ensemble de données, donnant lieu à des répétitions et des redondances, sachant que cela n’est pas forcément discernable. L’utilisation de l’ACP est donc préconisée avant d’autres méthodes d’analyses de données. 

Aussi, à notre ère technologique où la Big data est en passe de devenir un élément de performance et de croissance incontournable pour l’entreprise, cette forme d’analyse est plus que jamais pertinente. En témoigne l’apparition d’outils logiciels hautement performants et conviviaux qui permettent de réaliser une ACP, que l’on soit ou non spécialiste en statistiques.

Vous souhaitez vous former au Big Data ? Retrouvez les formations Data Full Stack et Data Analyst qui vous forment aux métiers de Data Analyst, Data Scientist, Data Engineer et AI Scientist.
Merci pour votre lecture ! Si vous souhaitez lire nos prochains articles autour de la Data et de l’IA, vous pouvez nous suivre sur FacebookLinkedIn et Twitter pour être notifié lorsqu’un nouvel article est publié !