Modelisation factorielle des interactions entre deux ensembles dobservations : la methode PLS-FILM (Partial Least Squares Factor Interaction Linear Modelling)

Modélisation factorielle des interactions entre deux ensembles d'observations : la méthode PLS-FIL M 1 ( Partial Least Squares Factor Interaction Linear Modelling ) X. Bry * , T. Verron ** * Département de Mathématiques, UM2, Place Eugène Bataillon, 34090 Montpellier ** ALTADIS, Centre de recherche SCR, 4 rue André Dessaux, 45000 Fleur y lès Aubrais Résumé: On considère un tableau codant numériquement des interactions entre deux ensembles d'observations respectivement dénommés "sujets" et "objets". Par ailleurs, on dispose de descriptions des sujets et des objets à l'aide de variables. Nous proposons ici une technique d'analyse exploratoire des interactions. Cette technique géométrique utilise une modélisation factorielle hiérarchique de s interactions sujets-objets à partir de descriptions structurelles respectives des uns et des autres. Elle fournit un pont entre les méthodes RLQ de Chessel et L-PLS de Martens, avec lesquelles elle n'a cependant de commun que les composantes de rang 1. Mots-clés: Equations Structurelles, Interactions, L-PLS, Modèle Linéaire, PLS, PLS-FILM, Régression Linéaire, RLQ, Variables Latentes. Abstract: In this work, we consider a data array encoding interactions between two sets of observations respectively r eferred to as "subjects" and "objects". Besides, descr iptions of subjects and objects are available through two variable sets. We propos e a geometrically grounded exploratory technique to analyze the interactions using de scriptions of subjects and objects: interactions are modelled using a hierarchy of subject-factors and object- factors built up from these descriptions. O ur method bridges the gap between those of Chessel (RLQ analysis) and Martens (L-PLS), although it only has rank 1 components in common with them. Keywords: Interactions, Latent Var iables, Linear Model, Linear Regression, L-PLS, PLS, PLS-FILM, RLQ, Structural Equation Modelling. Notations: Les minuscules carolingiennes désignent en général des vecteurs colonnes ( a,b,...x, y... ), ou des valeurs courantes d'indices ( j, k..., s, t ...). < u 1 , ... , u n > désigne le sous-espace vectoriel engendré par les vecteurs u 1 , ... , u n . e n désigne le vecteur de ℝ n dont toutes les composantes valent 1. Les minuscules grecques ( α , β ,... λ , µ ,...) désignent en général des scalaires. 1 Dans l'article, on emploiera l'acronyme abrégé: FILM Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 1 < x|y > M désigne le produit scalaire des vecteurs x et y au sens de la métrique M . Les majuscules désignent en général des matrices ( A, B...X, Y. ..), ou des valeurs maximales d'indices ( J, K...S, T. ..). X étant une matrice ( I,J ): x i j désigne la valeur située à l'intersection de la ligne i et de la colonne j ; x i désigne le vecteur ( x i j ) j= 1 à J ; x j désigne le vecteur ( x i j ) i= 1 à I < X > désigne le sous-espace vectoriel engendré par les colonnes de X . Π E désigne le proj ecteur orthogonal sur un s ous-espace E , au sens d'une métrique à préciser. X étant une matrice, on notera de façon allégée Π X le projecteur Π Dans un algorithme, a ( k ) désigne la valeur de l'élé ment a après l'itération k . Abréviations: AC : Analyse Canonique ACB : Analyse des Correspondances Binaires ACP : Analyse en Composantes Principales ACPVI: ACP sur Variables Instrumentales (= ARM ) AIB : Analyse Inter-Batteries ARM : Analyse des Redondances Maximales (= ACPVI ) C.L. : Combinaison linéaire L-PLS : régression PLS pour structures en L . OLS: Ordinary Least Squares OLS1 : Régression OLS univariée PLS: Partial Least Squares PLS1 : Régression PLS univariée (1 variable dépendante) PLSn : Régression PLS multivariée (1 groupe de variables dépendantes) Introduction Dans de nombreux domaines, des interactions apparaiss ent naturellement entre deux ensembles d'observations, et la question se pose de modéliser ces interactions en fonction des caractéristiques des observations. Les observations des deux ensembles seront respectivement appelées sujets et objets . Le choix des suj ets et des objets est arbitraire, les deux ensembles étant traités de façon parfaitement symétrique. Par exe mple, en analyse sensorielle, on peut faire noter par un jury l'accord d'un vin (sujet) avec un fromage (objet). Vins et fromages sont décrits par ailleurs à l'aide de notes sensorielles et de caractéristiques physico-chimiques. En toute généralité, on peut imaginer toutes sortes de données de correspondance ou d'interaction entre deux ensembles d'individus assez richement décrits par ailleurs: Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 2 Domaine Sujets Objets Interactions Parfumerie Base Parfum Note d'appréciation/efficacité Cosmétique Derme Produit Note d'appréciation/efficacité Agronomie Sol Variété Performance Ecologie Environnement Espèce Densité de peuplement Médecine Pathologie Traitement Performance ( e.g. survie) Archéologie Site Objets Densité de présence Marketing Consommateurs Produits Usage (fréquence/quantité) Les descriptions des sujets et objets peuvent être très fournies, tandis que les observations elles-mêmes sont en nombre plutôt li mité. Il est alors impossible de modéliser immédiatement les interactions en fonction des caractéristiques. En effet, si l'on a n sujets décrits par J variables x j et p objets décrits par K variables y k , les interactions sont au nombre de np , tandis que leur modèle linéaire ou linéaire généralisé ferait intervenir J+K+JK variables (les x j , y k et x j y k ). On a dans ce cas besoin d'une méthode exploratoire qui permette de visualiser, dans les descriptions des observations, les dimensions utiles à la modélisation des interactions. La méthode que nous proposons ici, fonctionnant sur le principe de la régression PLS, s'attache en outre à rechercher des dimensions structurellement fortes. Plusieurs auteurs ont proposé des méthodes traitant ce problème. Nous les exa minerons rapidement afin d'en montrer les points communs, les différences, et les limitations. 1. Données, problème, modèle 1.1. Données On dispose de 3 tableaux matriciels: ➢ X est une matrice ( n,J ) décrivant n observations appelés sujets à l'aide de J variables numériques x 1 , ... , x J . La valeur de x j pour le sujet i est notée x i j . ➢ Y est une matrice ( p,K ) décrivant p observations appelés objets à l'aide de K variables numériques y 1 , ... , y K . La valeur de y k pour l'objet m est notée y m k . ➢ Z est une matrice ( n,p ) codant les interactions entre les sujets et les objets à l'aide de valeurs numériques. La valeur de l'interaction entre le sujet i et l'objet m est notée z i m . En outre, les sujets (respectivement objets) sont munis de pondérations. Le sujet i est muni du poids statistique p i . On impose: ∑ i = 1 n p i = 1 . De même, L'objet m est muni du poids statistique q m . On i mpose: ∑ m = 1 p q m = 1 . La matrice ( n,n ) diagonale des p i est notée P ; La matrice ( p,p ) diagonale des q m est notée Q . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 3 1.2. Problème On cherche à analyser les interactions en les mettant en rapport avec les caractéristiques des sujets et des objets respectivement. Cette anal yse utilisera une modélisat ion factorielle des interactions sujet-objet: on cherchera, dans les caractéristiques X des sujets (respectivement Y des objets), un petit nombre de composantes assez fortes f 1 ,..., f S (resp. g 1 ,..., g T ) dont les interactions puissent rendre compte de la plus grande part possible du tableau Z (cf. figure 1). 1.3. Modèle de Z Nous allons présenter deux modèles de Z . Le premier (modè le A) ne prend en compte que les interactions entre composantes sujet et objet. Le second, plus "réaliste" (modèle B) prend en com pte, en sus des interactions, les effets marginaux de ces com posantes. Dans un premier temps, seul le modèle A sera estimé, car il mène à des développements formels simplifiés (section 2). D ans un deuxième temps, nous présenterons en détail le modèle B et l'algorithme qui l'estime (section 3). a) Espaces métriques • L'es pace ℝ J où se trouvent les vecteurs x i corres pondant aux lignes de X est muni d'une métrique euclidienne M fournissant le produit scalaire: 〈 x i ∣ x i ' 〉 M = x i ' M x i ' • L'espace ℝ K où se trouvent les vecteurs y m correspondant aux lignes de Y est muni d'une métrique euclidienne N fournissant le produit scalaire: 〈 y m ∣ y m' 〉 N = y m ' N y m ' • Les espaces ℝ n et ℝ p où se trouvent respectivement les variables sujet x j et objet y k sont munis des métriques respectives P et Q , de sorte que s i les variables sont centrées, leur produit scalaire égale leur covariance. 〈 x j ∣ x l 〉 P = x j ' P x l ; 〈 y k ∣ y r 〉 Q = y k ' Q y r • L'espace ℝ np où se trouve le tableau Z est muni du produit scalaire suivant (noté R ): 〈 W ∣ V 〉 R = tr  Q W ' PV  (On vérifie aisément symétrie, bilinéarité et le fait que la forme quadratique associée est définie positive). N.B. Les métriques M et N offrent une possibilité d'adapter la méthode à des données de structure ou type particulier ( e.g. données qualitatives, ou structurées en sous-tableaux). b) Modèles de Z • Composantes sujet et objet: Z sera modélisé à partir de X et Y en utilisant: ➢ S composantes-sujet f s ∈ ℝ n décrivant les suj ets et supposées exprimables linéairement à partir de X ; Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 4 ➢ T composantes-obj et g t ∈ ℝ p décrivant les objets et supposées exprimables linéairement à partir de Y (cf. figure 1). Figure 1: Résumer X et Y pour modéliser Z (X,M,P) J (Y,N,Q) Z p K F G S T x 1 ... x j ... x J f 1 .. f s .. f S g 1 .. g t .. g T y 1 .. y k .. y K n n p p n ⊗ On pose ainsi: ∀ i , s : f i s = ∑ j a j s x i j ; ∀ m , t : g m t = ∑ k b k t y m k Soit, matriciellement: F = XA ; G = YB où: F = ( f i s ) i,s ; G = ( g m t ) m,t ; A = ( a j s ) j,s ; B = ( b k t ) k,t • Modèles de Z: De façon générale, on cherche à décomposer Z comme s uit: Z =  Z  E où la partie prédite  Z est fonction des composantes F et G , et où E représente une partie résiduelle à minimiser. Selon la formulation de  Z , on obtient différents modèles. Modèle A (interactions pures): On formule comme suit Z en fonction des composantes: ∀ i , m :  z i m = ∑ s , t  st f i s g m t Soit, matriciellement:  Z =   z i m  i , m = ∑ s , t  st f s g t ' = F  G ' où: =    st   s = 1 à S t = 1 à T E est une matrice de résidus que l'on cherche à minimiser. L'estimation du modèle A par FILM utilisera un algorithme noté FILM-A. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 5 N.B.: On peut écrire: Z = F  G '  E = X C Y '  E avec: C = A  B ' Modèle B (interactions et effets propres): Ici, on tient compte des effets propres des composantes. On pose ainsi:  z i m = ∑ s , t  st f i s g m t  ∑ s  s f i s  ∑ t  t g m t On obtient alors:  Z = F  G '  F  e p '  e n  ' G ' où:  =   s  s = 1à S ;  =   t  t = 1 à T L'estimation du modèle B par FILM utilisera un algorithme noté FILM-B. Notons qu'en général, le tableau Z peut et doit être modélisé à l'aide du modèle B, les effets propres étant sus ceptibles d'être primordiaux. Le cas particulier extrême est celui d'un modèle linéaire de Z en fonction des f et g , où seuls les effets propres de ces dernières comptent. • Orthogonalités: Pour de s raisons d'économie d'information et pour faciliter les représentations graphiques de chacun des groupes X et Y , on demandera aux f s d'être orthogonales dans ℝ n comme aux g t de l'être dans ℝ p . Pour des raisons d'identifiabilité, on pourra, in fine , normer ces composantes. L'ajustement du modèle de Z conduit par ailleurs à:  Z ⊥ E • Interprétation des modèles: Modèle B: L'orthogonalité deux à deux des composantes suj et (resp. objet) facilite a priori le fait d'imaginer que l'une varie les autres restant fixes. D ès lors: (a)  f i s = 1,  f i u = 0 ∀ u ≠ s ⇒   z i m = s  ∑ t  st g m t (b)  g m t = 1,  g m v = 0 ∀ v ≠ t ⇒   z i m =  t  ∑ s  st f i s Selon (a), s i pour le s ujet i , f s augmente d'une unité, les autres composantes sujet f u restant inchangées, l'impact sur l'interaction prévisible entre le sujet i et l'obj et m sera la somme de plusieurs variations: une variation "propre" fixe φ s , et plusieurs variations d'interaction  st g m t dont chacune est liée à la valeur pour l'objet m d'une composante objet g t . Symétriquement, selon (b), si pour l'objet m , g t augmente d'une unité, les autres composantes objet g v restant inchangées, l'impact sur l'interaction prévisible entre le sujet i et l'objet m sera la somme de plusieurs variations: une variation "propre" fixe γ t , et plusieurs variations d'interaction  st f i s dont chacune est liée à la valeur pour le sujet i d'une composante sujet f s . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 6 Pour interpréter le modèle, il faudra donc interpréter les composantes f et g et examiner les « effets »  st g m t et  st f i s . Modèle A: Le modèle A est le cas particulier du modèle B sans effets propres des composantes. c) Force structurelle des composantes L'estimation du modèle ci-dessus prendra naturellement en compte l'ajustement du modèle aux données (petitesse du rés idu E ). Mais on souhaite également tenir compte d'un critère de force structurelle des composantes, afin de bannir du modèle estimé les dimensions de bruit de chacun des groupes X et Y . Pour mesurer la force structurelle d'une composante, pos ons: f s = XMu s où: u s ∈ ℝ J , ∥ u s ∥ M 2 = 1 ∥ f s ∥ P 2 = u s ' MX ' PXMu s représente ainsi l' inertie des n s ujets le long de l'axe < u s > de ℝ J . Ceci nous permet de cons idérer dans ce cas ∥ f s ∥ P comme une mesure possible de la force structurelle de la co mposante f s . On procédera de même pour les composantes-objet g t = YNv t : lorsque l'on impose v t 'Nv t = 1, ∥ g t ∥ Q 2 est l'inertie des p obj ets sur l'axe < v t > de ℝ K . La force structurelle de g t dans son groupe sera alors mesurée par ∥ g t ∥ Q . L'estimation du modèle se fera en optimisant un critère amalgamant qualité d'ajustement et force structurelle des composantes. d) Suite ordonnée de modèles La méthode FILM construit une suite de modèles ordonnés par inclusion, de la façon suivante: Le modèle de rang 1 sera obtenu pour S = T = 1. Les composantes f 1 et g 1 seront obtenues par optimisation d' un critère amalgamant force structurelle des composantes et ajustement de Z par un vecteur colinéaire à f 1 g 1 '. Le modèle de rang 2 sera obtenu à partir du modèle de rang 1, en cherchant les composantes f 2 et g 2 orthogonales respectivement à f 1 et g 1 maximisant un critère amalgamant force s tructurelle des composantes et ajustement de Z par une combinaison linéaire des vecteurs: f 1 g 1 ', f 1 g 2 ', f 2 g 1 ', f 2 g 2 '. On notera la présence, dès le rang 2, des interactions "croisées" f s g t ' , s ≠ t . De façon générale, Le modèle de rang t sera obtenu à partir du modèle de rang t -1, en cherchant les composantes f t et g t orthogonales respectivement à f 1 ,... f t -1 et g 1 ,... g t -1 maximisant un critère am algamant force structurelle des composantes et ajustement de Z par une combinaison linéaire des vecteurs: f 1 g 1 ', ... f 1 g t ', ... , f t g 1 ', ... f t g t '. 1.4. Dans la littérature Les auteurs ayant traité de problèmes similaires ont fondé leurs méthodes sur des versions simplifiées du modèle de base présenté ci- dessus. N ous s ituons briève ment ci- après leurs techniques dans le cadre de ce modèle, afin de mettre en lumière leurs points Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 7 communs, différences et limitations. a) L'analyse RLQ de Chessel Chessel, dans le sillage de ses travaux sur la co-inertie, a proposé une méthode particulière d'analyse d'un couple de tableaux quelconques (ici X e t Y ) liés par un tableau de contingence (ici Z ): la méthode RLQ [Chessel et al . 1993]. Nous verrons dans la section 3.3. que le même problème peut être traité par FILM. Le modèle de base de RLQ est le modèle A. Cette méthode est fondée sur la maximisation d'un critère de co-inertie qui corres pond exactement au critère de covariance de FILM dans le cas des tableaux de contingence. Les méthodes RLQ et FILM -A coïncident alors au rang 1. Cependant, elles fourniss ent des composantes distinctes à partir du rang 2, pour les raisons suivantes: 1) Les problématiques des deux méthodes diffèrent. L'analy se RLQ se propos e d'analyser la co-structure des tableaux X et Y , comme l'analy se de co-inertie en général, mais les obs ervations de ces deux tableaux (sujets et objets) étant dans ce cas précis liés par Z . L'analyse RLQ es t ainsi focalisée sur les structures d'inertie des sujets et des objets. Par suite, elle aboutit à une "s imple" diagonalisation. De son côté, FILM cherche bien des structures de X et Y , mais seulement dans la mesure où elles jouent un rôle utile dans un modèle de Z . FILM est donc davantage focalisée sur la modélisation de Z . FILM tire alors parti, dès le rang 2, des interactions croisées entre les composantes ( e.g ., au rang 2, les interactions entre f 1 et g 2 , ainsi qu'entre f 2 et g 1 ), ce que RLQ ne fait pas. Le fait de tenir compte de ces interactions croisées complexifie l'algorithme fournissant les composantes. En quelque sorte, dans le cas d'un tableau Z de contingence, FILM es t à RLQ ce que la régression PLSn est à l'Analyse Inter-Batteries. 2) Plus généralement, l'analy se RLQ s uppose que Z est un tableau de contingence. En effet, le modèle A ne convient qu'à un tableau Z doublement centré (en ligne et en colonne); or, co mme nous l'exposons en section 3.3.b, le double centrage d'un tableau de contingence fournit un codage adéquat de la liaison entre les deux caractères qu'il croise. Si FILM-A (§2) ne fonctionne de même qu'avec un tableau Z doublement centré (§3.1), il est ensuite étendu par FILM-B au cas d'un tableau Z quelconque (§3.2). b) ACP du tableau Z avec information sur les m arges (ACPIM) Par ailleurs, Takane et Shibayama ont proposé [Takane et al. 1991] une technique de décomposition d'un tableau Z quelconque, analogue à celle de l'ACP, mais dont les composantes principales sujet f s (respectivement objet g t ) sont astreintes à être linéairement expri mables en fonction des caractéristiques x j (resp. y k ). Le modèle qu'ils posent est: Z = XCY' + XH + KY' +E On constate qu'il n'est pas fait ici de référence explicite aux composantes. En particulier, la modélisation des interactions et celle des effets propres n'est pas contrainte à utiliser les mêmes composantes. Dans cette modélisation, seules les s tructures de Z sont prises en compte, et la force structurelle des C.L. de X (resp. de Y ) utilisées par la modélisation n'intervient pas. Ainsi, les dimensions résiduelles (bruit) de X et Y peuvent participer à la modélisation de Z au même titre que leurs dimensions fortes. Il s 'ensuit une perte de robustesse des composantes, ainsi que des difficultés d' interprétation, notamment en cas Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 8 de colinéarités dans X et Y . La méthode FILM que nous proposons est, comme l'ACPIM, une méthode d'analyse d'un tableau Z quelconque, qu'elle cherche à modéliser à partir de l'information disponible sur ses marges. Mais à la différence de l'ACP IM, elle cherche à appuyer le modèle de Z sur les s tructures les plus fortes possible de X et Y , afin de fournir un modèle plus robuste et facilement interprétable. En quelque sorte, FILM est à l'ACPIM ce que la régression PLS1 est à la régression multiple. c) L-PLS: [Martens et al. 2005] utilise au départ le modèle A avec des matrices M , N, P, Q toutes égales à l' identité. Pour es timer le modèle, il propose une technique, L-PLS, fondée sur la décomposition en valeurs singulières de la matrice X'ZY . Deux variantes sont proposées. Dans la première, les composantes sont: f k = Xu k et g k = Yv k , où u k et v k sont les vecteurs propres normés des matrices respectives X'ZYY' Z'X et Y' Z'XX'ZY , associés à la k ième valeur propre par ordre décroissant . C ette première variante est très semblable à RLQ, avec un système de poids différent. Dans la seconde variante, les composantes de rang 1 sont les mêmes que dans la première, mais les composantes de rangs 2 sont obtenues en réitérant le procédé donnant les composantes de rang 1 après avoir remplacé les tableaux X et Y par leurs résidus de régression respectivement s ur f 1 et g 1 (il est dès lors évident que seule l'interaction entre f 2 et g 2 est prise en compte). Ainsi de suite pour les composantes de rangs ultérieurs. U ne fois obtenues les composantes, la matrice Ω est estimée par ajustement à Z du modèle A selon un programme de moindre s carrés ordinaires, lequel fournit:  =  F ' F  − 1 F ' ZG  G ' G  − 1 La diagonalisation initiale n'est pas explicitement présentée comme résultant de l'optimisation d'un critère. Nous montrons toutefois, dans le §2.1. b , que tel est le cas, et que ce critère est d'interprétation statistique directe. La méthode FILM-A coïncide avec L-PLS au rang 1, dans le cas particulier de données numériques et d'observations équipondérées. Mais elle s'en distingue dès le rang 2 pour deux raisons essentielles: 1) Comme RLQ, L-PLS (quelle qu'en soit la variante) ne calcule pas les composantes sujet f (resp. objet g ) de rang k en tenant compte de leurs possibles interactions avec les composantes objet g (res p. sujet f ) de rangs inférieurs. Il s'ensuit une déperdition éventuellement forte du pouvoir prédictif des composantes. 2) L-PLS calcule les composantes sujet et objet en fonction du pouvoir prédictif de leurs seules interactions, ce qui correspond à l'ajustement du modèle A (encore ces interactions sont-elles ici restreintes aux composantes de même rang). U ne fois calculées les composantes f et g , L-PLS procède, via une régression OLS, à un ajustement à Z du modèle B, ce qui n'est guère cohérent. Par contraste, FILM-B procède au calcul des composantes et à l'ajus tement sur le même modèle: B. d) 2-step L-PLS Dans [Esposito-Vinzi et al. 2007], il est dit que la vers ion L-PLS de Martens ne dérive pas de l'opti misation d'un critère statistiquement interprétable. De fait, aucun critère Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 9 n'est présenté par Martens. Il n'en demeure pas m oins que sa méthode découle au rang 1, comme nous le montrons au §2.1. b , de la maximisation d'un critère de covariance étendu au modèle A. [Esposito-Vinzi et al. 2007] proposent, pour remédier à ce manque apparent de critère, une variante de L-PLS qui estime successivement les composantes f , puis g , à l'aide de deux régressions PLS classiques emboîtées. Il y a donc maximisation successive de deux critères partiels. Nous pensons que cette rupture de s y métrie dans le traitement des sujets et objets est dommageable, ces deux groupes d'observations jouant des rôles parfaitement symétriques dans le modèle. e) Bilan synoptique Méthode: Caractéristiques RLQ ACP-IM L-P LS 2-step LPLS FILM Tableau Z Tableau de Contingence Variables numériques Variables numériques Variables numériques Quelconque Tableau(x) analysés X, Y Z Z Z Z Structures prises en compte X, Y, Z Z X, Y, Z X, Y, Z X, Y, Z Modèle u tilisé pour l'estimation des composantes A B composantes distinctes pour marges et interactions A A A,B composantes identiques ou distinctes pour marges et interactions Mention d' un critère global à optimiser Oui (co-inertie) Oui (R²) Non Non Oui (Covariance) Suite de modèles emboîtés Oui Non Oui Oui Oui Pondérations quelconques des sujets et objets Non Non Non Non Oui Estimations des composantes sujets et objets Simultanées Simultanées Simultanées Successives Simultanées Prise en compte des interactions croisées entre composantes lors de l'estimation des composantes Non Non Non Non Oui 2. Ajustement de Z au modèle A: progr amme de base, solution, propriétés, algorithme FILM-A 2.1. Programme d'ajustement a) Préliminaires • Un cône Considérons le sous-ensemble C 1 de R np défini par: Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 10 C 1 ={ Xa  Yb  ' ∣ a ∈ ℝ J , b ∈ ℝ K } C 1 n'est pas un espace vectoriel. En effet, il n'est pas s table par addition. Par contre, c'est un cône, étant stable par multiplication par un scalaire: S ∈ C 1 ⇒ ∃ a , b : S = Xa  Yb  ' ;  ∈ ℝ ⇒  S = X  a  Yb  ' ∈ C 1 Les coupes de C 1 à a (respectivement b ) fixé sont, elles, des sous-espaces vectoriels. • Correspondance entre produits scalaires dans ℝ J , ℝ K , C 1 : ∀ f , h ∈ ℝ J , ∀ g , l ∈ ℝ K : 〈 f g ' ∣ h l ' 〉 R = tr  Q  fg '  ' P  hl ' = tr  Qgf ' Phl ' = tr  l ' Qg f ' Ph =  f ' P h   l ' Qg  ⇔ 〈 f g ' ∣ h l ' 〉 R = 〈 f ∣ h 〉 P 〈 g ∣ l 〉 Q (1) En particulier: ∥ f g ' ∥ R 2 = ∥ f ∥ P 2 ∥ g ∥ Q 2 (2) Il découle de cela une correspondance entre vecteurs unitaires de ℝ J , ℝ K , C 1 : Théorème 1: (i) Soit U ∈ C 1 : U = fg' , où f ∈ℝ J , g ∈ ℝ K . On a: ∥ f ∥ P = 1 et ∥ g ∥ Q = 1 ⇒ ∥ U ∥ R = 1 (ii) Réc iproquement, soit un vecteur unitaire U de C 1 , on peut trouver f ∈ℝ J , g ∈ ℝ K unitaires tels que U = fg' . Preuve: (i) découle directement de (2). (ii): U ∈ C 1 ⇒ ∃ F ∈ ℝ J , G ∈ ℝ K / U = FG ' ; ∥ U ∥ R 2 = 1 ⇒∥ F ∥ P 2 ∥ G ∥ Q 2 = 1 ⇔ ∥ F ∥ P = 1 ∥ G ∥ Q Donc: U =  F ∥ F ∥ P  G ∥ G ∥ Q  '  Il découle également de (1) une correspondance entre vecteurs orthogonaux de ℝ J , ℝ K , C 1 : Théorème 2 : Soient U = fg' et V = f*g*' deux vecteurs de C 1 . On a immédiatement, d'après (1): U ⊥ V ⇔ f ⊥ f* ou g ⊥ g* (3) Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 11 • Ajustement d'un vecteur par un vecteur d'un cône: Soit L un es pace métrique quelconque, soit Z ∈ L , ∥ Z ∥ 2 = 1 et soit C un cône de L . Nous allons chercher la meilleure approximation de Z appartenant à C . Le fait de prendre Z normé simplifie les écritures, mais n'est aucunement limitatif, le problème de l'ajustement sur un cône étant auto-homothétique. Théorème 3 : Soit:  Z = Ar g min S ∈ C ∥ S − Z ∥ 2 Alors:  Z =〈 U ∣ Z 〉 U où: U = Arg Max U ∈ C , ∥ U ∥ 2 = 1 cos  U , Z  (4) Preuve: Utilisons le fait que C est un cône pour poser: S = α U où  ∈ ℝ + et U ∈ C , ∥ U ∥ 2 = 1 . On cherche donc à résoudre: Min  ∈ℝ + U ∈ C , ∥ U ∥ 2 = 1 ∥ U − Z ∥ 2 Or: ∥  U − Z ∥ 2 =  2 − 2  〈 U ∣ Z 〉  ∥ Z ∥ 2 La minimisation sur α conduit à la condition du premier ordre:  ∂ ∂  ∥  U − Z ∥ 2    = 0 ⇔   = 〈 U ∣ Z 〉 N.B.: On peut toujours prendre   positif, quitte à remplacer U par - U . On a alors: ∥   U − Z ∥ 2 = ∥ Z ∥ 2 −〈 U ∣ Z 〉 2 = 1 −〈 U ∣ Z 〉 2 Donc, compte tenu de la positivité de < U|Z >, on peut écrire: Min U ∈ C , ∥ U ∥ 2 = 1 ∥   U − Z ∥ 2 ⇔ Max U ∈ C , ∥ U ∥ 2 = 1 〈 U ∣ Z 〉 ⇔ Max U ∈ C , ∥ U ∥ 2 = 1 cos  U , Z   b) Le programme d'ajustement de Z au m odèle A • Les critères d'inertie utilisés pour mesurer la force structurelle des composantes et le critère d'ajustement au cône C 1 sont simplement amalgamés dans le programme s uivant: P ( Z ; ( X,M ),( Y,N )): Max u ' Mu = 1 v ' Nv = 1 〈 Z ∣ XMu  YNv  ' 〉 R • Justification heuristique du critère maximisé: Notons: f = XMu , g = YNv . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 12 〈 Z ∣ fg ' 〉 R = ∥ fg ' ∥ R ∥ Z ∥ R cos R  fg ' , Z  (2) ⇒ ∥ fg ' ∥ R = ∥ f ∥ P ∥ g ∥ Q ⇒ 〈 Z ∣ XMu  YNv  ' 〉 R = ∥ XMu ∥ P ∥ YNv ∥ Q ∥ Z ∥ R cos R  fg ' , Z  Ce critère fait ainsi apparaître un produit de trois facteurs dont la maximisation isolée a une interprétation claire: ➢ Max u ' Mu = 1 ∥ XMu ∥ P correspond à la recherche de composantes fortes dans X (ce programme conduit à l'ACP de X,M,P ). ➢ Max v ' Nv = 1 ∥ YNv ∥ Q correspond à la recherche de composantes fortes dans Y (ce programme conduit à l'ACP de Y ,N,Q ). ➢ Max f ∈ℝ n , g ∈ ℝ p cos R  fg ' , Z  correspond, d'après (4), à la recherche du vecteur de C 1 le plus proche de Z . Figure 2: Schéma géométrique du problème ℝ p ℝ n ℝ np Z C 1 fg' E Ajustement f g Force structurell e 2.2. Résolution du programme P au rang 1 a) Vecteurs et composantes On récrit de façon plus commode le critère à maximiser: 〈 Z ∣ XMu  YNv  ' 〉 R = t r  QZ ' PXM uv ' N ' Y ' = tr  v ' N ' Y ' QZ ' PXMu  = v ' NY ' QZ ' P XMu ∈ ℝ (5) Le lagrangien du programme est: L = v'NY'QZ'PXMu - λ ( u'Mu - 1) - µ ( v'Nv - 1) ∂ L ∂ u = 0 ⇔ MX ' PZQYNv = 2  Mu (6a) Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 13 ∂ L ∂ v = 0 ⇔ NY ' QZ ' PXMu = 2  Nv (6b) On a: u '(6a) = v (6b)'= v'NY' QZ'PXMu = 2 λ = 2 µ , ce qui implique: λ = µ . On posera: = 4  2 = 4  2 Comme le programme maximise v'NY' QZ'PXMu , on devra avoir η maximum. Posons R X,M = XMX' et R Y,N = YNY'. Les équations (6a) et (6b) entraînent: X (6a) ⇔ XMX ' PZQYNv =   XMu ⇔ R X , M PZQ g =   f (7a) Y (6b) ⇔ YNY ' Q Z ' PXMu =   Y Nv ⇔ R Y , N QZ ' P f =   g (7b) On en déduit les équations correspondantes dont les co mposantes f et g sont solutions: R X , M  PZQ  R Y , N  QZ ' P  f =  f (8a) R Y , N  QZ ' P  R X , M  PZQ  g = g (8b) On notera f 1 et g 1 les solutions correspondant à la plus grande valeur propre η 1 . N.B. S oit T le rang commun aux matrices R X,M PZQR Y,N QZ'P et R Y,N QZ'PR X,M PZQ du système (8). La diagonalisation de ces matrices conduit à T triplets ( f t , g t , η t ) ordonnés par valeur propre η t décroissante. Ces triplets sont ceux de l'analyse RLQ. C e sont également, lorsque M, N, P, Q sont des matrices identité, ceux de la première variante de L-PLS, consistant à diagonaliser X'ZYY 'Z'X et Y'Z'XX'ZY , ce à quoi conduisent (6a) et (6b). Ces triplets n' ont en général pas de raison de fournir la meilleure modélisation de type A de Z . Dans cette dernière, en effet, interviennent les interactions croisées ( i.e. entre f s et g t , t ≠ s ), qui ne sont pas prises en compte dans le critère maxim isé dans P . On ne pourrait avoir coïncidence entre les deux analyses que si les interactions croisées ne jouaient aucun rôle dans la modélisation de Z (cf §§ 2.2. c et 2.3. b ci-dessous). b) Equations caractéristiques alternatives (7a) R X , M PZQ g =   f ⇒ R X , M PZQ g g ' QZ ' P R X , M Pf =  f  f ' P f  De même: (7b) R Y , N QZ ' P f =   g ⇒ R Y , N QZ ' P f f ' PZQR Y , N Qg =  g  g ' Qg  Si l'on ne s'intéresse qu'à déterminer les directions des composantes, on peut conserver ces équations en P -normant f et en Q -normant g . Il vient alors: (8a') R X , M PZQ g g ' Q Z ' PR X , M Pf =  f (8b') R Y , N QZ ' P f f ' PZQR Y , N Qg =  g Réciproquement: comme g ' QZ ' P R X , M Pf ∈ ℝ , (8a') ⇒ R X , M PZQ g =  f . De même, (8b') ⇒ R Y , N QZ ' P f =  g . Les coefficients de proportionnalité importent peu puisqu'on ne s'intéresse qu'aux directions. In fine , on peut donc caractér iser ( f , g ) normés comme solution du système (8a',8b') avec η maximale. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 14 c) Si l'on ne tient plus compte de la force structurelle des composantes: On utilise alors les métriques M = ( X'PX ) -1 et N = ( Y'QY ) -1 . En effet, dans ce cas: u ' Mu = 1 ⇒ ∥ XMu ∥ P 2 = 1 ; v ' Nv = 1 ⇒∥ Y Nv ∥ Q 2 = 1 Les composantes ay a nt alors toutes la même norme, les groupes X et Y n'interviennent qu'en tant que sous-espaces. Le programme est dans ce cas noté P ( Z ;< X >,< Y > ). Ses solutions sont caractérisées par des équations particulières. En effet: R X , M P = X  X ' PX  − 1 X ' P =  X ; R Y , N Q = Y  Y ' QY  − 1 Y ' Q =  Y Donc: (8a) ⇔  X ZQ  Y Z ' P f =  f ⇔  X ZQ  Y Z ' P  X f = f (9a) car f ∈〈 X 〉 ⇒  X f = f La matrice A =  X ZQ  Y Z ' P  X est P -symétrique car, comme P Π X = ( P Π X )' et Q Π Y = ( Q Π Y )', on a: PA = A'P . Par conséquent, s es vecteurs propres f sont P - orthogonaux. De même: (8b) ⇔  Y Z ' P  X ZQ g =  g ⇔  Y Z ' P  X ZQ  Y g = g (9b) car g ∈ 〈 Y 〉 ⇒  Y g =  g La matrice B = Y Z ' P  X ZQ  Y étant Q -sym étrique, ses vecteurs propres g s ont Q -orthogonaux. Les composantes f (resp. g ) solutions des équations (9a,9b) forment ainsi un système orthogonal. En outre, si l'on applique dans ce cas les résultats du §2.2. b , on peut caractériser le premier couple de solutions ( f,g ) comme solution du s y stème: (9a')  X ZQ g g ' QZ ' P  X f = f (9b')  Y Z ' P f f ' P Z Q  Y g =  g avec η maximale. d) Quelques cas particuliers restituant des m éthodes classiques ACP • Si l'on prend: X = I n avec M = P -1 , Y = I p avec N = Q -1 et Z quelconque, les équations (8a) et (8b) ci-dessus deviennent: ZQZ ' P f =  f ; Z ' PZQ g =  g Elles corres pondent donc à celles des ACP respectives de Z,P,Q et Z',Q,P (que l'on sait duales). • Si l'on prend Z quelconque, X = Z avec M = Q , et Y = Z' avec N = P , les équations (8a) et (8b) ci-dessus deviennent:  ZQZ ' P  3 f = f ;  Z ' PZQ  3 g = g Elles fournissent également les composantes principales respectives de Z,P,Q et Z',Q,P . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 15 Méthodes à deux groupes • Si l'on prend X et Y de même dimension en ligne ( n=p ), P = Q et Z = P -1 , le critère maximisé par le programme P devient, d'après (5): v ' NY ' PXMu . Ce programme se réduit donc au programme suivant: Q ( X,M;Y,N ): Max u ' Mu = 1 v ' Nv = 1 〈 XMu ∣ YNv 〉 P Il s' agit du programme fondamental des méthodes à deux groupes que sont l'analyse canonique, l'analyse des redondances maximales (alias ACPVI), l'analyse inter-batteries et l'analyse P LS (cf. par exemple [Br y 2001] ou [Tenenhaus 1998]). On montre, d'après (8a) et (8b) que les composantes f = XMu et g = Y Nv solutions de ce program me sont les solutions (correspondant à la valeur propre la plus élevée) des équations: R X , M P R Y , N P f =  f ; R Y , N P R X , M P g = g Analyses de tableaux de distances • Ici, les sujets, qui sont aussi les objets, sont équipondérés ( P = Q = I ) , Y = X et M = N . P renons alors pour tableau Z la matrice de produits scalaires reconstituée à partir d' une matrice D donnant les distances deux à deux entre les sujets (on suppose la distance euclidienne). La matrice de produits scalaires étant symétrique, elle peut s'écrire, d'une infinité de manières: Z = HH ' (les colonnes de H s'interprètent alors comme les coordonnées des sujets dans une base orthonormée quelconque; une possibilité est de prendre les composantes principales du nuage). On obtient alors les équations: (8a) ⇔  R X , M HH '  2 f = f ; (8b) ⇔  R X , M HH '  2 g =  g Ceci montre que f t = g t pour tout t . De plus, cette équation caractérise les composantes f t comme étant les solutions en f du programme Q ( X,M;H,I ). Il s'agit des composantes qui permettent de reconstituer, à partir des variables explicatives, la structure de distance correspondant à Z . On note que la technique que nous proposons dans cet article perm et de traiter le cas plus général où Z code les produits scalaires entre deux ensembles distincts d'individus, et encore plus généralement le cas où à la place d'un produit scalaire, on utilise un indicateur non symétrique d'accord pour chaque couple d' individus. 2.3. Composantes de rangs 2 et ultérieurs a) Cas général • On désire obtenir une décomposition approchée de Z sous la forme d'une combinaison de vecteurs de C 1 .  Z T = ∑ s = 1 T ∑ t = 1 T  st U st avec U st = f s g t ' où { f s } s et { g t } t sont des systèmes orthonormés • D'après le théorème 1, les U st sont des vecteurs normés, et d'après le théorème 2, ils sont deux à deux orthogonaux. En conséquence, { U st } s,t est un système orthonormé. On Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 16 pourra donc écrire: ∥  Z T ∥ R 2 = ∑ s = 1 T ∑ t = 1 T  st 2 Calcul des composantes de rang 2 • Soient X 1 =  〈 f 1 〉 ⊥ X et Y 1 =  〈 g 1 〉 ⊥ Y . Au rang 2, on cherche f 2 ∈ 〈 X 1 〉 et g 2 ∈ 〈 Y 1 〉 unitaires. Ces nouvelles composantes per mettent de construire les quatre vecteurs orthonormés suivants: U 11 = f 1 g 1 ' , U 12 = f 1 g 2 ' , U 21 = f 2 g 1 ' , U 22 = f 2 g 2 ' Soit C 2 l'ensemble suivant: C 2 = { ∑ s = 1 2 ∑ t = 1 2 a st f s g t ' ∣ f 2 ∈ 〈 X 1 〉 , g 2 ∈ 〈 Y 1 〉 } C 2 est un cône. Le théorème 3 assure alors que la recherche de l'ajustement OLS de Z par un élément de C 2 équivaut à la recherche du vecteur unitaire de C 2 faisant avec Z le cosinus maximum. Si l'on ne tenait pas compte de la force structurelle des composantes, il s'agirait donc de maximiser sur f 2 et g 2 : cos²( Z , < f 1 g 1 ' , f 1 g 2 ' , f 2 g 1 ' , f 2 g 2 '> ) On procède de façon algorith mique. Considérons que g 2 ait été trouvé; il s'agit alors de déterminer f 2 maximisant: cos²( Z , < f 1 g 1 ' , f 1 g 2 ' , f 2 g 1 ' , f 2 g 2 '> ) Les vecteurs U st = f s g t ' étant deux à deux orthogonaux, on a: cos²( Z , < f 1 g 1 ' , f 1 g 2 ' , f 2 g 1 ' , f 2 g 2 ' > ) = cos²( Z , < f 1 g 1 ' , f 1 g 2 ' > ) + cos²( Z , < f 2 g 1 ' , f 2 g 2 ' > ) Il s'agit donc de déterminer f 2 maximisant: cos²( Z , < f 2 g 1 ' , f 2 g 2 ' > ) = cos²( Z , a 21 f 2 g 1 ' + a 22 f 2 g 2 ' ) = cos²( Z , f 2 ( a 21 g 1 ' + a 22 g 2 ' )) On pos e G = ( g 1 , g 2 ) et a ' = ( a 21 , a 22 ). On a donc: a 21 g 1 + a 22 g 2 = Ga . En prenant a I - normé, on a: Ga Q -normé. D'autre part, il faut considérer la force structurelle de f 2 . On pose donc f 2 = X 1 Mu 2 , et on prend u 2 normé. On doit donc résoudre: Max u 2 ' Mu 2 = 1 a ' a = 1 〈 Z ∣ X 1 Mu 2  Ga  ' 〉 R De même, lorsque f 2 est déterminé, on calcule g 2 = Y 1 Nv 2 en résolvant: Max v 2 ' Nv 2 = 1 b ' b = 1 〈 Z ∣ Fb  Y 1 Nv 2  ' 〉 R où F = ( f 1 , f 2 ) La marche à suivre est donc simple: Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 17 ➢ On détermine f 1 et g 1 en normant les solutions f =XMu et g =YNv du programme P ( Z ; ( X,M ),( Y,N )). Puis , on calcule les résidus X 1 et Y 1 : X 1 = ( I n - f 1 f 1 ' P ) X ; Y 1 = ( I p - g 1 g 1 ' Q ) Y ➢ f 2 et g 2 sont déterminés itérativement à partir de valeurs initiales f 2 (0) et g 2 (0) en itérant jusqu'à convergence: (i) f 2 ( k +1) = solution f P -normée de: P ( Z ; ( X 1 ,M ),( G ( k ) ,I )) où G ( k ) = ( g 1 , g 2 ( k )) (ii) g 2 ( k +1) = solution g Q -normée de: P ( Z ; ( F ( k+ 1) ,I ),( Y 1 ,N )) où F ( k +1 ) = ( f 1 , f 2 ( k +1)) Algorithme FILM-A donnant les com posantes jusqu'au rang T ➢ Au rang t , on calcule les groupes: X t -1 = ( I n - f t- 1 f t- 1 ' P ) X t- 2 ; Y t -1 = ( I p - g t- 1 g t- 1 ' Q ) Y t- 2 F t -1 = ( f 1 , ... , f t -1 ) ; G t -1 = ( g 1 , ... , g t -1 ) Puis, on itère jusqu'à convergence: (i) f t ( k +1) = solution f P -normée de: P ( Z ; ( X t -1 ,M ),( G t ( k ) ,I )), où: G t ( k ) = ( G t -1 , g t ( k )) (ii) g 2 ( k +1) = solution g Q -normée de: P ( Z ; ( F t ( k+ 1) ,I ),( Y t -1 ,N )), où: F t ( k+ 1) = ( F t -1 , f t ( k +1)) ➢ On régresse enfin Z sur les vecteurs U st = f s g t ' . Ces vecteurs étant orthonormés, les coefficients de régression sont s implem ent: ω st = < Z | U st > R = tr( Qg t f s 'PZ ) = f s 'PZQg t On notera que l'on retrouve ici, étendue à deux sy s tèmes de poids quelconques, la formule donnée par [Martens et al. 2005]:  =  F ' PF  − 1 F ' PZQG  G ' Q G  − 1 = F ' PZQG ' b) Si l'on ne tient plus compte de la force structurelle des composantes • Lorsqu'on a choisi M = ( X'PX ) -1 et N = ( Y' QY ) -1 , on a vu au §2.2. c que les composantes f t et g t solutions des conditions du 1 er ordre forment des systèmes orthogonaux. On montre ici que la base { U st } s,t trouvée par l'algorithme FILM-A ci-dessus se réduit à: { U t } t où U t = f t g t ' ∀ t Considérons la détermination des composantes de rang t = 2 (la généralisation aux rangs suivants n'est pas très difficile). (a) Montrons d'abord que l'algorithme FILM-A fournit bien les co mposantes ( f 2 , g 2 ) solutions des conditions du 1 er ordre: Le pas (i) de l'itération ( k +1) de l'algorithme caractérise f 2 ( k +1) comme solution f normée de: P ( Z ; ( X 1 ,M ),( G ( k ) ,I )) où G ( k ) = ( g 1 , g 2 ( k )). On a donc, en appliquant (9a): Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 18  X 1 ZQ  g 1 g 1 '  g 2  k  g 2 '  k  QZ ' P  X 1 f 2  k  1 =  f 2  k  1  (10) ⇔  X 1 ZQg 1 g 1 ' Q Z ' P  X 1 f 2  k  1    X 1 ZQg 2  k  g 2 '  k  QZ ' P  X 1 f 2  k  1  =  f 2  k  1  Mais:  X 1 =  X 1  X =  X  X 1 ⇒  X 1 ZQg 1 g 1 ' QZ ' P  X 1 f 2  k  1  =  X 1  X ZQg 1 g 1 ' Q Z ' P  X  X 1 f 2  k  1  Or, d'après (7a):  X ZQg 1 ∝ f 1 . D'autre part, Π X étant P -symétrique, on a: P  X = X ' P . Il s'ensuit:  X 1  X ZQg 1 g 1 ' QZ ' P  X  X 1 f 2  k  1  ∝  X 1 f 1 f 1 ' P  X 1 f 2  k  1 = 0 car  X 1 f 1 = 0 Finalement: (10) ⇔  X 1 Z Q g 2  k  g 2  k  ' Q Z ' P  X 1 f 2  k  1 =  f 2  k  1  (11a) Sym é triquement, on établit que:  Y 1 Z ' P f 2  k  f 2  k  ' P Z Q  Y 1 g 2  k  1  = g 2  k  1  (11b) D'après (9a') et (9b') , (11a) et (11b) caractérisent f 2 ( ∞ ) et g 2 ( ∞ ) comme solutions du programme P ( Z ;< X 1 >;< Y 1 >). Or, ces dernières ne sont autres que les solutions de rang 2 des conditions du premier ordre du programme P ( Z ;< X > ;< Y >) puis que f 2 ∈ < X 1 > et g 2 ∈ < Y 1 >. (b) Montrons à présent que les vecteurs U st = f s g t ' où s ≠ t ont un coefficient nul dans la décomposition de Z . Supposons d'abord s > t : 〈 Z ∣ f s g t ' 〉 R = tr  QZ ' Pf s g t '  = g t ' Q Z ' P f s = g t ' Q Z ' P  X t − 1 f s Or,  X t − 1 est P -sym é trique, donc: P  X t − 1 =  X t − 1 ' P . En outre, on s ait que (7a) entraîne ici:  X t − 1 ZQg t ∝ f t . Il s'ensuit finalement: 〈 Z ∣ f s g t ' 〉 R ∝ f t ' P f s = 0 Similairement, pour s < t , on a: 〈 Z ∣ f s g t ' 〉 R = tr  QZ ' P f s g t ' = g t ' QZ ' P f s = g t ' Q  Y s − 1 Z ' P f s ∝ g t ' Q g s = 0 • En conclusion, comme dans ce cas particulier il n'y a pas de termes d'interactions "croisées", la décomposition de Z est particulièrement parci monieuse. Les composantes obtenues dans ce cas très particulier sont celles de l'analyse RLQ. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 19 2.4. Décomposition finale et indicateurs ut iles • Ayant calculé T² vecteurs U st orthonormés, on a:  Z T = ∑ s = 1 T ∑ t = 1 T  st U st =  〈 { U st } s , t 〉 Z et  E T = Z −  Z T =  〈 { U st } s , t 〉 ⊥ Z • On a, en appliquant Pythagore: ∥  Z T ∥ R 2 = ∑ s , t  st 2 et ∥ Z ∥ R 2 = ∥  Z T ∥ R 2  ∥  E T ∥ R 2 • Les contributions des termes de la décomposition à la norme carrée de Z seront mesurées en proportion de celle-ci. O n calculera ainsi: ∥  Z T ∥ R 2 ∥ Z ∥ R 2 ; ∀ s , t :  st 2 ∥ Z ∥ R 2 ; ∥  E T ∥ R 2 ∥ Z ∥ R 2 • On peut également, via Pythagore, déco mposer X (et || X ||²) sur ses composantes f s , et Y (et || Y ||²) sur ses composantes g t . Les parts de variance expliquée par les composantes sont dans tous les cas additives, par orthogonalité. La part de variance de X expliquée par f s , par exemple, est: f s ' PX X ' Pf s tr  X ' P X  = f s ' PX X ' P f s J si les x j sont normées. 3. Application à l'analyse des interactions 3.1. Centrages et conséquences a) Centrage des composantes et centrages de Z en ligne et colonne Les variables explicatives x j et y k étant en pratique hétérogènes, elles doivent être standardisées préalablement à l'anal y s e. Typiquement, elles seront centrées et réduites, afin d'être analysées en termes de corrélation linéaire. Le centrage des variables impose une contrainte forte à la décomposition recherchée de Z , ce qui rend le modèle A irréaliste si Z n'est pas centré en ligne et en colonne, donc en général. • P renons le cas élémentaire d'un tableau de rang 1. Le centrage de f et celui de g implique que U = fg ' est un tableau centré en ligne et en colonne: UQe p = f ( g'Qe p ) = 0 ; e n 'PU = ( e n 'Pf ) g ' = 0 • R éciproquement: si U = fg ' avec f et g non centrés, et soient f* = f centré, g* = g centré, et U*=U centré en ligne et en colonne; on a: U* = f * g *'. Notons: ∀ i ,  u i = ∑ j q j u i j ; ∀ j ,  u j = ∑ i p i u i j ;   u = ∑ i , j p i q j u i j = ∑ j q j  u j = ∑ i p i  u i On a: Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 20 U = fg ' ⇔ ∀ i , j : u i j = f i g j =  f i *   f   g j *   g  ⇔ ∀ i , j : u i j = f i * g j *   g f i *   f g j *   f  g ⇔ ∀ i , j : u i j = f i * g j *   g  f i −  f    f  g j −  g   f  g ⇔ ∀ i , j : u i j = f i * g j *   g f i   f g j −  f  g Or: ∀ i :  u i = ∑ j q j f i g j =  g f i ; ∀ j :  u j = ∑ i p i f i g j =  f g j   u = ∑ i , j p i q j f i g j =  f  g Donc: ∀ i , j : u i j −  u i −  u j    u = f i * g j * b) Ajustement du modèle A et centrage Théorème 4: L'application de FILM-A à Z sur des tableaux X et Y de variables centrées équivaut à son application sur le tableau Z * obtenu en centrant Z en ligne et en colonne. Preuve: Le centrage de Z en ligne et en colonne se fait comme suit: ∀ i , j : z i j * = z i j −  z i −  z j    z ⇔ Z * = Z − Z Qe p e p ' − e n e n ' PZ    z e n e p ' Or: 〈 XMuv ' N ' Y ' ∣ Z * 〉 R = tr  QYNvu ' MX ' PZ * = u ' MX ' PZ * QYNv De plus: X ' P Z * QY = X ' PZQY − X ' PZQe p e p ' QY − X ' Pe n e n ' PZQY    z X ' Pe n e p ' QY Et comme le centrage de X et Y équivaut res pectivement à la nullité de X'Pe n et Y'Qe p : X ' PZ * QY = X ' PZQ Y Donc: 〈 XMuv ' N ' Y ' ∣ Z * 〉 R = 〈 XMuv ' N ' Y ' ∣ Z 〉 R 3.2. Analyse d'un tableau avec effets propres et interactions (modèles B1 et B2) Nous vo y o ns ci- dessous qu'un tableau Z quelconque (non centré en ligne et colonne) apporte une triple information: - Une information marginale de disparité entre sujets, "indépendante" de l'objet; Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 21 - Une information marginale de disparité entre objets, "indépendante" du sujet; - Une information d'interaction "pure" entre sujets et objets, correspondant à un tableau centré en ligne et colonne. Dans la mesure du possible, il nous faut chercher des composantes permettant d'exprimer au mieux les informations des trois ty pe s. Nous verrons que deux s tratégies sont envisageables. a) Décomposition d'un tableau Z quelconque • Considérons deux vecteurs f ∈ℝ n et g ∈ℝ p . On note f * et g * les vecteurs f et g centrés. On a: fg ' =  f *   f e n   g *   g e p  ' = f * g * '   f  g e n e p '   g f * e p '   f e n g * ' Or, f * et g * étant centrés, les quatre vecteurs de cette somme sont deux à deux orthogonaux. Démontrons, à titre d’exemple, trois des six orthogonalités en question, les trois dernières se montrant de façon analogue: 〈 f * g * ' ∣ f * e p ' 〉 R = tr  Q g * f * ' Pf * e p ' = e p ' Qg * f * ' Pf * = 0 f * ' Pf * = 0 〈 f * g * ' ∣ e n e p ' 〉 R = tr  Qg * f * ' Pe n e p ' = e p ' Qg * f * ' Pe n = 0 〈 f * e p ' ∣ e n e p ' 〉 R = tr  Qe p f * ' Pe n e p ' = e p ' Q e p f * ' Pe n = 0 • Considérons à présent un tableau Z pouvant se décomposer la forme suivante: Z = ∑ t = 1 T f t g t ' où f t ∈ ℝ n et g t ∈ ℝ p quelconques On obtient, en faisant apparaître les f t et g t centrées: Z = ∑ t = 1 T  f t * g t * '   f t  g t e n e p '   g t f t * e p '   f t e n g t * '  Z =  ∑ t = 1 T  f t  g t  e n e p '   ∑ t = 1 T  g t f t *  e p '  e n  ∑ t = 1 T  f t g t *  '  ∑ t = 1 T f t * g t * Encore une fois, on obtient une somme de quatre vecteurs orthogonaux deux à deux. • Passons enfin à un tableau Z = (( z i j )) i,j quelconque. Il est décomposable de façon unique en: Z = Z 0 + Z i + Z m + Z * où: Z 0 = α e n e p ' ; Z * centré en ligne et colonne ; Z i = f e p ' où f ∈ℝ n P -centré ( e n 'Pf = 0) ; Z m = e n g' où g ∈ ℝ p Q -centré ( e p 'Qg = 0) Preuve: On a: e n 'Pe n = 1 et e p 'Qe p = 1. Le centrage de Z * en ligne et colonne implique: Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 22 e n 'PZ*Qe p = 0 ⇔ e n 'P ( Z - α e n e p ' - f e p ' - e n g' ) Qe p = 0 ⇔  =  z D'autre part: e n ' PZ * = 0 ⇔ e n ' PZ −   z e p ' − g ' = 0 ⇔ g = Z ' Pe n −   z e p ⇔ ∀ m , g m =  z m −   z Et de même: Z * Q e p = 0 ⇔ ∀ i , f i =  z i −   z Ce qui entraîne enfin: z i m * = z i m −   z i −   z −   z m −   z −   z = z i m −  z i −  z m    z b) Stratégies d'analyse La décomposition donnée en (a) permet d'envisager la modélisation factorielle séparée des tableaux Z i , Z m et Z * (modélisation notée B1) ou au contraire leur modélisation simultanée (modélisation notée B 2). N.B.: les variables de X et Y sont prises centrées. Modélisation séparée de Z i , Z m et Z * (FILM-B1) On utilise un programme de régression OLS1 ou PLS1 pour modéliser le f de Z i en fonction de composantes f 1 t * P -orthonormées de < X > (resp. g de Z m en fonction de composantes g 1 t * Q -orthonormées de < Y >) et l'algorithme F ILM-A (cf. § 2.3) pour décomposer Z * en ∑ s , t  st f s * g t * ' (utilisant aussi des composantes orthonormées). Cette façon de procéder n'impose aucune contrainte d'identité des co mposantes f 1 s * (resp. g 1 t * ) et f s * (resp. g t * ). On aura, après l'analyse séparée de chaque vecteur: Z i =  ∑ t = 1 T  t f 1 t *  e p '  W 1 ; Z m = e n  ∑ t = 1 T  t g 1 t *  '  W 2 ; Z * = ∑ s , t  st f s * g t * '  W 3 Le résidu W est dans chaque cas orthogonal à la partie expliquée. Les vecteurs W 1 ,W 2 ,W 3 sont aussi orthogonaux entre eux. Ces orthogonalités permettent de décomposer additivement la variance de Z : ∥ Z −  Z e n e p ' ∥ R 2 = ∥ Z i ∥ R 2  ∥ Z m ∥ R 2  ∥ Z * ∥ R 2 = ∥  ∑ t = 1 T  t f 1 t *  e p ' ∥ R 2  ∥ W 1 ∥ R 2  ∥ e n  ∑ t = 1 T  t g 1 t *  ' ∥ R 2  ∥ W 2 ∥ R 2  ∥ ∑ s , t  st f s * g t * ' ∥ R 2  ∥ W 3 ∥ R 2 La décomposition va même plus loin: ∥  ∑ t = 1 T  t f 1 t *  e p ' ∥ R 2 = e p ' Qe p  ∑ t = 1 T  t f 1 t *  ' P  ∑ t = 1 T  t f 1 t * = ∑ t = 1 T  t 2  f 1 t * ' Pf 1 t * = ∑ t = 1 T  t 2 Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 23 De même: ∥ e n  ∑ t = 1 T  t g 1 t *  ' ∥ R 2 = ∑ t = 1 T  t 2 Enfin: ∥ ∑ s , t  st f s * g t * ' ∥ R 2 = ∑ s , t  st 2 Modélisation simultanée de Z i , Z m et Z * (FILM-B2) La seconde stratégie envisageable consiste à traiter ensemble les tableaux de la décomposition de sorte à imposer l'identité des composantes f (resp. g ) trouvées pour décomposer Z i (resp. Z m ) et Z *. • Composantes de rang 1: Nous allons tout d'abord envisager la stratégie dans le cas où les composantes f et g n'ont pas de contrainte de force structurelle dans les groupes X et Y . Dans un deuxième temps, nous introduirons de telles contraintes. Supposons que l'on cherche à ajuster β f e p ' + γ e n g' + δ fg' à: Z −  z e n e p ' , f et g étant deux vecteurs unitaires centrés de 〈 X 〉 ⊂ ℝ n et 〈 Y 〉 ⊂ℝ p respectivement. Nous procéderons de façon itérative, en maximisant l'ajustement alternativement sur f et sur g : - A f et β fixés, on cherche à ajuster au mieux γ e n g' + δ fg' à : Z −  z e n e p ' −  f e p ' . On cherche donc à résoudre: Max  ,  , g / g ' g = 1 cos R  Z −  z e n e p ' − f e p ' ;   e n   f  g '  Notons d =     et H = ( e n * , f ) avec e n * = e n P -normé . On peut toujours imposer à d d'être I -normé, ce qui permet à h=Hd d'être P -normé. Le programme s'écrit alors: Max h ∈ 〈 H 〉 , h ' Ph = 1 g ∈ 〈 Y * 〉 , g ' Qg = 1 cos R  Z −  z e n e p ' −  f e p ' ; h g '  Si l'on désire à présent imposer à g une contrainte de force structurelle dans < Y >, le programme devient: Max d , d ' d = 1 v , v ' Nv = 1 〈 Z −   z e n e p ' −  f e p ' ∣ H d  Y Nv  ' 〉 R Ce n'est rien d'autre que le programme: P  Z −  z e n e p ' −  f e p ' ;  H , I  ,  Y , N  - De même, à g et γ fixés, on calculera f comme la solution P -normée du programme: P  Z −   z e n e p ' −  e n g ' ;  X , M  ,  K , I   où K = ( e p *,g ) • Composantes de rangs 2 et ultérieurs On régresse aisément Z −  z e n e p ' sur f 1 e p ' , e n g 1 ' et f 1 g 1 ' (ces deux derniers vecteurs étant orthogonaux), ce qui fournit un résidu Z 1 . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 24 On va chercher dans X 1 une composante f 2 orthogonale à f 1 et dans Y 1 une composante g 2 orthogonale à g 1 pour poursuivre la décomposition de Z . Le résidu Z 1 , orthogonal à f 1 e p ' , e n g 1 ' et f 1 g 1 ' doit être décomposé selon les vecteurs orthogonaux de R np : f 2 e p ' , e n g 2 ' , f 2 g 2 ' , f 1 g 2 ' , f 2 g 1 ' . Ce sont les vecteurs f 1 g 2 ' , f 2 g 1 ' qui compliquent un peu la tâche. On procédera comme pour les composantes de rang 2 dans l'algorithme FILM-A (§2.3): Pour ajuster à Z 1 un vecteur:  f 2 e p '   e n g 2 '   22 f 2 g 2 '   12 f 1 g 2 '   21 f 2 g 1 ' - A f 2 , α et γ 21 fixés, on ajustera à Z 1 −  f 2 e p ' −  21 f 2 g 1 ' un vecte ur   e n   22 f 2   12 f 1  g 2 ' . En posant H = ( e n * , f 1 , f 2 ) (3 vecteurs orthonormés) et d =    12  22  que l'on I -norme, on calculera g 2 en résolvant le programme: P  Z 1 −  f 2 e p ' −  21 f 2 g 1 ' ;  H , I  ,  Y 1 , N  Cette résolution fournit g 2 = Y 1 Nv , β , γ 12 et γ 22 . - De même, à g 2 , β et γ 12 fixés, on calculera f 2 en résolvant le programme: P  Z 1 − e n g 2 ' −  12 f 1 g 2 ' ;  X 1 , M  ,  K , I   où K = ( e p * , g 1 , g 2 ) ... ce qui donne f 2 = X 1 Mu , α , γ 21 et γ 22 . En pratique On e mploiera FILM-B1 ab initio , et si l'on constate une certaine convergence entre des composantes explicatives des effets propres et celles des interactions, on adoptera FILM-B2 pour estimer un modèle plus parcimonieux. 3.3. Application à la modélisation de l a dépendance entre deux variables nominales Nous nous trouvons ici exactement dans la s ituation traitée par la méthode RLQ, le tableau d'interactions étant un tableau de contingence. Au contraire de RLQ, F ILM modélise Z en prenant en compte les interactions croisées entre composantes. a) Données et notations spécifiques: Soit A =  f i m  i = 1, ... n m = 1, ... p le tableau de fréquences normalisé codant la distribution d'un couple de deux caractères qualitatifs C 1 et C 2. On dispose par ailleurs d'un tableau X (resp. Y ) de variables numériques décrivant les modalités de C 1 (resp. C 2). A la modalité i (resp. m ) du caractère C 1 (resp. C 2) on associe un poids égal à sa fréquence marginale f i. (resp. f .m ), où: f i. = ∑ m = 1 p f i m ; f . m = ∑ i = 1 n f i m Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 25 On note respectivement les matrices de poids: P = diag( f i. ) i= 1, ...n , Q = diag( f .m ) m= 1 ,...p . Les variables x j (resp. y k ) sont centrées- réduites relativement au système de poids P (resp. Q ). b) Codage matriciel de la liaison entre les caractères • Considérons le tableau Φ suivant:  =   i m  i , m avec  i m = f i m f i. f . m − 1 • Premièrement, on a: ∥  ∥ R 2 = tr  Q  ' P  = ∑ i , m  f i m − f i. f . m  2 f i. f . m On reconnaît là le coefficient φ ² mesurant l'intensité de la liaison entre les deux caractères. • Deuxièmement, l'ACB du tableau A fournit la formule de reconstitution suivante: f i m = f i. f . m  1  ∑ k   k f i k g m k  où l'on constate que le tableau Φ a fait l'objet d'un codage factoriel :  i m = ∑ k   k f i k g m k , où λ k est la k -ième valeur propre de l'ACB, f k et g k étant les composantes directe et duale normées correspondantes. La méthode FILM va permettre de modéliser Φ à partir des variables de X et Y . c) Application de FILM • On constate que Φ est centré en colonne pour les poids f i. et en ligne pour les poids f .j . Pour le centrage en colonne, par exemple: ∑ i f i.  ij = ∑ i f ij f . j − ∑ i f i. = f . j f . j − 1 = 1 − 1 = 0 Il en va de même pour le centrage en ligne, par sym é trie. On peut donc appliquer à Φ modèle et algorithme FILM-A:  i m = ∑ k  k f i k g m k ... où les f k sont cette fois des composantes P -centrées dans < X > et les g k des composantes Q -centrées dans < Y >. Les composantes de rang 1 de RLQ et FILM coïncident, mais les composantes fournies par les deux méthodes diffèrent en général à partir du rang 2, à cause des interactions croisées. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 26 4. Exemples 4.1. Simulation Nous avons réalisé 100 fois l'expérience suivante: 1) Générer X (respectivement Y ) selon le patron de faisceaux orthogonaux suivant: ● 3 faisceaux “explicatifs” F1, F2 et F3 (resp. G1, G2 et G3) de respectivement 3, 2 et 1 variables. ● Un faisceau “parasite” F4 (resp. G4) de 4 variables très fortement corrélées. ● Des vecteurs de bruit indépendants constituant une matrice E . Les variables du faisceau F k (resp. G k ) sont engendrées en a joutant autant de bruits de variance petite devant 1 à une même variable normée f k (resp. g k ). 2) Générer le tableau Z comme suit: Z = Z * + E où: Z * = ω 1 f 1 g 1 ' + ω 2 f 2 g 2 ' + ω 3 f 3 g 3 ' Ici: Z * = .49 f 1 g 1 ' + .69 f 2 g 2 ' + .53 f 3 g 3 ' 3) On analyse Z par FILM, d'abord sans tenir compte de la force structurelle des composantes, puis en en tenant compte. On note à chaque estimation le R² , ainsi que, pour tout k :   f k ,  f k  ,   g k ,  g k  . De la prem ière à la dernière expérience, nous avons fait croître la variance de E de 0 à V( Z *). Le seuil de convergence des composantes es t fixé à 10 -9 . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 27 a) Analyse sans tenir compte de la force structurelle: Le nombre d'itérations pour convergence a toujours été au plus égal à 7. ● L'évolution du R² selon l'amplitude du bruit est donnée par la figure 3. Figure 3: Evolution du R² selon l'amplitude du br uit ● L'évolution, selon l'amplitude du bruit, des corrélations entre facteurs originels et estimés est donnée par la figure 4. Figure 4: Evolution, selon l'amplitude du bruit, des corrélations   f k ,  f l  Noir :   f 1 ,  f 3  ; Rouge :   f 2 ,  f 1  ; Vert :   f 3 ,  f 2  La composante f 2 g 2 ' est trouvée par FILM au rang 1, la composante f 3 g 3 ' au rang 2, et la composante f 1 g 1 ' au rang 3. Elles sont donc trouvées dans l'ordre du ω décroissant (donc de l'ajustement décroissant). Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 28 % de bru i t R2 0.5 0. 6 0.7 0. 8 0.9 1.0 0% 20% 40% 60% 80% 100% % de br u i t Corrélation e ntr e F et F-FILM 0.0 0.2 0.4 0.6 0.8 1.0 0% 20% 40% 60% 80% 100% % de bru i t C orréla tion en tre G et G-FILM 0.0 0.2 0. 4 0.6 0.8 1.0 0% 20% 40 % 60% 80 % 100 % On constate que les corrélations restent élevées même lorsque le bruit E a la même variance que le signal Z *. La matrice des coefficients esti més ω st des vecteurs U st correspondant aux deux situations extrêmes en matière de bruit est: Bruit à 0%: Bruit à 100%: 0.691 0.000 0.000 0.000 0.531 0.000 0.000 0.000 0.491 0.508 0.000 0.000 0.000 0.379 0.000 0.000 0.000 0.343 b) Analyse tenant compte de la force structurelle: ● L'évolution du R² selon l'amplitude du bruit est donnée par la figure 5. Figure 5: Evolution du R² selon l'amplitude du br uit ● L'évolution, selon l'amplitude du bruit, des corrélations entre facteurs originels et estimés est donnée par la figure 6. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 29 % de bruit R 2 0.3 0.4 0.5 0.6 0.7 0.8 0% 20% 40% 60% 80% 100 % Figure 6: Evolution, selon l'amplitude du bruit, des corrélations   f k ,  f l  Noir :   f 1,  f 2  ; Rouge :   f 2,  f 1  ; Vert :   f 3,  f 3  La composante f 2 g 2 ' est trouvée par FILM au rang 1, la composante f 1 g 1 ' au rang 2, et la composante f 3 g 3 ' au rang 3. Elles ne sont donc plus trouvées dans l'ordre du ω décroissant - donc de l'ajustement décroissant - car cette fois, la force structurelle de la composante intervient. La composante la plus faible ( f 3 g 3 ') est reléguée au troisième rang, bien qu'elle permette un ajustement légèrement meilleur que f 1 g 1 ', trouvée au rang 2. On constate que les corrélations restent élevées même lorsque le bruit E a la même variance que le signal Z *, sauf dans les 5 cas caractérisés par un effondrement brutal du R². Il est facile d'analyser ceux-ci dès que l'on apprend que le vecteur U 33 est dans ces 5 cas très proche du faisceau 4, structurellement fort mais ne jouant pas de rôle dans Z *: le bruit E , trop fort, a dans ce cas créé un "mirage explicatif partiel" de Z par le faisceau 4, suffisant pour que cette structure, par s a force, soit dépistée prioritairement au faisceau 3. La matrice des coefficients esti més ω st des vecteurs U st correspondant aux deux situations extrêmes en matière de bruit est: Bruit à 0%: Bruit à 100%: 0.618 0.069 -0.012 0.025 0.449 -0.004 -0.010 0.009 0.460 0.443 0.034 -0.007 0.006 0.322 -0.022 0.007 -0.004 0.332 Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 30 % de br uit Corrélatio n entr e F et F-FILM 0.0 0.2 0.4 0.6 0.8 1.0 0% 20% 40% 60% 80% 100% % de bruit Co rrél ati on e ntre G et G-FIL M 0.0 0.2 0.4 0 .6 0.8 1.0 0% 20% 4 0% 60 % 8 0% 10 0% 4.2. Micro-application sur données réelles: an alyse des goûts musicaux N.B. Cette application n'a pour but que d'illustrer le fonctionnement de la méthode. Les données n' en ont pas été recueillies avec la rigueur qu'exigerait une véritable étude socio-musicologique, même élémentaire. Dans cette application, nous décrivons: ● 18 individus (sujets), par des variables dé mographiques ( sexe, âge, statut matrimonial, nombre d'enfants ), économiques ( acti vité, r evenu ) et socio- culturelles ( niveau d' études, pratique de la musique, pratique de la danse, écoute de musique sur CD, écoute de musique à la radio ). Les variables qualitatives sont codées par leurs indicatrices. Le nombre des variables numériques x j obtenues au total est de 21. ● 20 genres musicaux (objets), par les scores y k que leur ont attribué, sur une échelle ordinale comportant 5 degrés, un jur y de m élomanes relativement à 17 critères: complexite globale, complexité de la forme, complexité du rythme, complexité harmonique, complexité mélodique, complexité des textes (0 en cas d'absence), récur sivité, répétitivité, importance du rythme, importance de l'harmonie, importance de la mélodie, richesse instrum entale, dansabilité, degr é de contrainte stylistique, durée des mor ceaux, douceur, dynamique . ● Les "interactions" z i m entre i ndividus et ge nres musicaux, par les notes d'appréciation que les premiers décernent aux seconds. Nous cherchons à analyser les préférences musicales en fonction des caractéristiques individuelles et de celles des genres de musique. Plus précisément, ce sont les différences de profils de notation que l'on cherche à modéliser, entre individus comme entre genres. On a donc choisi de modéliser la liaison entre individu et genre musical , comme si l'on avait affaire à deux variables nominales. Du tableau Z considéré comme un tableau de contingence, on tire le tableau Φ selon le procédé du § 3.3. b . Ce faisant, un poids plus grand est donné aux individus notant plus généreusement, comme aux genres les plus appréciés. On applique FILM-A au tableau Φ . a) Analyse ne tenant pas compte de la force structurelle: Calcul des composantes Les trois premiers couples de composantes ( f 1 , g 1 ), ( f 2 , g 2 ), ( f 3 , g 3 ) permettent de restituer 76% de la variance des interactions ( R 2 = ∥   ∥ 2 / ∥ ∥ 2 = 0.76 ). Sur le plan de la force structurelle, les composantes captent les parts suivantes de la variance de leur groupe: f 1 : 26% ; f 2 : 12% ; f 3 : 9% g 1 : 40% ; g 2 : 6% ; g 3 : 4% La régression de Φ sur les U st = f s g t fournit le modèle latent estimé: Φ = 0.75 f 1 g 1 ' + 0.34 f 2 g 2 ' + 0.30 f 3 g 3 ' + E Avec les parts de variance expliquée res pectives: f 1 g 1 ' = 56% ; f 2 g 2 ' = 11% ; f 3 g 3 ' = 09% Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 31 Le couple de rang 1 est nettement dominant. Interprétation des composantes: Composantes-sujet: ● Sur la figure 7, il apparaît que la première composante sujet f 1 est fortement corrélée négativement: au revenu, au niveau d'études ainsi qu'à l'âge et positivement: au statut d'activité étudiant. ● La deuxième composante sujet f 2 est pauvrement illustrée, n'étant bien corrélée, positivement, qu'à l'écoute de musique sur CD. Figure 7: Plan sujet (1,2) N.B.:Les 18 sujets sont codés x1 à x18 -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 axe 1 axe 2 age Sx_H Sx_F NivEtude Revenu NEnfants SM_Celiba t SM_Concub SM_Marie SM_SepDiv SM_Veuf Act_Etud Act_Occup Act_Chom Act_Retrait MusPrati_O MusPrati_N Danse_O Danse_N EcoutMusCD EcoutMu sRadio -1 0 1 2 -2 -1 0 1 2 axe 1 axe 2 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 Composantes-objet: ● Sur la figure 8, il apparaît que la première composante objet g 1 est fortement corrélée (négativement) à un faisceau de variables traduisant la complexité et la richesse de la musique. Ces variables sont anticorrélées à la répétitivité et la dansabilité. ● La deuxième composante objet g 2 n'est corrélée à aucune caractéristique musicale. Interprétation des interactions: Compte tenu des faiblesses structurelles des co mposantes g 2 et g 3 , on ne peut retenir dans le modèle que le couple ( f 1 , g 1 ). Bien que restituant plus de la moitié des interactions, ce modèle est conceptuellement relativement maigre: il révèle simplement que maturité et niveau socio-culturel sont a ssociés à une préférence pour les musiques plus complexes et moins dansantes ( opéra, jazz contemporain, musique de chambre, baroque ...). Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 32 Figure 8: Plan objet (1,2) -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 axe 1 axe 2 Complexi teGlo b Comple xForme Comple xRythme Complex Harmoni e ComplexMel odie ComplexTe xte Recursivit e Repeti tivite Rythme Harmon ie Melodi e RichI nstrument Dansabl e Contrain te DureeMorceau Douceur Dynamique -2 -1 0 1 2 -1 0 1 2 axe 1 axe 2 RockTradi Chambr e Symphon ique Comedie Music TechnoDi sco TradiWor ld Variete RythmBlues Blues JazzClass JazzContem p Salsa Reggae HipHop Rap RockAltProg Baroque Classiqu e Contem p Chanson Txt Opera b) Analyse tenant compte de la force structurelle: Les 9 premi ers couples de composantes issus de ( f 1 , f 2 , f 3 ) et ( g 1 , g 2 , g 3 ) permettent de reconstituer 53% de la variance des interactions, ce qui es t inférieur au seul premier couple de l'anal yse sans prise en compte de la force structurelle. On espère toutefois que les composantes vont s'avérer plus riches, et permettront ainsi de dépister des phénomènes précédemment passés inaperçus. Forces structurelles: f 1 : 32% ; f 2 : 13% ; f 3 : 11% g 1 : 53% ; g 2 : 11% ; g 3 : 5% La régression de Φ sur les U st = f s g t fournit le modèle latent estimé: Φ = 0.61 f 1 g 1 ' + 0.12 f 1 g 2 ' + -0.20 f 1 g 3 ' + 0.12 f 2 g 1 ' + 0.20 f 2 g 2 ' + 0.10 f 2 g 3 ' + -0.14 f 3 g 1 ' + 0.02 f 3 g 2 ' + 0.11 f 3 g 3 ' + E Nous avons fait figurer en gras les interactions les plus fortes. Signalons qu'avec le seul vecteur f 1 g 1 ' , on reconstitue 37% de Φ , qu'avec les termes de rang 2: f 1 g 1 ' , f 1 g 2 ' , f 2 g 1 ' , f 2 g 2 ' , (soulignés), on obtient 44%, et enfin, qu'avec les trois termes d'interaction les plus forts: f 1 g 1 ' , f 2 g 2 ' , f 1 g 3 ' (gras), on obtient 45%. Le couple de rang 1 est ici encore dominant. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 33 Interprétation des composantes: Composantes-sujet: La troisième composante n'interagissant guère avec les autres, on se cantonnera aux deux premières ( cf . figure 9). ● La première composante-sujet conserve grossièrement la même interprétation que précédemment (niveau socio-culturel & maturité): fortement corrélée - positivement cette fois - au revenu et au niveau d'étude. C ependant, elle est ici moins liée à l'âge et davantage à la modalité Homme dans le sens du niveau d'étude et du r evenu . D'autre part, on voit apparaître à l'opposé des variables qui lui sont fortement anticorrélées: écoute la musique à la radio , ne pratique pas la musique , et Femme . Cette composante est donc plus "riche". ● La seconde composante n'est toujours pas parfaite ment illustrée, mais les variables qui lui sont les plus corrélées sont très bien représentées dans le premier plan. On y voit ainsi apparaître un petit faisceau diagonal, proche de f 2 , constitué des statuts célibataire et étudiant , ainsi que de l' âge . Cette dimension interagit donc avec celles du premier plan formé par les composantes-objet. Figure 9: Plan sujet (1,2) -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 axe 1 axe 2 age Sx_H Sx_ F Niv Etude Rev enu NEnf ants SM_ Celi bat SM _Conc ub SM_ Marie SM_ SepD iv SM_ Veuf Ac t_Et ud Ac t_Oc cup Ac t_C hom Ac t_R etrait Mus Prati_O Mus Prati_N Dan se_O Dan se_N Ecou tMus CD Ecout Mus Radio -1.5 - 1.0 -0.5 0.0 0.5 1.0 1.5 -2 -1 0 1 2 axe 1 axe 2 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 X15 X16 X17 X18 Composantes-objet: La troisième composante g 3 interagit ici avec f 1 ; on cherchera donc à interpréter le sous- espace engendré par les trois premières composantes ( cf . figures 10 et 11). ● La première composante-objet est ici encore essentiellement une composante de complexité . ● La seconde composante-obj et est très liée à la douceur et à l'importance de la mélodie . ● La troisième composante- objet est mal illustrée, mais dans le plan ( g 1 , g 3 ), la variable dansable est très bien représentée, négativement corrélée à g 1 et positivement à g 3 . Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 34 Figure 10: Plan objet (1,2) -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 axe 1 axe 2 Com plexi teGlo b Com plexF orme Com plexRyth me Com plexHa rmon ie Com plexMe lodi e Com plexText e Recur sivite Repe titivi te Rythme Harmo nie Melod ie Rich Instr umen t Dans able Con train te Dure eMorcea u Dou ceur Dynami que -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 -2 -1 0 1 2 axe 1 axe 2 Rock Tradi Cham bre Symph oniq ue Co medie Music Techn oDis co TradiW orld Varie te RythmB lues Blue s JazzC lass JazzC onte mp Salsa Regg ae HipH opR ap Rock AltProg Baroq ue Class ique Con temp Chan sonT xt Ope ra Figure 11: Plan objet (1,3) -1.0 -0.5 0.0 0.5 1.0 -1.0 -0.5 0.0 0.5 1.0 axe 1 axe 3 ComplexiteGlob ComplexForme ComplexRythme ComplexHarmonie ComplexMelod ie ComplexTexte Recursivite Repetitivite Rythme Harmonie Melodie RichInstrument Dansable Contrainte DureeMorceau Douceur Dynamique -2.0 -1.5 - 1.0 -0.5 0.0 0.5 1.0 1.5 -2 -1 0 1 2 axe 1 axe 3 RockTradi Chambre Symphonique ComedieMusic TechnoDisco TradiWorld Variete RythmB lues Blues JazzClass JazzContemp Salsa Reggae HipHopRap RockAltProg Baroque Classique Contemp ChansonTxt Opera Interprétation des interactions: ● L'interaction des composantes sujet et obj et de rang 1 est positive et s'interprète comme dans le cas précédent. ● L'interaction des composantes de rang 2 est positive également, et signale que moins on es t étudiant/cé libataire/jeune, plus on apprécie musiques douces et mélodiques. Les jeunes, en effet, apprécient ici davantage rock traditionnel , techno-disco , hip-hop-rap . ● g 3 interagit avec f 1 , mai s n'est pas bien illustrée en tant que telle. Par contre, le plan ( g 1 , g 3 ) fait apparaître dansable . On cherche donc à interpréter l'interaction de f 1 avec le plan ( g 1 , g 3 ) , en factorisant les termes d'interaction faisant intervenir f 1 : 0.61 f 1 g 1 ' - 0.20 f 1 g 3 ' = - f 1 (- 0.61 g 1 + 0.20 g 3 )' Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 35 Anticorrélée à f 1 se trouve la variable- sujet danse_oui , et très proche de la combinaison (- 0.61 g 1 + 0.20 g 3 ) se trouve la variable-objet dansable , ce qui se passe de commentaire. Mentionnons seulement qu'on peut immédiatement repérer les musiques les plus dansables sur le plan (1,3) des objets: salsa, variété, reggae, rock traditionnel , techno- disco , hip-hop-rap . c) Bilan: En tenant compte de la force structurelle des composantes, on a certes obtenu un modèle moins parcimonieux, m oins bien ajusté, mais beaucoup plus riche d'interprétation: il a permis de dépister 3 phénomènes d'interaction au lieu d'un. Conclusion La méthode FILM est, comme la régression PLS multivariée, au confluent des méthodes factorielles, exploratoires, et des méthodes de régression, modélisantes. Comme PLS, elle exploite un critère de covariance. La régression PLS est fondée sur le critère de covariance de l'Anal yse Inter-Batteries (purement exploratoire), mais en itérant la maximisation de ce critère et le calcul de résidus de régression, elle permet de modéliser l'un des deux tableaux par l'autre. De façon similaire, dans sa version de base, FILM utilise itérativement la maximisation du même critère que les analyses RLQ et L-PLS ainsi que le calcul de résidus de régress ion pour modéliser le tableau des interactions à partir des descriptions de ses marges. On peut aussi voir les choses sous l'angle suivant: PLS, en utilisant un critère de covariance au lieu d'un critère de corrélation, greffe la question de la force structurelle des prédicteurs sur la régression linéaire. D e la même façon, FILM greffe la force structurelle des prédicteurs sur le problème d'aj ustement du tableau Z par un modèle d'interactions entre descriptions marginales. FILM, comme L-PLS, étend ainsi la régress ion P LS aux données d'interaction, plus complexes. L'usage du critère de covariance lui confère les qualités des méthodes factorielles descriptives - puissance de synthèse à travers une hiérarchie de dimensions fortes, représentations planes des structures multidimensionnelles , conduisant à une analyse simultanée des nuages des observations et des variables. En outre, étant fondée sur un modèle explicatif, elle met directement ces qualités au service de la modélisation. Contrairement à L-PLS, FILM utilise à chaque étape l'ensemble des interactions possibles entre composantes sujet et objet. Remerciements Nous remercions vivem ent Pierre Cazes pour s a lecture attentive et éclairée, ainsi que Robert Sabatier et Eric Gorouben pour leurs cons eils. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 36 Bibliographie Bry X. (2004) - a : Une méthodologie exploratoire pour l'analyse et la synthèse d'un modèle explicatif , Thèse de doctorat, Université de Paris IX Dauphine. Bry X. (2004) - b : Estimation empirique d'un modèle à variables latentes comportant des interactions , RSA vol. 52, n°3. Bry X. (2003) : Une méthode d’estimation empirique d’un modèle à variables latentes : l’Analyse en Composantes Thématiques , RSA vol. 51, n°2, pp. 5-45. Bry X. (2001) : Une autre approche de l’Analyse Factorielle: l'Analyse en Résultantes Covariantes , RSA vol. 49, n°3, pp. 5-38. Cazes P. (1997) : Adaptation de la régression PLS au cas de la r égression après Analyse des Correspondances Multiples , RSA vol. 45, n°2, pp. 89-99 Chessel D. & Mercier, P. (1993): Couplage de triplets statistiques et liaisons espèces- environnement . In : Biométrie et Environm ent . Lebreton, J.D. & Asselain, B. (Eds.) Masson, Paris. 15-44. Dolédec S., Chessel D. & Champely S. (1994) : Using species distribution for matching species traits to environmental variables: a new thr ee-table ordination method . Communication orale, 6th international congress of ecology (INTECOL) on ecological progress to meet the challenge of environmental change , 20-26 août 1994, Manchester (Ro y a ume Uni). Dolédec, S., Chessel, D., Ter Braak, C.J.F. & Champely, S. (1996) Matching species traits to environmental variables: a new three- table ordination method . Environmental and Ecological Statistics : 3, 143-166. Esposito-Vinzi V., Guinot C., Squillacciotti S . (2007): Two-step PLS regression for L-structured data: an application in the cosmetic industry , Stat. M eth. & Appl. 16(2), 263-278. Lohmöller J.-B. (1989) : Latent Variables Path Modelling with Partial Least Squares , Physica- Verlag, Heidelberg. Martens H., Anderssen E., FlatBerg A., Gidskehaug L.H., Hø y M., Westad F., Thy b o A., Martens M. (2005) : Regression of a data matrix on descriptors of both its rows and of its columns via latent variables: L-PLSR , CSDA 48, 103-123, Elsevier. Takane Y., Shibayama T. (1991): Principal Component Analysis with external information on both subjects and variables , Psychometrika 56, 97-120. Tenenhaus M. (1998) : La régression PLS, théorie et pratique , Technip. Verron T. (2005) : Traitement du signal et généralisation de la régression PLS pour la modélisation des spectres PIR , Thèse de doctorat, Université de Montpellier I. Verron T., Sabatier R., Joffre R. (2004) : Some theoretical proper ties of the OPLS method , Journal of Chemometrics, 18(2), pp. 62-68. Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 37 Vivien M. (2002) : Approches PLS linéaires et non linéaires pour la modélisation de multi- tableaux : théorie et applications , Thèse de doctorat, Université Montpellier I. Wold H. (1985) : Partial Least Squares, Encyclopedia of Statistical Sciences, John Wiley & Sons, pp. 581-591 Bry, Verron (2007): PLS-Factor Interaction Linear Modelling 38

Modelisation factorielle des interactions entre deux ensembles dobservations : la methode PLS-FILM (Partial Least Squares Factor Interaction Linear Modelling)

Original Paper

Comments & Academic Discussion

Leave a Comment

Original Paper

Related Papers

Comments & Academic Discussion

Leave a Comment