Comprendre et interpréter une analyse PLS-SEM
Du modÚle de mesure aux liens structurels : un guide exhaustif illustré par des résultats réels, conçu pour les non-spécialistes.
- La logique d’ensemble du PLS-SEM
- Ătape 1 â Les saturations (Loadings)
- Ătape 2 â La fiabilitĂ© (Alpha & CR)
- Ătape 3 â La validitĂ© convergente (AVE)
- Ătape 4 â La validitĂ© discriminante
- Ătape 5 â La colinĂ©aritĂ© (VIF)
- Ătape 6 â Les liens structurels (ÎČ, t, p)
- Ătape 7 â La taille de l’effet (fÂČ)
- Ătape 8 â Le pouvoir explicatif (RÂČ)
- Ătape 9 â La pertinence prĂ©dictive (QÂČ & PLSpredict)
- Ătape 10 â Le fit global (SRMR)
- SynthÚse des résultats
- Bibliographie
La logique d’ensemble du PLS-SEM
Avant de plonger dans les indicateurs, il faut comprendre ce qu’on cherche Ă faire avec une analyse PLS-SEM. Imaginez que vous souhaitez Ă©tudier un phĂ©nomĂšne complexe â par exemple, comprendre pourquoi un client accepte ou refuse d’interagir avec un robot dans un hĂŽtel. Ce phĂ©nomĂšne n’est pas directement observable : on ne peut pas mesurer “l’intention d’usage” comme on mesure la tempĂ©rature. On peut en revanche poser plusieurs questions Ă des rĂ©pondants, et synthĂ©tiser leurs rĂ©ponses en un score global.
Ces scores synthĂ©tiques sont appelĂ©s variables latentes (ou “construits”). Le PLS-SEM (Partial Least Squares – Structural Equation Modeling), traduit en français par « modĂ©lisation par Ă©quations structurelles par moindres carrĂ©s partiels », fait deux choses simultanĂ©ment (Hair et al., 2019) :
- Il mesure si vos questions reflĂštent fidĂšlement les concepts qu’elles sont censĂ©es capturer (modĂšle de mesure).
- Il teste si ces concepts exercent bien des effets les uns sur les autres, conformément à vos hypothÚses (modÚle structurel).
Pensez Ă un mĂ©decin qui mesure la santĂ© d’un patient. Il ne peut pas “voir” la santĂ© directement â il prend la tension, analyse les prises de sang, mesure le pouls. Chaque mesure est un indicateur du concept “santĂ©”. Le PLS-SEM vĂ©rifie d’abord que vos indicateurs sont bons (modĂšle de mesure), puis que vos concepts sont bien reliĂ©s entre eux (modĂšle structurel).
Dans notre Ă©tude, on cherche Ă expliquer l’Intention d’usage d’un robot humanoĂŻde. Les variables explicatives sont : l’Anthropomorphisme, l’UtilitĂ© perçue, le Plaisir perçu, le Risque Vie PrivĂ©e, le Risque Psychologique, le Risque de DĂ©shumanisation et le Risque pour l’Emploi. Chacune de ces variables est mesurĂ©e par plusieurs questions (items) sur une Ă©chelle de 1 Ă 5.
L’analyse se dĂ©roule en deux grandes phases, elles-mĂȘmes subdivisĂ©es en plusieurs Ă©tapes :
On vĂ©rifie que les questions posĂ©es mesurent bien les bons concepts. C’est comme vĂ©rifier que votre thermomĂštre mesure bien la tempĂ©rature et non autre chose.
On teste les liens de causalitĂ© entre les concepts. C’est comme vĂ©rifier que la fiĂšvre est bien causĂ©e par une infection, et non l’inverse.
Ătape 1 â Les saturations (Loadings)
La premiĂšre question Ă se poser est : chaque question (item) est-elle bien reprĂ©sentative du concept qu’elle est censĂ©e mesurer ? En PLS-SEM, on rĂ©pond Ă cette question en calculant les saturations factorielles (ou loadings en anglais), notĂ©es λ (lambda).
Un loading mesure la corrélation entre une question et le score global du concept auquel elle appartient. Il prend une valeur entre -1 et 1. Plus il est proche de 1, plus la question est une bonne représentante du concept (Hair et al., 2019 ; Fornell & Larcker, 1981).
Le loading rĂ©pond Ă cette question : si je prends la rĂ©ponse d’un individu Ă cette question, dans quelle mesure est-elle reprĂ©sentative de son score global sur ce concept ? Un loading de 0,85 signifie que la question “partage” 85% de son information avec le concept global.
Un loading est acceptable s’il est â„ 0,70 (Hair et al., 2019). Certains auteurs tolĂšrent 0,60 dans des recherches exploratoires (Churchill, 1979). En dessous de 0,40, l’item doit ĂȘtre supprimĂ© du modĂšle car il apporte plus de bruit que d’information.
Nos rĂ©sultats â Loadings des items
| Construit | Item | Loading (λ) | Ăvaluation |
|---|---|---|---|
| Anthropomorphisme | ANT1 | 0,871 | â Excellent |
| ANT2 | 0,866 | â Excellent | |
| ANT3 | 0,813 | â TrĂšs bon | |
| ANT4 | 0,824 | â TrĂšs bon | |
| ANT5 | 0,712 | â Acceptable | |
| UtilitĂ© perçue | UTIL1 | 0,799 | â Bon |
| UTIL2 | 0,841 | â TrĂšs bon | |
| UTIL3 | 0,793 | â Bon | |
| UTIL4 | 0,825 | â TrĂšs bon | |
| UTIL5 | 0,711 | â Acceptable | |
| UTIL6 | 0,753 | â Bon | |
| UTIL7 | 0,641 | â Limite | |
| Plaisir perçu | PLAIS1 | 0,863 | â Excellent |
| PLAIS2 | 0,836 | â TrĂšs bon | |
| PLAIS3 | 0,793 | â Bon | |
| PLAIS4 | 0,915 | â Excellent | |
| Risque Vie PrivĂ©e | RCONTETH1 | 0,865 | â Excellent |
| RCONTETH2 | 0,767 | â Bon | |
| RCONTETH3 | 0,873 | â Excellent | |
| RCONTETH4 | 0,766 | â Bon | |
| Risque Psy | RPSY1 | 0,883 | â Excellent |
| RPSY2 | 0,879 | â Excellent | |
| RPSY3 | 0,902 | â Excellent | |
| Risque DĂ©shumanisation | RDEHUM1 | 0,839 | â TrĂšs bon |
| RDEHUM2 | 0,856 | â Excellent | |
| RDEHUM3 | 0,798 | â Bon | |
| RDEHUM4 | 0,882 | â Excellent | |
| RDEHUM5 | 0,836 | â TrĂšs bon | |
| Risque Emploi | RPEMP1 | 0,770 | â Bon |
| RPEMP2 | 0,860 | â Excellent | |
| RPEMP3 | 0,787 | â Bon | |
| RPEMP4 | 0,801 | â Bon | |
| RPEMP5 | 0,885 | â Excellent | |
| Intention d’usage | INT1 | 0,918 | â Excellent |
| INT2 | 0,856 | â Excellent | |
| INT3 | 0,888 | â Excellent | |
| INT4 | 0,883 | â Excellent |
Tableau 1 â Saturations factorielles (loadings) de tous les items. Seuil requis : â„ 0,70.
Verdict : La quasi-totalitĂ© des items prĂ©sente un loading â„ 0,70. L’item UTIL7 (loading = 0,641) se situe en dessous du seuil recommandĂ© mais reste acceptable dans un contexte exploratoire. Le modĂšle de mesure est solide. Chaque question est bien reprĂ©sentative du concept qu’elle mesure.
Ătape 2 â La fiabilitĂ© (Alpha de Cronbach & FiabilitĂ© Composite)
Une fois que chaque question est bien reprĂ©sentative de son concept, on vĂ©rifie que l’ensemble des questions d’un mĂȘme bloc forment un tout cohĂ©rent. C’est ce qu’on appelle la fiabilitĂ© de l’Ă©chelle. On utilise deux indicateurs complĂ©mentaires.
L’Alpha de Cronbach (α)
ProposĂ© par Cronbach en 1951, l’Alpha est l’indicateur de fiabilitĂ© le plus connu. Il mesure l’homogĂ©nĂ©itĂ© interne d’un groupe de questions : est-ce que toutes les questions du bloc mesurent bien la mĂȘme chose, dans le mĂȘme sens ? ConcrĂštement, il regarde si les rĂ©pondants ont tendance Ă rĂ©pondre de maniĂšre similaire Ă toutes les questions d’un mĂȘme bloc (Cronbach, 1951).
L’Alpha varie de 0 Ă 1. Un Alpha de 0,90 signifie que 90% de la variabilitĂ© des rĂ©ponses est due au concept mesurĂ© (et seulement 10% Ă des erreurs de mesure). En pratique : α â„ 0,70 = acceptable · α â„ 0,80 = bon · α â„ 0,90 = excellent (Nunnally, 1978).
La Fiabilité Composite (CR)
La FiabilitĂ© Composite (Composite Reliability, CR) est un indicateur plus moderne, recommandĂ© par Hair et al. (2019) en complĂ©ment de l’Alpha. Contrairement Ă l’Alpha qui traite toutes les questions de la mĂȘme façon, la CR accorde plus d’importance aux questions qui ont un loading plus Ă©levĂ© (c’est-Ă -dire aux questions les plus reprĂ©sentatives du concept). Elle est donc plus prĂ©cise et moins sensible au nombre d’items dans le bloc (Ringle et al., 2015).
Alpha de Cronbach : â„ 0,70 (minimum), idĂ©alement â„ 0,80 â FiabilitĂ© Composite (CR) : â„ 0,70 (minimum), idĂ©alement â„ 0,80. Un CR supĂ©rieur Ă 0,95 peut toutefois signaler que les items sont redondants (Hair et al., 2019).
Nos rĂ©sultats â FiabilitĂ© des construits
| Construit | Alpha de Cronbach (α) | Ăval. Alpha | FiabilitĂ© Composite (CR) | Ăval. CR |
|---|---|---|---|---|
| Anthropomorphisme | 0,876 | â Bon | 0,910 | â Excellent |
| UtilitĂ© perçue | 0,883 | â Bon | 0,910 | â Excellent |
| Plaisir perçu | 0,874 | â Bon | 0,914 | â Excellent |
| Risque Vie PrivĂ©e | 0,839 | â Bon | 0,891 | â Bon |
| Risque Psy | 0,867 | â Bon | 0,918 | â Excellent |
| Risque DĂ©shumanisation | 0,898 | â Bon | 0,924 | â Excellent |
| Risque Emploi | 0,882 | â Bon | 0,912 | â Excellent |
| Intention d’usage | 0,909 | â Excellent | 0,936 | â Excellent |
Tableau 2 â FiabilitĂ© des construits. Seuil minimum : Alpha â„ 0,70 · CR â„ 0,70.
Verdict : Tous les construits dĂ©passent largement les seuils minimaux requis. L’Alpha de Cronbach varie de 0,839 Ă 0,909 et la FiabilitĂ© Composite de 0,891 Ă 0,936. La fiabilitĂ© interne de l’ensemble des Ă©chelles est excellente : chaque groupe de questions forme un bloc cohĂ©rent mesurant bien son concept.
Ătape 3 â La validitĂ© convergente (AVE)
On sait maintenant que les questions d’un mĂȘme bloc sont cohĂ©rentes entre elles. Mais il faut aller plus loin : le concept capture-t-il bien l’essentiel de l’information contenue dans ses questions ? C’est l’objet de la validitĂ© convergente, mesurĂ©e par l’AVE (Average Variance Extracted â Variance Moyenne Extraite).
L’AVE calcule, en moyenne, quelle proportion de la variabilitĂ© des rĂ©ponses aux questions est expliquĂ©e par le concept latent, et quelle proportion est due Ă des erreurs de mesure (Fornell & Larcker, 1981). C’est un peu comme demander : “Parmi tout ce que mesurent ces questions, quelle part est vraiment ce qu’on veut mesurer (signal), et quelle part est du bruit ?”
AVE = moyenne des loadingsÂČ de toutes les questions du bloc. Si AVE = 0,67, cela signifie que 67% de la variance des items est expliquĂ©e par le concept, et seulement 33% est due Ă des erreurs de mesure. Le signal domine le bruit.
L’AVE doit ĂȘtre â„ 0,50. En dessous de ce seuil, plus de la moitiĂ© de la variance des items est due aux erreurs de mesure plutĂŽt qu’au concept : l’Ă©chelle capte plus de bruit que de signal.
Nos rĂ©sultats â ValiditĂ© convergente
| Construit | AVE | Ăvaluation | InterprĂ©tation |
|---|---|---|---|
| Anthropomorphisme | 0,671 | â Bon | 67,1% du signal capturĂ© |
| UtilitĂ© perçue | 0,591 | â Acceptable | 59,1% du signal capturĂ© |
| Plaisir perçu | 0,727 | â Excellent | 72,7% du signal capturĂ© |
| Risque Vie PrivĂ©e | 0,671 | â Bon | 67,1% du signal capturĂ© |
| Risque Psy | 0,789 | â Excellent | 78,9% du signal capturĂ© |
| Risque DĂ©shumanisation | 0,710 | â Bon | 71,0% du signal capturĂ© |
| Risque Emploi | 0,675 | â Bon | 67,5% du signal capturĂ© |
| Intention d’usage | 0,786 | â Excellent | 78,6% du signal capturĂ© |
Tableau 3 â Variance Moyenne Extraite (AVE). Seuil requis : â„ 0,50.
Verdict : Tous les construits dĂ©passent largement le seuil de 0,50. L’AVE varie de 0,591 (UtilitĂ©) Ă 0,789 (Risque Psy). La validitĂ© convergente est Ă©tablie pour l’ensemble du modĂšle : les questions mesurent bien les concepts auxquels elles appartiennent.
Ătape 4 â La validitĂ© discriminante (Fornell-Larcker & HTMT)
On a vĂ©rifiĂ© que chaque concept est bien mesurĂ© par ses propres questions. Il faut maintenant s’assurer que les diffĂ©rents concepts sont bien distincts les uns des autres. Si “Plaisir” et “UtilitĂ©” sont trop similaires dans l’esprit des rĂ©pondants, ils ne constituent pas vraiment deux concepts sĂ©parĂ©s, et le modĂšle perd sa signification.
C’est l’objet de la validitĂ© discriminante. On utilise deux critĂšres complĂ©mentaires et de rigueur croissante (Henseler, Ringle & Sarstedt, 2015).
Le critĂšre de Fornell-Larcker
ProposĂ© en 1981, ce critĂšre compare, pour chaque variable, la racine carrĂ©e de son AVE aux corrĂ©lations qu’elle entretient avec les autres variables. La logique est simple : un concept doit partager plus de variance avec ses propres items qu’avec n’importe quel autre concept. En d’autres termes, âAVE doit ĂȘtre supĂ©rieur Ă toutes les corrĂ©lations inter-construits de la colonne (Fornell & Larcker, 1981).
Dans la matrice ci-dessous, les valeurs en diagonale reprĂ©sentent la racine carrĂ©e de l’AVE de chaque construit (ce sont les valeurs les plus grandes de chaque colonne, ce qui est bon signe). Les valeurs hors diagonale reprĂ©sentent les corrĂ©lations entre construits.
| Construit | ANT | UTIL | PLAIS | RVP | RPSY | RDEH | REMP | INT |
|---|---|---|---|---|---|---|---|---|
| Anthropomorphisme | 0,819 | 0,673 | 0,720 | -0,230 | -0,306 | -0,197 | -0,097 | 0,684 |
| Utilité perçue | 0,673 | 0,769 | 0,760 | -0,276 | -0,392 | -0,196 | -0,170 | 0,786 |
| Plaisir perçu | 0,720 | 0,760 | 0,853 | -0,297 | -0,503 | -0,295 | -0,208 | 0,866 |
| Risque Vie Privée | -0,230 | -0,276 | -0,297 | 0,819 | 0,686 | 0,665 | 0,672 | -0,392 |
| Risque Psy | -0,306 | -0,392 | -0,503 | 0,686 | 0,888 | 0,663 | 0,615 | -0,533 |
| Risque Déshumanisation | -0,197 | -0,196 | -0,295 | 0,665 | 0,663 | 0,843 | 0,768 | -0,308 |
| Risque Emploi | -0,097 | -0,170 | -0,208 | 0,672 | 0,615 | 0,768 | 0,822 | -0,282 |
| Intention d’usage | 0,684 | 0,786 | 0,866 | -0,392 | -0,533 | -0,308 | -0,282 | 0,887 |
Tableau 4 â Matrice Fornell-Larcker. Les valeurs en vert (diagonale) sont les âAVE. Elles doivent ĂȘtre supĂ©rieures Ă toutes les corrĂ©lations de leur colonne/ligne.
Le critĂšre HTMT (Heterotrait-Monotrait Ratio)
Le HTMT est le test le plus rigoureux et le plus rĂ©cent de la validitĂ© discriminante (Henseler et al., 2015). Il est dĂ©sormais recommandĂ© en prioritĂ© dans la littĂ©rature PLS-SEM. Son principe : si deux concepts sont vraiment distincts, alors la corrĂ©lation entre eux (hĂ©tĂ©rotraits) doit ĂȘtre significativement plus faible que la corrĂ©lation interne Ă chacun d’eux (monotraits).
Un HTMT < 0,85 est le critĂšre strict (Gold, Malhotra & Segars, 2001). Certains auteurs tolĂšrent jusqu’Ă < 0,90 pour des construits conceptuellement proches (Henseler et al., 2015). Au-delĂ , les deux concepts se confondent dans l’esprit des rĂ©pondants.
| Construit | ANT | UTIL | PLAIS | RVP | RPSY | RDEH | REMP | INT |
|---|---|---|---|---|---|---|---|---|
| Anthropomorphisme | 1,000 | 0,758 | 0,815 | 0,260 | 0,345 | 0,216 | 0,105 | 0,764 |
| Utilité perçue | 0,758 | 1,000 | 0,853 | 0,301 | 0,442 | 0,206 | 0,169 | 0,868 |
| Plaisir perçu | 0,815 | 0,853 | 1,000 | 0,328 | 0,576 | 0,322 | 0,212 | 0,968 |
| Risque Vie Privée | 0,260 | 0,301 | 0,328 | 1,000 | 0,787 | 0,758 | 0,745 | 0,432 |
| Risque Psy | 0,345 | 0,442 | 0,576 | 0,787 | 1,000 | 0,750 | 0,682 | 0,599 |
| Risque Déshumanisation | 0,216 | 0,206 | 0,322 | 0,758 | 0,750 | 1,000 | 0,855 | 0,338 |
| Risque Emploi | 0,105 | 0,169 | 0,212 | 0,745 | 0,682 | 0,855 | 1,000 | 0,294 |
| Intention d’usage | 0,764 | 0,868 | 0,968 | 0,432 | 0,599 | 0,338 | 0,294 | 1,000 |
Tableau 5 â Matrice HTMT. Seuil strict : < 0,85. Seuil tolĂ©rĂ© : < 0,90. Les valeurs en orange sont Ă surveiller.
Deux valeurs HTMT mĂ©ritent attention. Le HTMT entre Plaisir et Intention atteint 0,968, ce qui suggĂšre que ces deux construits sont trĂšs proches â le plaisir ressenti lors de l’interaction avec un robot est fortement associĂ© Ă l’intention de l’utiliser, Ă tel point que les frontiĂšres conceptuelles s’amincissent. De mĂȘme, le HTMT entre Risque DĂ©shumanisation et Risque Emploi est de 0,855, lĂ©gĂšrement au-dessus du seuil strict de 0,85. Ces rĂ©sultats invitent Ă la prudence dans l’interprĂ©tation, et suggĂšrent que des Ă©tudes futures pourraient explorer la fusion potentielle de ces construits ou leur clarification conceptuelle. Dans le cadre de cette Ă©tude, ces valeurs restent tolĂ©rĂ©es au regard de la proximitĂ© thĂ©orique attendue.
Ătape 5 â La colinĂ©aritĂ© (VIF)
Avant de tester les liens entre les concepts, il faut s’assurer qu’aucun prĂ©dicteur ne fait “double emploi” avec un autre. Quand deux variables explicatives sont trop corrĂ©lĂ©es entre elles, le modĂšle ne parvient plus Ă dĂ©mĂȘler leurs effets respectifs sur la variable dĂ©pendante. C’est le problĂšme de la multicolinĂ©aritĂ© (Hair et al., 2019).
On la mesure par le VIF (Variance Inflation Factor), ou Facteur d’Inflation de la Variance. Intuitivement, le VIF indique de combien de fois la variance estimĂ©e du coefficient d’un prĂ©dicteur est “gonflĂ©e” par sa corrĂ©lation avec les autres prĂ©dicteurs (O’Brien, 2007).
Imaginez deux tĂ©moins qui ont tout vu ensemble et racontent la mĂȘme histoire. Impossible de savoir ce que chacun apporte de nouveau. Le VIF mesure Ă quel point chaque variable “raconte une histoire dĂ©jĂ racontĂ©e” par une autre variable du modĂšle.
VIF < 5 : pas de problĂšme (Hair et al., 2019). VIF < 3 : idĂ©al. VIF â„ 10 : problĂšme sĂ©vĂšre, les rĂ©sultats ne sont pas fiables. Un VIF = 1 signifie qu’il n’y a aucune colinĂ©aritĂ©.
Nos rĂ©sultats â VIF du modĂšle structurel
| Variable dĂ©pendante | PrĂ©dicteur | VIF | Ăvaluation |
|---|---|---|---|
| UtilitĂ© perçue | Anthropomorphisme | 1,000 | â Parfait (pas de colinĂ©aritĂ©) |
| Plaisir perçu | Anthropomorphisme | 1,000 | â Parfait |
| Intention d’usage | Plaisir perçu | 2,778 | â Acceptable |
| UtilitĂ© perçue | 2,429 | â Acceptable | |
| Risque Vie PrivĂ©e | 2,432 | â Acceptable | |
| Risque Psy | 2,713 | â Acceptable | |
| Risque DĂ©shumanisation | 2,968 | â Acceptable | |
| Risque Emploi | 2,825 | â Acceptable |
Tableau 6 â VIF des prĂ©dicteurs. Seuil requis : < 5. IdĂ©alement < 3.
Verdict : Tous les VIF sont infĂ©rieurs Ă 3, avec un maximum de 2,968 (Risque DĂ©shumanisation). Il n’y a aucun problĂšme de multicolinĂ©aritĂ© dans ce modĂšle. Chaque prĂ©dicteur apporte une contribution distincte et les coefficients estimĂ©s sont stables et fiables.
Ătape 6 â Les liens structurels (ÎČ, t-value, p-value)
On entre maintenant dans le cĆur du modĂšle structurel : les liens de causalitĂ© entre les concepts. Pour chaque flĂšche du modĂšle (ex : “Anthropomorphisme â UtilitĂ© perçue”), on estime trois indicateurs : le coefficient path (ÎČ), la t-value et la p-value.
Le coefficient path (ÎČ)
Le coefficient ÎČ (bĂȘta standardisĂ©) est la mesure de l’intensitĂ© et du sens du lien entre deux variables. Un ÎČ positif indique que quand le prĂ©dicteur augmente, la variable dĂ©pendante augmente aussi. Un ÎČ nĂ©gatif indique l’inverse. Plus ÎČ est proche de ±1, plus le lien est fort (Hair et al., 2019).
|ÎČ| > 0,50 = lien fort · 0,20 †|ÎČ| †0,50 = lien modĂ©rĂ© · |ÎČ| < 0,20 = lien faible (Chin, 1998). Un ÎČ nĂ©gatif signifie un effet d’inhibition (plus X augmente, moins Y est Ă©levĂ©).
La t-value et le bootstrapping
En PLS-SEM, on ne peut pas calculer directement la significativitĂ© statistique d’un coefficient par des formules analytiques (contrairement Ă la rĂ©gression classique). On utilise une technique de rééchantillonnage appelĂ©e bootstrapping : le modĂšle est rĂ©estimĂ© des centaines de fois sur des sous-Ă©chantillons alĂ©atoires de vos donnĂ©es (ici 500 fois). Cette procĂ©dure gĂ©nĂšre une distribution empirique des coefficients, qui permet de calculer un Ă©cart-type et donc une t-value (Hair et al., 2019).
La t-value est le ratio entre le coefficient ÎČ et son Ă©cart-type bootstrap. Plus elle est grande, plus le rĂ©sultat est stable et reproductible. Une t-value â„ 1,96 correspond Ă un niveau de confiance de 95% (seuil habituel en sciences sociales).
La p-value
La p-value est la probabilitĂ© d’obtenir un rĂ©sultat au moins aussi extrĂȘme si le lien Ă©tait en rĂ©alitĂ© nul. Une p-value de 0,03 signifie qu’il y a seulement 3% de chances que ce rĂ©sultat soit dĂ» au hasard (Cohen, 1992). On accepte gĂ©nĂ©ralement : p < 0,05 (significatif au seuil de 5%), p < 0,01 (trĂšs significatif), p < 0,001 (hautement significatif).
Une hypothĂšse est validĂ©e si t-value â„ 1,96 ET p-value < 0,05 (Hair et al., 2019). Ces deux critĂšres doivent ĂȘtre remplis simultanĂ©ment.
Nos rĂ©sultats â Coefficients structurels
| Hyp. | Lien testĂ© | ÎČ | t-value | p-value | Significatif ? |
|---|---|---|---|---|---|
| H1 | Anthropomorphisme â UtilitĂ© | +0,673 | 14,885 | 1,53e-28 | â Oui (p<0,001) |
| H2 | Anthropomorphisme â Plaisir | +0,720 | 17,469 | 3,40e-34 | â Oui (p<0,001) |
| H3 | Plaisir â Intention | +0,599 | 10,006 | 4,90e-24 | â Oui (p<0,001) |
| H4 | UtilitĂ© â Intention | +0,281 | 4,559 | 2,38e-08 | â Oui (p<0,001) |
| H5 | Risque Vie PrivĂ©e â Intention | -0,104 | 2,087 | 0,033 | â Oui (p<0,05) |
| H6 | Risque Psy â Intention | -0,068 | 1,206 | 0,185 | â Non (p=0,185) |
| H7 | Risque DĂ©shumanisation â Intention | +0,087 | 1,661 | 0,105 | â Non (p=0,105) |
| H8 | Risque Emploi â Intention | -0,065 | 1,161 | 0,215 | â Non (p=0,215) |
Tableau 7 â Coefficients structurels bootstrappĂ©s (n=500). Seuils : t > 1,96 et p < 0,05.
Lecture des rĂ©sultats : Les quatre premiĂšres hypothĂšses sont solidement validĂ©es. L’Anthropomorphisme est un prĂ©dicteur trĂšs fort de l’UtilitĂ© (ÎČ=+0,673) et du Plaisir (ÎČ=+0,720). Le Plaisir est le prĂ©dicteur dominant de l’Intention (ÎČ=+0,599), suivi de l’UtilitĂ© (ÎČ=+0,281). Le Risque Vie PrivĂ©e a un effet nĂ©gatif significatif mais faible (ÎČ=-0,104). En revanche, les risques psychologique, de dĂ©shumanisation et d’emploi ne parviennent pas Ă dĂ©montrer un effet significatif sur l’intention d’usage une fois contrĂŽlĂ©s les autres facteurs.
Ătape 7 â La taille de l’effet (fÂČ)
Un rĂ©sultat peut ĂȘtre statistiquement significatif sans ĂȘtre pratiquement important. La significativitĂ© dĂ©pend notamment de la taille de l’Ă©chantillon : avec un trĂšs grand Ă©chantillon, mĂȘme un effet infinitĂ©simal sera significatif. La taille de l’effet fÂČ (f-carrĂ©) permet de rĂ©pondre Ă la question : “Quand on retire ce prĂ©dicteur du modĂšle, dans quelle mesure la capacitĂ© explicative du modĂšle se dĂ©grade-t-elle ?” (Cohen, 1988).
ConcrĂštement, fÂČ compare le RÂČ du modĂšle avec et sans chaque prĂ©dicteur. Plus le fÂČ est Ă©levĂ©, plus le prĂ©dicteur contribue substantiellement Ă expliquer la variable dĂ©pendante.
fÂČ â„ 0,02 = effet petit · fÂČ â„ 0,15 = effet moyen · fÂČ â„ 0,35 = effet large.
| Variable dĂ©pendante | PrĂ©dicteur | fÂČ | Taille de l’effet |
|---|---|---|---|
| UtilitĂ© perçue | Anthropomorphisme | 0,828 | â TrĂšs large |
| Plaisir perçu | Anthropomorphisme | 1,076 | â TrĂšs large |
| Intention d’usage | Plaisir perçu | 0,674 | â TrĂšs large |
| UtilitĂ© perçue | 0,170 | â Moyen | |
| Risque Vie PrivĂ©e | 0,023 | â Petit | |
| Risque Psy | 0,009 | â NĂ©gligeable | |
| Risque DĂ©shumanisation | 0,013 | â NĂ©gligeable | |
| Risque Emploi | 0,008 | â NĂ©gligeable |
Tableau 8 â Taille de l’effet fÂČ. InterprĂ©tation selon Cohen (1988).
Verdict : L’Anthropomorphisme exerce un effet trĂšs large sur l’UtilitĂ© (fÂČ=0,828) et le Plaisir (fÂČ=1,076). Le Plaisir a un effet trĂšs large sur l’Intention (fÂČ=0,674). L’UtilitĂ© a un effet moyen (fÂČ=0,170). En revanche, les quatre variables de risque ont des effets pratiquement nĂ©gligeables Ă petits sur l’Intention d’usage, ce qui confirme et nuance les rĂ©sultats sur la significativitĂ©.
Ătape 8 â Le pouvoir explicatif du modĂšle (RÂČ)
Le RÂČ (coefficient de dĂ©termination) mesure la proportion de variance d’une variable dĂ©pendante que le modĂšle parvient Ă expliquer. Si RÂČ = 0,808 pour l’Intention d’usage, cela signifie que 80,8% des variations d’Intention entre les rĂ©pondants sont expliquĂ©es par les variables incluses dans le modĂšle. Les 19,2% restants sont dus Ă des facteurs non pris en compte (Hair et al., 2019).
RÂČ â„ 0,75 = substantiel · RÂČ â„ 0,50 = modĂ©rĂ© · RÂČ â„ 0,25 = faible (Hair et al., 2019). En sciences sociales, un RÂČ de 0,50 est dĂ©jĂ considĂ©rĂ© comme trĂšs satisfaisant, car le comportement humain est intrinsĂšquement complexe et variable.
| Variable endogĂšne | RÂČ (In-Sample) | Ăvaluation |
|---|---|---|
| UtilitĂ© perçue | 0,453 | â ModĂ©rĂ© Ă bon |
| Plaisir perçu | 0,518 | â ModĂ©rĂ© (bon) |
| Intention d’usage | 0,808 | â Substantiel |
Tableau 9 â Coefficient de dĂ©termination RÂČ. Seuils : > 0,25 faible · > 0,50 modĂ©rĂ© · > 0,75 substantiel.
Verdict : Le modĂšle explique 80,8% de la variance de l’Intention d’usage â un rĂ©sultat exceptionnel pour une Ă©tude comportementale en sciences de gestion. L’Anthropomorphisme explique 45,3% de l’UtilitĂ© et 51,8% du Plaisir, ce qui confirme son rĂŽle pivot dans le modĂšle.
Ătape 9 â La pertinence prĂ©dictive (QÂČ et PLSpredict)
Le RÂČ mesure Ă quel point le modĂšle s’ajuste aux donnĂ©es observĂ©es. Mais un modĂšle peut trĂšs bien “apprendre par cĆur” les donnĂ©es sans ĂȘtre capable de prĂ©dire de nouvelles observations. La pertinence prĂ©dictive mesure cette capacitĂ© de gĂ©nĂ©ralisation (Shmueli et al., 2019).
Le QÂČ (Relevance PrĂ©dictive Structurelle)
Le QÂČ est calculĂ© par validation croisĂ©e (10-fold cross-validation) : on divise les donnĂ©es en 10 blocs, on entraĂźne le modĂšle sur 9 blocs et on teste sur le 10Ăšme, puis on recommence pour chaque bloc. Le QÂČ compare l’erreur de prĂ©diction du modĂšle Ă une prĂ©diction naĂŻve (qui prĂ©dirait simplement la moyenne pour tout le monde). Si QÂČ > 0, le modĂšle prĂ©dit mieux que la moyenne â il a donc une vraie valeur prĂ©dictive (Stone, 1974 ; Geisser, 1975).
QÂČ > 0 = pertinence prĂ©dictive Ă©tablie · QÂČ > 0,25 = pertinence moyenne · QÂČ > 0,50 = pertinence Ă©levĂ©e (Hair et al., 2019).
| Variable endogĂšne | RÂČ (In-Sample) | QÂČ (Out-of-Sample) | Ăvaluation |
|---|---|---|---|
| UtilitĂ© perçue | 0,453 | 0,437 | â Pertinence Ă©levĂ©e |
| Plaisir perçu | 0,518 | 0,511 | â Pertinence Ă©levĂ©e |
| Intention d’usage | 0,808 | 0,791 | â Pertinence trĂšs Ă©levĂ©e |
Tableau 10 â RÂČ et QÂČ comparĂ©s. La faible diffĂ©rence entre RÂČ et QÂČ indique un modĂšle robuste sans sur-ajustement.
PLSpredict â PrĂ©diction au niveau des items
PLSpredict va encore plus loin : il Ă©value la capacitĂ© prĂ©dictive item par item pour la variable cible (ici l’Intention). Pour chaque item de la variable Intention, il compare l’erreur de prĂ©diction du modĂšle PLS (RMSE PLS) Ă celle d’un modĂšle de rĂ©fĂ©rence qui prĂ©dirait simplement la moyenne (RMSE naĂŻf). Si RMSE PLS < RMSE naĂŻf, le modĂšle prĂ©dit mieux que la prĂ©diction par la moyenne (Shmueli et al., 2019).
| Item cible | RMSE ModĂšle PLS | RMSE NaĂŻf (moyenne) | QÂČ_predict | Pouvoir prĂ©dictif |
|---|---|---|---|---|
| INT1 | 0,759 | 1,211 | 0,607 | â Fort |
| INT2 | 0,909 | 1,309 | 0,518 | â Fort |
| INT3 | 0,788 | 1,134 | 0,517 | â Fort |
| INT4 | 0,617 | 1,374 | 0,799 | â Fort |
Tableau 11 â PLSpredict sur les items d’Intention. RMSE ModĂšle < RMSE NaĂŻf pour tous les items = pouvoir prĂ©dictif fort.
Verdict : Le modĂšle prĂ©sente une pertinence prĂ©dictive trĂšs Ă©levĂ©e. Le QÂČ de l’Intention (0,791) est trĂšs proche du RÂČ (0,808), ce qui indique une gĂ©nĂ©ralisation excellente et l’absence de sur-apprentissage. PLSpredict confirme que les 4 items de l’Intention sont tous mieux prĂ©dits par le modĂšle que par la simple moyenne : le modĂšle a donc une rĂ©elle valeur prĂ©dictive, et pas seulement descriptive.
Ătape 10 â Le fit global du modĂšle (SRMR)
Tous les indicateurs vus jusqu’ici Ă©valuent des aspects spĂ©cifiques du modĂšle. Le SRMR (Standardized Root Mean Square Residual) est un indicateur global qui Ă©value dans quelle mesure la structure de corrĂ©lations prĂ©dite par le modĂšle correspond Ă la structure de corrĂ©lations rĂ©ellement observĂ©e dans les donnĂ©es (Henseler et al., 2014).
Il calcule la diffĂ©rence moyenne entre les corrĂ©lations observĂ©es (ce que disent vraiment les donnĂ©es) et les corrĂ©lations implicites du modĂšle (ce que le modĂšle “dit” qu’elles devraient ĂȘtre). Plus cette diffĂ©rence est petite, meilleur est l’ajustement global.
SRMR < 0,08 = ajustement excellent · SRMR < 0,10 = ajustement acceptable · SRMR ℠0,10 = ajustement insuffisant (Hu & Bentler, 1999 ; Henseler et al., 2014).
| Indicateur | Valeur obtenue | Seuil idéal | Seuil acceptable | Statut |
|---|---|---|---|---|
| SRMR Global | 0,063 | < 0,08 | < 0,10 | â Excellent |
Tableau 12 â Fit global SRMR. Une valeur de 0,063 indique un ajustement excellent du modĂšle aux donnĂ©es.
Verdict : Avec un SRMR de 0,063, bien en dessous du seuil critique de 0,08, le modÚle présente un ajustement global excellent. La structure théorique proposée correspond trÚs bien à la réalité observée dans les données.
SynthÚse globale des résultats
Bilan du modĂšle de mesure
| CritÚre | Seuil requis | Résultat | Verdict |
|---|---|---|---|
| Loadings (items) | â„ 0,70 | 0,641 â 0,918 (1 item limite) | â Satisfaisant |
| Alpha de Cronbach | â„ 0,70 | 0,839 â 0,909 | â Excellent |
| FiabilitĂ© Composite | â„ 0,70 | 0,891 â 0,936 | â Excellent |
| AVE (validitĂ© convergente) | â„ 0,50 | 0,591 â 0,789 | â Excellent |
| Fornell-Larcker | âAVE > corr. | RespectĂ© sur tous les construits | â ValidĂ© |
| HTMT | < 0,85 â 0,90 | 2 paires Ă surveiller (â€0,968) | â Globalement acceptable |
Bilan du modĂšle structurel
| Indicateur global | Valeur | Ăvaluation |
|---|---|---|
| RÂČ Intention d’usage | 0,808 | â Substantiel |
| QÂČ Intention d’usage | 0,791 | â TrĂšs Ă©levĂ© |
| SRMR Global | 0,063 | â Excellent fit |
| PLSpredict (4 items INT) | Tous supĂ©rieurs au naĂŻf | â Pouvoir prĂ©dictif fort |
Tableau 13 â SynthĂšse des indicateurs globaux du modĂšle structurel.
Ces rĂ©sultats indiquent que l’acceptation des robots humanoĂŻdes est avant tout une affaire de perception Ă©motionnelle : le plaisir ressenti lors de l’interaction est le moteur principal de l’intention d’usage. Ce plaisir est lui-mĂȘme trĂšs fortement alimentĂ© par la perception d’attributs humains chez le robot (anthropomorphisme). L’utilitĂ© est un prĂ©dicteur complĂ©mentaire, mais secondaire. Les risques perçus â Ă l’exception du risque vie privĂ©e â n’exercent pas d’influence significative sur l’intention une fois contrĂŽlĂ©s les effets des bĂ©nĂ©fices perçus, ce qui suggĂšre que dans ce contexte, les Ă©motions positives “court-circuitent” les apprĂ©hensions rationnelles.
- (1998). The partial least squares approach to structural equation modeling. In G. A. Marcoulides (Ed.), Modern methods for business research (pp. 295â336). Lawrence Erlbaum Associates.
- (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum Associates.
- (1992). A power primer. Psychological Bulletin, 112(1), 155â159.
- (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297â334.
- (1979). A paradigm for developing better measures of marketing constructs. Journal of Marketing Research, 16(1), 64â73.
- (1981). Evaluating structural equation models with unobservable variables and measurement error. Journal of Marketing Research, 18(1), 39â50.
- (1975). The predictive sample reuse method with applications. Journal of the American Statistical Association, 70(350), 320â328.
- (2001). Knowledge management: An organizational capabilities perspective. Journal of Management Information Systems, 18(1), 185â214.
- (2019). When to use and how to report the results of PLS-SEM. European Business Review, 31(1), 2â24.
- (2018). Advanced issues in partial least squares structural equation modeling (PLS-SEM). SAGE Publications.
- (2015). A new criterion for assessing discriminant validity in variance-based structural equation modeling. Journal of the Academy of Marketing Science, 43(1), 115â135.
- (2014). The use of partial least squares path modeling in international marketing. Advances in International Marketing, 20, 277â319.
- (1999). Cutoff criteria for fit indexes in covariance structure analysis: Conventional criteria versus new alternatives. Structural Equation Modeling, 6(1), 1â55.
- (1978). Psychometric theory (2nd ed.). McGraw-Hill.
- (2007). A caution regarding rules of thumb for variance inflation factors. Quality & Quantity, 41(5), 673â690.
- (2015). SmartPLS 3. SmartPLS GmbH. http://www.smartpls.com
- (2019). Predictive model assessment in PLS-SEM: Guidelines for using PLSpredict. European Journal of Marketing, 53(11), 2322â2347.
- (1974). Cross-validatory choice and assessment of statistical predictions. Journal of the Royal Statistical Society: Series B, 36(2), 111â147.