14 avril 2014

Contradictions dans des réponses multiples ?


Data & techno Voir toutes nos actualités

En mars 2013, un sondage IFOP pour le JDD plaçait C. Lagarde et M. Le Pen en tête, pour le souhait d’un rôle futur plus important, avec 34% et 31% respectivement. Une partie des médias a alors commenté en invoquant les “contradictions” des français. Je reviens sur ce que ces chiffres permettent réellement de conclure.

Le contexte

Il y a plusieurs mois paraissaient les résultats d’un sondage sur le rôle futur des femmes politiques françaises, avec comme question principale : “Parmi les femmes suivantes, quelles sont les quatre dont vous souhaiteriez qu’elles jouent un rôle plus important à l’avenir, dans la vie politique française ?”1 Le palmarès qui en ressortait donnait aux deux premières places : Christine Lagarde avec 34% et Marine Le Pen avec 31% de réponses positives.

Ce sondage a été alors largement commenté dans les médias, avec régulièrement l’évocation d’un caractère contradictoire de ces résultats. Un des articles du JDD analysant ce sondage mentionne d’abord en manchette “un choix qui reflète les contradictions des Français…” et détaille plus loin que “… le choix des français … résume les fractures et les contradictions de la société française…”.2 La sentence de contradiction — pour autant que l’on juge antinomiques les choix Lagarde et Le Pen — est-elle avérée au vu de ces chiffres et, si oui, à quel niveau : au niveau individuel ou au niveau collectif ? Certains commentaires un peu hâtifs me semblent avoir mélangé les deux niveaux qui peuvent pointer dans des directions apparemment opposées. Je mets ici en avant le point de vue individuel, en me centrant sur les seuls choix concernant C. Lagarde et M. Le Pen.

Questions à réponses multiples

Le type de question posé ici est une question à réponses multiples. Un individu donné peut avoir choisi Lagarde (L+) ou non (L-) et, de même, avoir choisi Le Pen (P+) ou non (P-), dans la liste de ses souhaits. Tout se passe donc comme si il y avait eu deux questions, une concernant Lagarde, l’autre concernant Le Pen. En fait, dès que l’on s’intéresse aux individus, il y a avantage à considérer une question à réponses multiples, non comme une question unique, mais comme autant de questions que de modalités proposées, m. Puisqu’on se restreint ici à deux personnalités (m = 2), il y a en fait deux questions binaires : question L, avec réponses L+ ou L- ; et question P, avec réponses P+ ou P-. Tout individu sera alors caractérisé par son profil de réponses, avec 2m = 22 = 4 profils : L+P+, L+P-, L-P+, L-P-, que l’on peut figurer dans un tableau 2 × 2 :

Des marges aux cellules

Dans un tel tableau, on peut figurer les pourcentages de chaque profil, ainsi que les pourcentages marginaux. Dans la presse, ainsi que dans le rapport détaillé du sondage, seuls les pourcentages marginaux sont disponibles : 34% pour L+ (et donc 66% pour L-), 31% pour P+ (et donc 69% pour P-) :

Si l’on en croit les commentateurs politiques, au niveau individuel, le profil “surprenant” est L+P+, c’est-à-dire la conjonction de L+ et de P+. Mais aucune information n’est donnée sur ce pourcentage conjoint. Cette information n’est pas disponible directement, mais on peut chercher l’ensemble des pourcentages conjoints qui seraient compatibles avec les marges observées. Aux deux extrêmes, on trouve ainsi les tableaux suivants :

Dans le premier cas, aucun individu n’a répondu à la fois L+ et P+, et donc aucun individu n’a de profil surprenant. A l’autre extrême, il peut y avoir jusqu’à 31% d’individus surprenants. Ainsi, avec la seule information des pourcentages marginaux, 34% et 31%, le pourcentage de profils surprenants peut se situer n’importe où dans l’intervalle [0% − 31%]. Selon la vraie valeur de ce pourcentage, les conclusions d’un tel sondage seraient bien entendu fort affectées : à un extrême, on pourrait parler d’individus tous cohérents, mais appartenant à trois groupes disjoints radicalement différents (favorable à Lagarde, favorable à Le Pen, favorable à aucune des deux) ; à l’autre, on pourrait s’interroger sur la forte proportion (31%) d’individus incohérents.

Le rapport détaillé de l’IFOP-JDD permet en fait d’aller un peu plus loin. Lorsque l’on étudie les mêmes deux questions en ventilant les individus selon leur proximité politique, les pourcentages marginaux de L+ et P+ sont respectivement :

  • Gauche : 14% et 9%
  • Modem : 32% et 8%
  • Droite : 53% et 54%
  • Aucune formation : 34% et 32%

Le pourcentage de profils surprenants, par proximité politique, est alors nécessairement à l’intérieur des intervalles suivants :

  • Gauche : [0% – 9%]
  • Modem : [0% – 8%]
  • Droite : [7% – 53%]3
  • Aucune formation : [0% – 32%]

Au vu de ces chiffres, il est en fait tout à fait possible que, hormis 7% des sympathisants de droite, tous les individus soient cohérents dans leurs réponses.

Conclusions

La “morale” de ce petit exemple ? Il y en a plusieurs à mon sens, de nature et de portée différentes :

  • La meilleure façon de traiter une question à réponses multiples est de considérer qu’il y a en fait autant de questions (binaires) que de réponses possibles. Cette approche permet aussi bien le traitement usuel, qui revient à ne s’intéresser qu’aux marges, qu’un traitement plus poussé qui autorise l’accès aux profils de réponse.
  • Pour “faire simple”, les résultats d’enquêtes fournis à la presse sont souvent limités aux tris à plat. Mais, en conséquence, les conjonctions, les profils de réponse ne sont pas accessibles, alors que les informations issues de tris croisés pourraient êtres riches d’enseignements.
  • On mélange alors, sans trop distinguer, des considérations sur les individus et des considérations sur la population, avec toute l’ambiguité de phrases telles que “Les Français pensent que …”. Or on sait depuis longtemps que l’agrégation de choix individuels cohérents peut conduire à un choix collectif incohérent, notamment avec le fameux paradoxe de Condorcet.4

1 Sondage IFOP pour Le Journal du Dimanche, sur un échantillon de 990 personnes interrogées du 27 février au 1 mars 2013. Cf. ”Le palmares des femmes politiques – Résultats détaillés”, FD n° 111156, Mars 2013.

2 B. Jeudy, ”Lagarde et Le Pen, austérité et populisme”, Le JDD, 2 Mars 2013.

3 Les informations 53% pour L+ et 54% pour P+ implique 46% pour P− et donc au maximum 46% pour la case L+P−, et en conséquence un minimum de 53−46 = 7% pour L+P+.

4 Ce paradoxe est apparu dans un contexte électoral. Soient trois candidats, A, B et C. Si une majorité d’électeurs préfère A à B (A > B) et B à C (B > C), il est tout à fait possible qu’une majorité préfère C à A (A > C), même si chaque électeur est cohérent dans ses préférences.

Cliquez ici pour télécharger l’article au format PDF.