Sophisme de Lewontin
Le Sophisme de Lewontin a été discuté pour la première fois dans "Diversité Génétique Humaine: Le Sophisme de Lewontin", un article de 2003 écrit par A. W. F. Edwards. Edwards critique un argument avancé pour la première fois dans l'article de Richard Lewontin de 1972, "The Apportionment of Human Diversity", qui soutient que la race est taxonomiquement invalide car la plupart des variations génétiques sont dues aux différences individuelles au sein des populations. Edwards a montré que cela ne réfute pas la réalité biologique de la race, puisque l'analyse génétique peut faire des inférences correctes sur la race d'une personne à partir de laquelle un échantillon est prélevé, et que le taux de succès augmente rapidement lorsque plusieurs loci génétiques sont considérés. Edwards démontre que les conclusions de Lewontin sont erronées car elles analysent les données en supposant qu'elles ne contiennent aucune information au-delà de celle révélée par une analyse variante par variante, et que la véritable signification taxonomique des données génétiques provient des "corrélation entre les différents loci"[1].
L'argument initial de Lewontin
[modifier | modifier le code]Dans l'étude de 1972 "The Apportionment of Human Diversity", Richard Lewontin a réalisé une analyse statistique de l'indice de fixation (FST) en utilisant 17 marqueurs, y compris des protéines du groupe sanguin, de personnes de "races" définies de manière arbitraire par Lewontin. Il a découvert que, lorsqu'on ne regarde qu'un locus génétique à la fois, la majorité de la variation génétique totale entre les humains se trouve au sein des populations et une minorité est expliquée par les classifications raciales de Lewontin. Lewontin en a conclu : "Puisque cette classification raciale est maintenant considérée comme ayant pratiquement aucune signification génétique ou taxonomique, aucune justification ne peut être avancée pour sa continuation". Edwards a soutenu que la conclusion de Lewontin était basée à la fois sur des raisons sociales et son analyse. Le chiffre de 6,3 à 10% de la variation génétique totale attribuée à la variation entre les races est calculé en faisant la moyenne des contributions séparées de 17 gènes individuels qui ont été échantillonnés dans différentes études[2].
La critique d'Edwards
[modifier | modifier le code]Edwards a soutenu que les résultats de Lewontin sur la variabilité au niveau des loci sont techniquement corrects, mais que la variabilité au niveau des loci n'a aucune pertinence pour la classification, et qu'il est néanmoins possible de classer les individus dans différents groupes raciaux avec une précision qui approche les 100 pour cent lorsque l'on prend en compte la fréquence des allèles à plusieurs loci en même temps. Cela se produit parce que les différences de fréquence des allèles à différents loci sont corrélées entre les populations - les allèles qui sont plus fréquents dans une population à deux loci ou plus sont corrélés lorsque nous considérons les deux populations simultanément. En d'autres termes, la fréquence des allèles a tendance à se regrouper différemment pour différentes populations. Selon les termes d'Edwards, "la plupart des informations qui distinguent les populations sont cachées dans la structure de corrélation des données". Ces relations peuvent être élucidées en utilisant des techniques couramment utilisées d'ordination et d'analyse de clusters. Edwards a soutenu que, même si la probabilité de mal classer un individu en fonction de la fréquence des allèles à un seul locus est aussi élevée que 30% ou 50% (comme Lewontin l'a rapporté en 1972), la probabilité de mauvaise classification devient proche de zéro si suffisamment de loci sont étudiés. Edwards a soutenu que Lewontin a utilisé son analyse pour attaquer la classification humaine en science pour des raisons sociales, citant les écrits de Lewontin selon lesquels "toute l'histoire du problème de la variation génétique est une illustration vivante du rôle que jouent les présupposés idéologiques profondément ancrés dans la détermination de la 'vérité' scientifique"[3].
Analyse des composants principaux
[modifier | modifier le code]L'Analyse en Composantes Principales (ACP) est une procédure statistique couramment utilisée dans l'analyse de données pour simplifier des ensembles de données multivariées complexes. Elle réduit la dimensionnalité (c'est-à-dire le nombre de variables) de ces ensembles de données tout en préservant la structure de l'ensemble de données. Critiquement, elle peut être appliquée à des données multi-locus. La première composante principale explique autant de la variance qu'il est possible avec une seule dimension. Edwards a écrit que pour la première composante principale, la variance entre les populations "est beaucoup plus grande" que la variance au sein des populations. La pertinence de l'ACP par rapport au Sophisme de Lewontin entre en jeu lorsqu'on considère le rôle de plusieurs marqueurs génétiques, ou loci, dans la classification des individus en groupes. Chaque marqueur génétique peut être considéré comme une dimension dans un espace à haute dimension. Tout comme l'ACP peut révéler les 'composantes principales' ou directions de la plus grande variance dans un ensemble de données complexe, elle peut de même révéler les axes principaux le long desquels l'information génétique varie le plus. La première composante principale tiendrait compte de la variance génétique la plus importante et pourrait correspondre à une différenciation majeure, comme l'ascendance continentale. Les composantes suivantes tiendraient compte d'une variance progressivement moindre et pourraient correspondre à des différentiations plus subtiles, comme les ascendances régionales ou la longitude et la latitude. De cette manière, l'ACP peut révéler des motifs dans les données génétiques qui permettent une classification précise des individus en populations. Malgré le fait que la majorité de la variation génétique au niveau des loci se trouve au sein des populations, la variation entre les populations peut toujours être statistiquement significative et informative lorsqu'on considère plusieurs loci génétiques.
Analyse Multi-Locus d'Edwards
[modifier | modifier le code]Pour illustrer l'erreur statistique désignée comme le Sophisme de Lewontin, Edwards a proposé une situation hypothétique impliquant deux populations de taille n. Il a imaginé que chacune de ces populations possédait un gène particulier, noté '+' ou '-', à un seul locus diallélique. Pour la Population 1, la fréquence du gène '+' était notée p, et pour la Population 2, la fréquence était notée q.
Selon la figure de Lewontin, 84% de la variabilité génétique se produit au sein des populations quand p=0.3 et q=0.7 parce que le rapport de la somme des carrés intra-population à la somme totale des carrés est 4pq.
La probabilité de mauvaise classification d'un individu sur la base du seul gène '+' est p. Cela suggère qu'un seul locus est un indicateur insuffisant de l'origine populationnelle d'un individu : pour p=0.3, cela ne donnerait qu'une classification raciale correcte 30% du temps avec un seul locus typique.
Cependant, Edwards a étendu ce modèle en introduisant k loci, chacun ayant une fréquence de gène de p dans la Population 1 et q dans la Population 2. Malgré l'ajout de loci, le rapport de la variabilité intra à totale reste inchangé à chaque locus (toujours 84%). Si nous maintenons les mêmes fréquences de gènes qu'avant et supposons k=100 loci, les moyennes sont 30 et 70, avec des écarts-types d'environ 4,58. Cela entraîne un chevauchement extrêmement minime entre les distributions et une probabilité presque nulle de mauvaise classification basée uniquement sur le compte des gènes '+'.
Pour illustrer davantage la puissance de plusieurs loci dans la discrimination, Edwards a exploré un scénario où les étiquettes '+' et '-' étaient échangées aléatoirement à chaque locus avec une probabilité de 0,5, et l'origine populationnelle de chaque individu était inconnue. Edwards montre que dans ce cas, l'utilisation d'une analyse de clusters, qui maximise la somme des carrés entre clusters (ou de manière équivalente, minimise la somme des sommes des carrés intra-clusters), pourrait séparer avec succès les populations.
En calculant les distances paires entre les individus sur les k loci, Edwards a découvert que la probabilité d'une correspondance est p^{2}+q^{2} pour les individus au sein de la même population et 2pq pour les individus de populations différentes. Avec p=0.3, q=0.7 et k=100, les distances moyennes sont respectivement de 58 et 42, avec des écarts-types d'environ 4.936. Cela donne une distance substantielle entre les moyennes des deux populations (plus de 3 écarts-types), permettant une classification efficace avec la probabilité de mauvaise classification approchant zéro à mesure que le nombre de loci augmente.
Références
[modifier | modifier le code]- Edwards, « Human genetic diversity: Lewontin's fallacy », BioEssays, vol. 25, no 8, , p. 798–801 (PMID 12879450, DOI 10.1002/bies.10315)
- S. Ramachandran, H. Tang, R. N. Gutenkunst et C. D. Bustamante, Vogel and Motulsky's Human Genetics: Problems and Approaches, Heidelberg, Springer, (ISBN 978-3-540-37653-8, DOI 10.1007/978-3-540-37654-5), « Chapter 20: Genetics and Genomics of Human Population Structure », p. 596
- C. Bhatt, The SAGE handbook of race and ethnic studies, London, SAGE, (ISBN 9780761942207), « The spirit lives on: race and the disciplines », p. 115