Wiktionnaire:Actualités/056-novembre-2019

Wiktionnaire:Actualités est un journal mensuel sur le Wiktionnaire, les dictionnaires et les mots. Il est publié en ligne depuis avril 2015. Son écriture est ouverte à toutes les bonnes volontés. Vous pouvez recevoir un avis lors de la publication des prochains numéros, consulter les anciens numéros et participer au brouillon de la prochaine édition. Vous pouvez lire aussi les Regards sur l’actualité de la Wikimedia. Pour les commentaires, critiques ou suggestions, voir la page de discussion.

Actualités - Numéro 56 - novembre 2019

Différents types de gélose photographiées par Manon Chauvin pour Wiki Science Competition 2019.

Compte-rendu de lecture

Les actes du colloque de Milan de l’an dernier viennent de paraître dans le numéro 194 de la revue Éla. Études de linguistique appliquée, diffusé en ligne mais sous réserve de payer pour l’accès aux articles, sauf pour les personnes avec un accès universitaire. Ce numéro fait suite à un autre recueil par les mêmes personnes sur Dictionnaires, culture numérique et décentralisation de la norme dans l’espace francophone. Le troisième épisode sera une conférence à l’automne 2020, avec une publication ultérieure, espérons le. Deux articles sont particulièrement intéressants par rapport au Wiktionnaire :

Franck Sajous, Nabil Hathout et Amélie Josselin-Leray, « Du vin et devin dans le Wiktionnaire : neutralité de point de vue ou neutralité et point de vue ? » (accès gratuit à la prépublication).

Revoilà l’équipe qui étudie le Wiktionnaire depuis bien des années, et maintiennent notamment le comparateur de mots entrés dans les dictionnaires Corpus DiCo dont nous avions parlé en juillet dernier. Ils s’intéressent cette fois à l’expression du point de vue et à la subjectivité dans les définitions. Deux champs de vocabulaire sont étudiés, les noms de praticiens d’arts occultes et les noms de vins. Dans les deux cas, après un repérage manuel, ils observent que la majeure partie des éléments subjectifs provient de définitions importées du Littré et non modifiées depuis. Ils concluent que « le Wiktionnaire porte en lui les stigmates de dictionnaires d’un autre temps (Littré, DAF8). Le plus souvent, une trace de subjectivité repérée ne trahit pas la prise de position d’un contributeur, mais l’import automatique d’une définition non révisée ultérieurement. »

Sophie Piron, « Des premiers dictionnaires à la lexicographie profane numérique : parcours lexicographiques de féminisation » (accès payant).

Étude historique sur une cinquantaine de mots désignant des noms d’agentes, noms de professions, titres ou fonctions occupées par des femmes. Trente-sept dictionnaires étudiés, et des descriptions fort anciennes pour de nombreux mots au féminin. Le Wiktionnaire est compté dans l’étude mais ne ressort pas particulièrement de part son choix de traitement sur des pages indépendantes, proposant des attestations d’usage et des illustrations dédiées, ce qui est pourtant une nouveauté. Dans chaque ouvrage, il y a des manques de description pour ces termes, et on pourrait ajouter les dictionnaires étymologiques à cette liste.— une chronique par Noé

Brèves d’ici

Lors de la semaine du 4 au 10 novembre a été proposé comme projet de la semaine l’ajout de la forme de l’adjectif à des pages qui décrivent déjà des formes de verbe, tel que sidéré ou émerveillé. Suite à cela, Dbult a construit une liste de travail qui lui a déjà permis de compléter plus de trente pages !

Lors de WikiIndaba 2019, Geugeor a animé une présentation faisant découvrir l’utilisation du Wiktionnaire et Lingua Libre au Cameroun. Voici les diapositives de la présentation.

Suite au changement des pictogrammes associées aux titres de paragraphes sur le Wiktionnaire, le Wiktionnaire hellénique a lancé une réflexion similaire : el:Βικιλεξικό:Ψηφοφορίες/2019/Εικονίδια

Une nouvelle version linguistique du Wiktionnaire a fait son apparition, le Wiktionnaire en chaoui, une langue berbère parlée en Algérie. Pour information, il s’agit de la première langue pour laquelle le premier projet Wikimédia n’est pas Wikipédia mais un autre projet. Un article a été publié sur le site d’échange Wikimedia Space (en anglais).

Une autre version linguistique du Wiktionnaire a également fait son apparition, le Wiktionnaire en minangkabau, langue parlée en Malaisie et en Indonésie. Longue vie à ces deux nouveaux Wiktionnaires.

Brèves d’ailleurs

L’Académie française, dans son communiqué du 21 novembre se plaint de l’utilisation de plus en plus fréquente du franglais. L’Agence France-Presse a repris ce communiqué, qui a donné lieu à plusieurs articles, incluant en anglais.

Un dictionnaire géant pour les mots menacés de disparition, un coup de com’ d’un dictionnaire italien.

Le dictionnaire de l’anglais Collins a élu comme mot de l’année climate strike.

Dans un article paru en anglais sur Vox, Sigal Samuel se demande, connaître davantage de mots positifs rend-il plus heureux ?.

L’entreprise Facebook, possédant le réseau socio-commercial du même nom ainsi qu’Instagram et divers autres produits change de nom pour être mieux distinguée de son produit phare et devient FACEBOOK. Un changement de typographie peut-il suffire à établir une différence ? Nous verrons bien si d’autres entreprises suivent cette idée.

Un article du Figaro nous informe qu’un algorithme de linguistique est formel : Corneille ne serait pas Molière. De précédentes études avaient conclu le contraire.

Un film de savon proposé par Smouss dans le cadre de Wiki Science Competition 2019.

Liste de souhaits aux développeurs pour 2020

Comme chaque année, l’équipe chargée de développer pour la communauté sollicite des propositions et organise un vote pour diriger son travail pour l’année suivante. Pour la première fois, l’équipe propose pour 2020 de ne lui faire des propositions qu’en rapport avec les projets qui ne bénéficient pas habituellement de développements. Voici les 20 propositions concernant le Wiktionnaire, sur un total de 72. Les 5 plus soutenues sont retenues et les votes se sont terminés le 2 décembre (donc le tableau a été actualisé après publication des Actualités) !

Une proposition a été retenue ! Il s’agira d’un nouvel outil permettant d’explorer plus facilement le contenu de Wikisource pour y trouver des exemples utiles pour illustrer le sens des mots. Les quatre autres propositions retenues concernent toutes Wikisource, qui sort gagnant de cette opération.

Les propositions non retenues demeurent ouvertes pour toute personne qui souhaiterait soutenir le Wiktionnaire, bénévolement ou sous la forme d’un projet externe à la Wikimedia Foundation, avec un financement dédié pour la durée du développement.

Rang	Propositions	Par	Votes
5	Pouvoir insérer des citations de Wikisource	Noé	57
11	Faire de Lingua Libre Bot un service interne	Theklan	40
12	Avoir un moteur de recherche adapté aux Wiktionnaires	Lyokoï	40
16	Afficher dans le Wiktionnaire des définitions provenant des dictionnaires de Wikisource	DaraDaraDara	34
18	Avoir davantage de mémoire pour les modules Lua	KevinUp	33
20	Avoir des statistiques adaptées aux Wiktionnaires	Lyokoï	29
25	Avoir un outil de veille des néologismes dans la presse	DaraDaraDara	25
28	Avoir des clés de tri qui dépendent du contexte	TAKASUGI Shinji	23
31	Avoir plusieurs collations par site	Automatik	22
32	Avoir des variables par section pour simplifier les modèles	Lepticed7	22
39	Pouvoir envoyer sur Commons des fichiers audios depuis le Wiktionnaire	Koavf	18
46	Permettre des recherches utilisant les caractères ^et $	Zabavuju flašku chlastu maskovanou jako zubní pastu	16
47	Changer la couleur des liens interwikis selon le contenu	Pamputt	16
53	Permettre une traduction complète du tableau de bord de Cognate	Pamputt	15
55	Pouvoir retrouver les utilisateurs selon leur activité	LA2	14
56	Proposer plusieurs formats d’export des données	Lyokoï	14
58	Avoir deux options pour l'affichage du contenu d'une catégorie	Lmaltier	13
59	Pouvoir modifier l'ordre des sections d'une page facilement	Jpgibert	12
67	Créer des jeux pédagogiques à partir des listes de suivi	Clicero	8
71	Ajouter un fil d’Ariane ou un sommaire défilant	Fractaler	7

Statistiques

Du 20 octobre 2019 au 20 novembre 2019

+ 19 293 entrées et 93 langues modifiées pour atteindre 3 838 513 entrées et 1 158 langues avec au moins cinq entrées.

+ 2 600 entrées en français pour atteindre 376 438 lemmes et 565 573 définitions.

Les trois langues qui ont le plus avancé outre le français sont le same du Nord (+ 12 007 entrées), l’espagnol (+ 1 314 entrées) et l’anglais (+ 1 093 entrées).

+ 8 nouvelles langues pour un total de 4 832 langues : le lambya, le chenchu, le kuturmi, le kaningdon-nindem, le kalanga, le hmong blanc, le juray et le ndali.

+ 3 424 citations ou exemples en français pour atteindre 403 802.

+ 1 826 prononciations (dont 1 297 pour le français) pour atteindre 176 035 prononciations audios pour 117 langues (dont 73 693 pour le français).

+ 365 médias d’illustrations (images et vidéos) dans les articles du Wiktionnaire, pour atteindre 47 885.

+ 9 thésaurus pour atteindre 622 thésaurus dans 56 langues dont 448 thésaurus en langue française ! Les nouveaux thésaurus sont : le cerveau par Lepticed7 ; le militantisme par WikiLucas00 ; le cinéma (art), le maquillage, le genre (cinéma), l’œil et le visage par Lepticed7 et Jpgibert lors d’une journée de contribution à la cinémathèque de Toulouse ; la porte par Otourly, les droits humains, la prévention et la sexualité par Noé ; la voie ferrée par Darmo117.

Wikiscan et Wikistats donnent chaque mois accès à beaucoup de mesures, dont la liste des pages les plus consultées et des pages modifiées par le plus de personnes.

Les 30 mots proposés ce mois-ci ont tous été créés. Bravo à tous !

+ 3 domaines sémantiques : le curling, l’art urbain, l’industrie de l’énergie.

La rubrique Wiktionnaire:Questions sur les mots (WT:QM) a enregistré 47 questions en novembre contre 61 questions en octobre et 36 en septembre.

Curiosité : l’intelligence artificielle parle le CamemBERT

Les informaticiens tentent d’analyser automatiquement les langues depuis l’invention de l’ordinateur, leur graal étant la traduction instantanée, largement dépeinte dans la science-fiction. Les progrès récents de ce qu’ils appellent le « deep learning », une sous-branche de l’intelligence artificielle, permettent de s’approcher d’une analyse humaine de la syntaxe des phrases et leur grammaire.

Un article annonce même la maîtrise de la grammaire française par la machine, avec 99 % de réussite. Ceci grâce à un programme nommé « CamemBERT », basé sur un autre baptisé « RoBERTa », lui-même améliorant « BERT », un programme open-source développé par Google et révolutionnaire dans son domaine.

Le principe de base de l’ensemble de ces algorithmes, comme on a pu le voir pour les machines gagnant systématiquement au jeu d’échecs, au jeu de go et dernièrement à StarCraft 2, consiste à faire jouer à un réseau de neurones artificiels le plus de parties possibles, et c’est tout ! Dans notre cas, CamemBERT a lu des millions de pages, ou l’équivalent de 130 Go de texte, tout simplement ou presque. En comparaison, la totalité du texte de Wikipédia en français tient dans moins de 6 Go.

Après un tel entraînement (qui peut prendre seulement deux jours si vous disposez de 256 cartes graphiques !), il est possible d’analyser n’importe quel texte, en identifiant par exemple les verbes et les sujets. CamemBERT est téléchargeable pour faire des tests. L’exemple fourni avec le logiciel donne en entrée une phrase avec un mot à compléter : « Le camembert est ? :) » (note : le smiley est important, il préfère qu’on lui parle gentiment). On obtient alors, en sortie, une liste des meilleures réponses correspondant à l’apprentissage : délicieux (49 %), excellent (11 %), succulent (3,5 %).

L’ensemble des pages lues par ce bot un peu spécial viennent aussi d’internet, essayons donc avec « Le Wiktionnaire est ? :) » : disponible (16 %), arrivé (7,8 %), gratuit (7 %), terminé (4 %) .

Et « Un dictionnaire c’est ? :) » : génial (12 %), bien (11,5 %), indispensable (10 %), quoi (4 %) .

Mais la question la plus importante : « Mon fromage préféré est le ? » : chèvre (14 %), comté (11 %), Cantal (10 %), parmesan (6 %)… — une chronique par Romainbehar

Un fragment d’apatite sous lumière polarisée par Kallerna pour Wiki Science Competition 2019.

Dictionnaire du mois

Dictionnaire idéologique : Recueil des mots, des phrases, des idiotismes et des proverbes de la langue française classés selon l'ordre des idées, par T. Robertson, Paris : chez A. Derache, in-8°, 1859, XXVII + 480 pp.

L’auteur Théodore Robertson, de son vrai nom Pierre Charles Théodore Lafforgue (1803-1871), donne, dans l’introduction, le but d’un tel dictionnaire ; en substance il écrit :

Autant les dictionnaires ordinaires ont pour objet de trouver la signification d’un mot ou l’idée qu’il représente, autant ce dictionnaire idéologique doit offrir la solution inverse : Une idée étant donnée, il convient de trouver le mot qui l’exprime le plus convenablement. À cet effet, les mots et les phrases de la langue sont classés dans ce dictionnaire, non selon leur prononciation ou leur orthographe, mais strictement selon leur signification.

Ce projet dépasse les dictionnaires de synonymes, où les mots sont groupés selon leur signification. Cet arrangement, s’il est propre à faire connaître la valeur précise des équivalents, ne permet en rien de choisir le mot le plus adapté à l’idée que l’on veut exprimer. Dans ce dictionnaire idéologique, le vocabulaire est disposé de telle façon qu’on y trouve, groupés dans la même colonne ou dans la même page, tous les mots et toutes les locutions ayant rapport à l’idée qu'il veut rendre.

Le Dictionnaire idéologique est l’application à la langue française du plan développé dans le Thesaurus of English words and phrases de Peter Mark Roget (1779-1869), et l’auteur français revendique l’autorisation de l’auteur anglais. Les idées y sont distribuées, sur les 313 premières pages, en six grandes classes, qui se subdivisent en ordres, en familles, en genres et en espèces, de manière que l’esprit puisse descendre successivement des généralités aux particularités dans mille sous-catégories. Un index de 166 pages (pages 314 à 480) répertorie les mots décrits et les affecte à l’une des mille sous-catégories.

Nous tenons là, dans nos mains émues, le premier thésaurus de la langue française et l’on peut remarquer que, aux liens hypertextes près, nous suivons, dans notre thésaurus du Wiktionnaire, une démarche qui en découle.

Actuellement ce dictionnaire est lisible en ligne et il semble qu’il fût réédité chez l’éditeur BookSurge Publishing en l’an 2000. Que ceux qui pourraient avoir la possibilité de consulter, dans une bibliothèque, l’édition de 1859 s’offrent le plaisir sensuel d’en toucher le papier. — une chronique par François GOGLINS

Post-scriptum : Suite à l’écriture de cette chronique, ce thésaurus ancestral a été proposé à la transcription collaborative dans Wikisource

. La préface et les vingt premières pages sont déjà consultables.

À voir ou écouter

Quelques émissions audio ou vidéos sur la lexicographie, la linguistique et la langue française sorties ou découvertes ce mois-ci.

David Cheik de la chaîne Histoire Brève explique Pourquoi les belges, les suisses & les luxembourgeois parlent français ? dans une nouvelle vidéo de sa série sur la francophonie.

En janvier dernier, France Culture nous a proposé une série d’émissions sur le thème « Face au présent », la première émission évoque la crise du langage et comment y répondre (parle fake news, vérité, rhétorique…)

En avril dernier, France Culture a proposé une série sur « D’autres idées de l’Europe », durant la quatrième émission l’invité nous invite à penser l’anglais comme langue commune à l’Europe et comme un moyen de promouvoir l’égalité des possibilités données aux européens surtout une fois le brexit passé (lorsqu’il n’y aura plus d’anglophones en Europe)

La chaîne L'Histoire nous le dira explique le joual québécois.

1983 : les expressions à la mode chez les lycéens.

LexiSession de novembre

Impulsées par le Fantastique groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions proposent des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion. La LexiSession de novembre était le militantisme et il a donné lieu à la création d’un thésaurus. Pour le mois de décembre, les thèmes proposés sont la fête et la famille.

Des cristaux liquides sous un microscope optique polarisé, photographiés par Alberto Concellón.

Anciens numéros

2015 : avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2016 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2017 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2018 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2019 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2020 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2021 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2022 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2023 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
2024 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, brouillon du prochain numéro