Wiktionnaire:Actualités/031-octobre-2017
Wiktionnaire:Actualités est un journal mensuel sur le Wiktionnaire, les dictionnaires et les mots. Il est publié en ligne depuis avril 2015. Son écriture est ouverte à toutes les bonnes volontés. Vous pouvez recevoir un avis lors de la publication des prochains numéros, consulter les anciens numéros et participer au brouillon de la prochaine édition. Vous pouvez lire aussi les Regards sur l’actualité de la Wikimedia. Pour les commentaires, critiques ou suggestions, voir la page de discussion.
Annonce
Les 17 et 18 novembre auront lieu à Lyon deux journées d’études sur la création de dictionnaire. La première journée permettra d’échanger sur les méthodes et les pratiques avec une session dédiée au Wiktionnaire. La deuxième journée sera participative avec une formation collective à l’écriture de dictionnaire dans le Wiktionnaire, centré sur les dix mots de la francophonie. Et c’est co-organisé par Lyokoï et Noé, deux rédacteurs des Actualités !
Brèves
- Nous évoquions en août une association de promotion de la langue chaoui basée au Québec. Un entretien dans le journal L’initiative permet d’en savoir plus sur leurs activités, qui comprennent un atelier de contribution au Wiktionnaire !
- Dans un article de Michel Francard dans le journal Le Soir, il s’intéresse au terme tote-bag et note « Le Wiktionnaire, bien connu pour sa veille lexicale, en mentionne une [d’attestation] dès juin 2013 ».
- Dans un article en anglais, le Kansas City Star parle de whitesplaining en renvoyant vers l’entrée du Wiktionnaire anglophone, whitesplain. Ce mot n’a pas encore été ajouté au Wiktionnaire francophone.
- Le journal suisse 24 heures rapporte une affaire judiciaire dans laquelle le Wiktionnaire avait été invoqué, car il se trouvait être le seul dictionnaire à proposer une définition pour un terme problématique. Lors du premier jugement, le tribunal devait déterminer si le terme utilisé par l’accusé était une insulte à caractère raciste et il s’était appuyé uniquement sur la définition donnée dans le Wiktionnaire. En appel, le tribunal fédéral « relève que le Wiktionnaire ne possède aucun caractère officiel et que les définitions qu’il propose sont susceptibles d’être librement modifiées. » Une analyse tout à fait correcte et d’autant plus vraie pour le cas concerné que la page incriminée ne propose, pour l’instant, aucune attestation d’emploi aidant à cerner le contexte dans lequel le terme est utilisé. L’affaire a été renvoyée au tribunal cantonal vaudois.
- Un éditorialiste du site Jeuxvideo.com n’hésite pas à se fier « au savoir du wiktionnaire » pour définir le jeu vidéo en préambule d’un article polémique.
- Dans un long dossier publié sur le site Les Numériques, Jérôme Cartegini présente et compare l’encyclopédie Universalis 2018, Le Grand Robert en ligne et Wikipédia. Dommage que le Wiktionnaire n’ait pas été inclus dans la comparaison, car il contient davantage d’entrées que le Grand Robert et davantage de citations d’illustration.
- L’appellation blanco, tipex ou blanc (correcteur) est régionalisée d’après français de nos régions. Bien plus qu’on ne le croit. Et d’après l’auteur le Wiktionnaire est le seul dictionnaire à avoir toutes les variantes du blanc correcteur (ou pas…).
- Un article d’un blog de lemonde.fr rapporte l’évolution de la communauté de créateurs de langues grâce à internet. Un récit qui oublie un peu vite les siècles précédents, dont les créations ont été décrites dans un ouvrage présenté dans les Actualités de janvier 2016.
Statistiques
- Du 20 septembre au 20 octobre 2017
- Le français gagne 1 508 entrées et 1 080 citations ou exemples. Il est désormais à 357 235 lemmes, 527 416 définitions et 331 833 citations d’illustrations ou exemples.
- Les trois autres langues qui ont le plus avancé sont le same du Nord (+ 6 554 entrées), l’italien (+ 1 209 entrées) et l’espéranto (+ 280 entrées).
- Quatre nouvelles langues dans le Wiktionnaire ce mois-ci : le lhomi (+1), le merei (+1), le limilngan (+1) et le lorrain (+1).
- Cette période a vu l’ajout de 11 272 nouvelles entrées pour 76 langues modifiées !
- Nouveaux lexiques
- Vente des mérites de Catégorie:Lexique en français de l’e-commerce.
- Les mots du mois
Les pages de statistiques externes permettent de connaître :
- Thésaurus
Une prise de décision a amené à diviser des thésaurus existants dont le titre était ambigu et a entraîné la création de : cirque (naturel) et cirque (spectacle) ; langue (anatomie) et langue (linguistique) ; paresseux (animal) et paresseux (personne) ; assimilation culturelle et assimilation (biologie) ; racine (végétale), racine (odontologie), racine (linguistique), racine (informatique), racine (géologie), racine (figuré et sociologique)
Par ailleurs, Assassas77 a continué la création de thésaurus en tagalog, en en créant six de plus !
Au 31 octobre 2017, le Wiktionnaire atteint donc 317 thèmes de thésaurus, dont 300 thésaurus en langue française et un total de 452 thésaurus pour 54 langues !
23 nouveaux thésaurus ce mois-ci dont 5 en français : punition, peine de mort, prison (première création de thésaurus par Classiccardinal !), armure et tissage
- Autres évolutions
- Il y a 32 855 médias d’illustrations (images et vidéos) dans les articles du Wiktionnaire, soit 258 de plus que le mois dernier.
- La rubrique Wiktionnaire:Questions sur les mots (WT:QM) a enregistré en octobre 189 questions contre 197 questions en septembre, 141 en août et 124 en juillet.
Identifier une racine
En traitement automatique du langage, plusieurs opérations permettent de produire des outils autour d’une langue. Richard Khoury et Francesca Spasford se sont essayés à la création d’un outil de désuffixation du latin à partir du Wiktionnaire anglophone, qu’ils rapportent dans leur article « Latin word stemming using Wiktionary » (dans Digital Scholarship in the Humanities, volume 31, numéro 2, juin 2016, pages 368–373). Leur démarche pilote a consisté en une exploitation de la base de données et des liens entre les pages qui sont spécifiés dans des modèles de déclinaisons très précis afin de rattacher les racines aux terminaisons pour les verbes et aux suffixes pour les noms. À partir d’une copie de la base de mai 2015, ils ont procédé à trois étapes de nettoyage puis ont obtenu 655 434 formes de mots pour 32 860 racines.
Le meilleur outil avant leur expérimentation, le Schinke Stemmer, fonctionnait sur un principe différent puisqu’il s’agissait d’un ensemble de règles qui permettait de désuffixer automatiquement en créant des racines hypothétiques, qui n’étaient pas forcément des mots mais qui permettaient néanmoins de réduire l’inventaire de mots d’un texte, et facilitait la recherche dans un moteur de recherche par exemple.
En comparant les deux outils, ils observent que celui basé sur le Wiktionnaire rate les mots qu’il ne connait pas, mais qu’il réduit néanmoins le vocabulaire d’un texte bien plus efficacement. De plus, il permet d’accéder par la suite à un dictionnaire de définition directement, ce que ne permettait pas l’outil précédent. Ils envisagent même d’améliorer leur exploitation de la base de données du Wiktionnaire afin d’intégrer les catégories grammaticales des entrées pour produire un outil supplémentaire permettant l’étiquetage morpho-syntaxique d’un corpus.
Ces usages montrent que les wiktionnaires contiennent des données qui sont non seulement utilisables comme un dictionnaire, mais qui permettent également, grâce à leurs structures régulières, la réexploitation par des machines afin de créer des outils nouveaux. — une recension par Noé
De la patrouille et des patrouilleurs
Quelques précisions sur le rôle des patrouilleurs :
Les patrouilleurs sont des contributeurs qui consentent à passer une partie de leur temps à relire les contributions faites sur le wiktionnaire.
Ils disposent pour les aider d’un outil qui leur indiquent les contributions qui restent à patrouiller. Seules les contributions de personnes anonymes ou inscrites mais n'ayant pas le statut de contributeurs auto-patrouillés sont à relire.
Après relecture, ils peuvent alors marquer une contribution comme étant patrouillée.
Par patrouillée, il faut comprendre exempte de vandalisme au sens très large, ce qui conduit à :
- supprimer les informations clairement diffamatoires
- supprimer les informations contenant des renseignement personnels
- supprimer les informations sans rapport avec le titre de la page
- supprimer les informations importées mot pour mot de sites protégés par un copyright
- restaurer des informations correctes qui ont été supprimées ou endommagées.
Voilà les actions de bases du patrouilleur. Ils peuvent, dans ce cadre, s’ils ne sont pas administrateurs, être amenés à demander le masquage par ces derniers des contributions qui contiennent des diffamations, des renseignements personnels et des violations de copyright.
Ensuite, le patrouilleur peut, s’il le souhaite, aller plus loin en opérant sur la présentation différentes actions supplémentaires éventuelles telles que :
- corriger une page afin qu’elle soit conforme à la structure attendue d’une page du wiktionnaire
- corriger la typographie
- corriger l’orthographe
- corriger ou ajouter l’emploi de modèles
- corriger ou ajouter l’emploi de catégories
- vérifier les sources et références citées.
Enfin, et c’est de loin le plus intéressant, il peut s’attaquer au fond, en s’assurant de l’exactitude d’une contribution, voire en apportant des compléments d’informations ou des corrections.
Il faut bien le dire, cette partie est de très loin la plus chronophage et également la moins aisée.
Ainsi, il peut :
- ajouter des flexions manquantes
- ajouter des citations
- ajouter des prononciations, anagrammes, etc.
- vérifier l’exactitude des traductions.
Pour ce dernier point, il lui faut disposer d’une certaine compétence en linguistique, d’un très riche matériel sur une grande quantité de langues et de connaissance de la grammaire de plusieurs langues — ce qui n’est pas le cas de tout un chacun.
Les erreurs de traduction sont en effet nombreuses bien que faites de bonne foi, souvent de par le fait que les processus de métonymie, pierre d’achoppement du lexicographe, ne sont pas les mêmes pour toutes les langues. Ce qui fait qu’il est parfois funeste de recopier une traduction trouvée ailleurs (dictionnaire, wikipédia, etc.)
Par exemple, beaucoup de langues distinguent par des noms différents l’action de son résultat, le contenant du contenu, le bâtiment de l’institution, etc., là où le français ne le fait pas forcément. Ainsi, en finnois : chargement (l’action) : kuormaus / chargement (ce qui est chargé) : kuormitus ; la mairie (le bâtiment) : kaupungintalo / la mairie (l’administration) : pormestarin
Et bien sûr, on trouve le même problème dans le sens contraire finnois / français.
Il est par contre assez rare de rencontrer de véritables contre-sens. Je me souviens d’un, il y a plusieurs années sur le wiktionnaire anglais qui m’avait amusé :
intrigué par le fait que je trouvais plusieurs pages sur le net donnant pour chauve-souris le mot anaullaut en inuktitut, et sachant que ce mot voulait dire bâton je trouvais, après quelques recherches, que l’origine était qu’un contributeur avait trouvé dans un dictionnaire inuktitut/anglais : anaullaut : bat et avait créé cette entrée sur le wiktionnaire anglais en précisant Catégorie:Animal ce qui fut ensuite repris et traduit en français par d’autres sites.
Mais, hélas pour lui, c’était bien le mot anglais bat mais dans son sens de batte — par exemple de baseball — et non de chauve-souris dont il s’agissait…
Si vous aussi avez noté quelques contributions déjantées ou cocasses, n’hésitez pas à les rapporter ici dans une prochaine publication. — une chronique par Unsui
Le dico du mois
- Yann Lukas, Les Mots celtes clandestins, coop breizh, 2017, ISBN 978-2-84346-834-6
Que se passe-t-il lorsque le Wiktionnaire devient une référence malgré lui ? Lorsqu’on discute des sources de notre projet, on s’aperçoit qu’elles ne se structurent absolument pas comme Wikipédia, que nous n'avons pas du tout le même rapport face au travail inédit et que peut-être, nous pouvons servir de source. Bon. En fait, on le fait déjà. Et j’en veux la preuve dans le petit dico du mois. Un ouvrage de poche, qui donne un aperçu du « Vocabulaire français emprunté au gaulois, au breton et aux langues celtiques ». Yann Lukas nous fait découvrir des mots que l’on connaît et d’autres dont on ne soupçonnait pas l'origine celtique. Il propose plusieurs fois des alternatives celtiques à des mots d’argot dont les dictionnaires courant sont souvent complètement à la ramasse sur le sujet : à dache, loufer, morfal et j’en passe.
Mais à la page 62, nous découvrons une bien drôle de phrase : Tamis : bien que contesté, l’étymologie gauloise du tamis est séduisante. Dans son Dictionnaire des étymologies obscures (Payot, 1982), Pierre Guiraud opte pour une origine latine, avec stamen, chaîne de tissage, qui a aussi donné étamine. Le Wiktionnaire privilégie le bas vieux-francique tamisa (qui donne le néerlandais vieilli teems). […] Ainsi, à côté d'un ponte de l'étymologie actuelle, nous sommes cités. Et notre hypothèse pour tamis n’est pas très solide. En effet, elle a été fournie par une IP sans sources, et les gens ont construit dessus. Pour autant, elle n’est pas à jeter, puisqu’un étymologiste en a reconnu une certaine solidité.
Outre cette petite apparition qui nous apporte gloire (ou pas) et reconnaissance (ou presque), ce petit dictionnaire des mots celtiques est constellé d’anecdotes sur les langues celtiques qui nous permettent de mieux les comprendre et les appréhender dans notre monde aujourd'hui mais aussi d’halluciner un peu sur les affres de la langue bretonne qui s’est retrouvée avec des mots qui ne lui appartiennent pas : menhir (les Bretons disaient peulvan), dolmen (ils disaient lichaven), kermesse (qui vient du flamand kerkmisse) ou encore triskèle (qui lui vient du grec et qu’on écrit triskell pour faire plus celtique). — une chronique par Lyokoï
En vidéo
Cette rubrique vous propose de faire une revue des vidéos sur la linguistique et la langue française du mois, n’hésitez pas à ajouter les vidéos que vous découvrez !
- Le Monde : le site web du journal Le Monde a publié une vidéo de 4 minutes sur l’écriture inclusive.
- Benoît Sagot: Extracting an Etymological Database from Wiktionary est une conférence donnée à l’eLex conference (à Leiden, Pays-Bas) par un lexicographe français Benoît Sagot. Il a extrait un arbre étymologique simple mais avec beaucoup d’entrées du Wiktionnaire anglophone: EtymDB.
- Doct’Auvergne : Dans l’émission « le dicovergne » on nous parle de sérendipité.
- Linguisticae : Une première vidéo qui balance des hypothèses étymologiques sur les anglicismes qui ne le sont pas et une autre avec quelques arguments sur l’écriture inclusive.
LexiSession sur la punition
Impulsées par le Fantastique Groupe d’utilisateurs et d’utilisatrices de Wiktionnaire, les LexiSessions visent à proposer des thèmes mensuels pour dynamiser l’ensemble des Wiktionnaires simultanément. Les thèmes sont suggérés en amont sur Meta et annoncés chaque mois sur la Wikidémie, l’espace principal de discussion.
La LexiSession d’octobre était sur le thème de la punition et il a permis la création de trois thésaurus !
Pour le mois de novembre, il est proposé de s’intéresser aux toilettes !Wikiconvention francophone 2017
Trois jours de rencontres ne furent pas de trop pour discuter avec la belle centaine de personnes venues échanger sur leurs projets, que ce soit leurs contributions personnelles comme les dynamiques collectives qui se développent partout dans le monde. L’équipe des Actualités du Wiktionnaire était sur place, à Strasbourg, pour couvrir l’évènement et rapporter de quoi remplir les numéros à venir, et bien sûr pour faire la promotion du Wiktionnaire dans toutes les conversations ! Le Wiktionnaire figurait en bonne position parmi les nombreuses présentations de qualité, avec pas moins de deux présentations et d’une rencontre autour du projet ! Mentionnons quelques thèmes qui furent abordées par les contributeurs au Wiktionnaire qui s’y trouvaient : inclusion des langues d’Afrique, accompagnement des nouveaux participants, enregistrements audios avec Lingua Libre, organisation de journées participatives et vivacité des initiatives collectives. Ce fut également l’occasion de rencontrer deux chercheurs du projet Logoscope, qui s’engagent dans une coopération avec le Wiktionnaire, ce dont nous reparlerons très bientôt !
-
La traditionnelle photo de groupe
-
Des Actualités imprimées !
-
Strasbourg
Curiosité : la fonction phatique
Parmi les six grandes fonctions du langage définies par Roman Jackobson, la fonction phatique correspond à ce qui permet de s’assurer que le canal de communication fonctionne bien. Ce sont d’abord tous les mots ou expressions comme « tu vois » ou « tu me suis ? » mais aussi les mots utilisés lors de l’initiation d’une communication téléphonique comme « allô ? ». Marina Yaguello étend l’analyse à tous les discours mondains qui n’ont que pour but de maintenir la conversation, sans pour autant servir à partager quoi que ce soit. En restant au niveau des phrases et des mots, c’est un enjeu délicat pour un dictionnaire que de décrire ces usages. D’une part car il existe de grandes variations dans les termes employés, et que trouver des attestations écrites n’est pas toujours évident. D’autre part car il est difficile de bien expliquer la fonction de ces termes. Ce sont souvent des phrases entières, comportant un verbe, mais qui sont vidées de leur sens, pour avoir seulement une fonction communicationnelle. — une chronique par Noé
Anciens numéros
- 2015 : avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2016 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2017 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2018 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2019 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2020 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2021 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2022 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2023 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, novembre, décembre
- 2024 : janvier, février, mars, avril, mai, juin, juillet, août, septembre, octobre, brouillon du prochain numéro