Frank Sajous

CLLE, Maison de la Recherche
Université de Toulouse 2
5, allées Antonio Machado
F – 31058 Toulouse Cedex 9

Thèmes de recherche / Research topics

Métalexicographie, lexicographie, crowdsourcing, dictionnaires collaboratifs, ressources lexicales libres, TAL

Metalexicography, lexicography, crowdsourcing, collaborative dictionaries, free lexical resources, NLP

Présentation

Je suis ingénieur de recherche à CLLE, une UMR (CNRS & Université de Toulouse 2) dont les champs disciplinaires sont ceux de la linguistique et de la psychologie. Après une formation universitaire en informatique, j’ai rejoint CLLE en 2003, où j’ai d’abord participé à des recherches en linguistique de corpus et en TAL.

En 2008, je me suis intéressé à Wiktionary et au Wiktionnaire pour leur capacité à fournir au TAL un terrain d’expérimentation : il s’agissait de mettre au point des algorithmes de marches aléatoires pour enrichir les réseaux de synonymie extraits des dictionnaires (en collaboration avec B. Gaume, notamment). L’étape suivante a consisté à fournir au TAL les ressources lexicales libres dont cette discipline était dépourvue à l’époque. J’ai développé (en collaboration avec N. Hathout et B. Calderone) des lexiques morpho-phonologiques pour le français, l’italien et l’anglais, puis des dictionnaires électroniques pour ces mêmes langues à partir de Wiktionnaire, Wikizionario et Wiktionary.

À partir de 2013, j’ai commencé à caractériser quantitativement et qualitativement les différentes éditions de Wiktionary (couverture lexicale en corpus, transcriptions phonémiques, etc.), toujours dans une perspective TAL. Puis je me suis intéressé à la description des dictionnaires collaboratifs (et participatifs, agrégatifs, crowdsourcés – sans avoir, à l’époque, inventorié précisément les différents types de dictionnaires plus ou moins… amateurs ?) en les prenant pour ce qu’ils sont : des dictionnaires destinés aux humains, avant tout.

Depuis 2017, j’analyse et je décris (en collaboration avec N. Hathout et A. Josselin-Leray) les dictionnaires dits « amateurs » (Wiktionary, Urban Dictionary, Le Jargon Français) et les compare entre eux, ainsi qu’aux dictionnaires institutionnels et commerciaux. Je me suis intéressé à la notion de neutralité et de point de vue dans les différents dictionnaires, à la capacité de ces derniers à décrire le vocabulaire de la langue générale et spécialisée, ainsi qu’à rendre compte de la néologie spontanée et planifiée. Au lieu de considérer les différents types de dictionnaires comme des compétiteurs, mon approche consiste à dégager les spécificités de chacun, avant d’envisager leur complémentarité, du point de vue de l’utilisateur, en fonction d’un besoin donné. Enfin, j’ai récemment montré que les dictionnaires écrits par « les foules » pouvaient servir de points d’entrée pour étudier les dictionnaires issus de maisons d’édition tels que le Petit Robert et le Petit Larousse.

Presentation

I am a Research Engineer at CLLE, a research lab in linguistics and psychology at the CNRS & University of Toulouse 2, France. I have an educational background in Computer Science and joined my current lab in 2003, where I have been involved in corpus linguistics and NLP research. My research interests initially lay in the study of free online dictionaries as potential resources for NLP. I have built several electronic lexicons and machine-readable dictionaries based on the English, French and Italian editions of Wiktionary. I then conducted quantitative and qualitative studies aiming to describe amateur dictionaries in terms of lexical coverage, treatment of neology and specialized domains, neutrality vs. point of view, etc. Recently, I have compared the dictionaries written by the crowds to those written by professional lexicographers in order to assess their complementarity rather than seeing them as competitors.

Publications

Sajous, F., Calderone, B. & Hathout, N. (2020). Extraire et encoder l’information lexicale de Wiktionary: quel boulot pour étrangler le goulot! Lexique, 27, pp. 121-144. https://lexique.univ-lille.fr/numero27-2020.html

Sajous, F., Calderone, B. & Hathout, N. (2020). ENGLAWI: From Human- to Machine-Readable Wiktionary. In: Proceedings of the 12th International Conference on Language Resources and Evaluation (LREC 2020). Marseille: European Language Resources Association, pp. 3016-3026.http://fsajous.free.fr/papers/LREC2020/SajousEtAl2020_LREC_ENGLAWI_FromHumanToMachineReadableWiktionary.pdf

Hathout, N. & Sajous, F. (2016). Wiktionnaire’s Wikicode GLAWIfied: a Workable French Machine-Readable Dictionary. In: Proceedings of the tenth International Conference on Language Resources and Evaluation (LREC 2016). Portorož: European Language Resources Association, pp. 1369-1376. http://fsajous.free.fr/papers/LREC2016/HathoutSajous_LREC2016_WiktionnaireWikicodeGLAWIfied_MRD.pdf

Sajous, F. & Hathout, N. (2015). GLAWI, a free XML-encoded Machine-Readable Dictionary built from the French Wiktionary. In: Electronic Lexicography in the 21st Century: Linking Lexical Data in the Digital Age. Proceedings of the eLex 2015 Conference. Ljubljana/Brighton: Trojina, Institute for Applied Slovene Studies/Lexical Computing Ltd., pp. 405-426. http://fsajous.free.fr/papers/ELEX2015/SajousHathout_ELEX2015_GLAWIfreeXMLencodedMachineReadableDictionaryWiktionary.pdf

Hathout, N., Sajous, F. & Calderone, B. (2014). Acquisition and enrichment of morphological and morphosemantic knowledge from the French Wiktionary. In: Proceedings of the COLING Workshop on Lexical and Grammatical Resources for Language Processing. Dublin: Association for Computational Linguistics and Dublin City University, pp. 65-74. http://fsajous.free.fr/papers/COLING2014-LGLP/HathoutEtAl2014-COLING_LGLP-AcquisitionEnrichmentMorphologicalKnowledgeFromWiktionary.pdf

Autres publications / Other publications

Sajous, F., Josselin-Leray, A. & Hathout, N. (2020). Les domaines de spécialité dans les dictionnaires généraux: le lexique de l’informatique analysé par les foules et par les professionnels… de la lexicographie. Neologica, 14, pp. 83-107. http://fsajous.free.fr/papers/Neologica2020/SajousEtAl_DomainesSpecialiteDictionnairesGeneraux_Neologica2020.pdf

Sajous, F., Hathout, N. & Josselin-Leray, A. (2019). Du vin et devin dans le Wiktionnaire: neutralité de point de vue ou neutralité et point de vue? Études de linguistique appliquée, 194(2), pp. 147-164. http://fsajous.free.fr/papers/Neologica2020/SajousEtAl_DomainesSpecialiteDictionnairesGeneraux_Neologica2020.pdf

Sajous, F., Josselin-Leray, A. & Hathout, N. (2018). The Complementarity of Crowdsourced Dictionaries and Professional Dictionaries viewed through the Filter of Neology. Lexis, 12.http://fsajous.free.fr/papers/Lexis2018/SajousEtAl2018_ComplementarityCrowdsourcedAndProfessionalDictionaries_Neology.pdf

Sajous, F. & Hathout, N. (2017). Informativité, neutralité et point de vue dans une offre dictionnairique hétérogène: vers une complémentarité ? Revue française de linguistique appliquée, 22(1), pp. 27-39. http://fsajous.free.fr/papers/RFLA2017/Sajous-Hathout2017_InformativiteNeutralitePointDeVue.pdf

Sajous, F., Hathout, N. & Calderone, B. (2014). Ne jetons pas le Wiktionnaire avec l’oripeau du Web! Études et réalisations fondées sur le dictionnaire collaboratif. In: 4e Congrès Mondial de Linguistique Française. Les Ulis: EDP Sciences, pp. 663-680. http://fsajous.free.fr/papers/CMLF2014/SajousEtAl_CMLF2014_NeJetonsPasWiktionnaireAvecOripeauDuWeb.pdf

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s