{ LAURENT KEVERS,.N+PERS }

English version [ Expérience | Etudes | Publications et communications | Activités scientifiques | Intérêts personnels | Contact ]

Je suis linguiste informaticien et chercheur en traitement automatique du langage (TAL).

Mes diverses expériences professionnelles m'ont amené à m'intéresser plus particulièrement à l'extraction et à la recherche d'information. J'ai eu l'occasion de travailler sur divers problèmes de TAL tels que :

  • la constitution de corpus (bruts ou annotés), et d'outils de base pour le TAL;
  • l'identification de langue;
  • la reconnaissance et l'extraction d'entités nommées;
  • l'extraction d'informations spécifiques (temporelles, juridiques);
  • la classification automatique de textes;
  • la recherche de documents similaires;
  • l'accès sémantique aux documents dans le cadre des moteurs de recherche.

Je m'occupe actuellement du développement de ressources et d'outils de TAL pour une langue peu dotée : la langue corse (au sein du Projet BDLC, Univestité de Corse).

Je suis actuellement disponible pour des missions ponctuelles et/ou à temps partiel!

Je vous invite à consulter cette page, ainsi que mes profils Linked in, HAL, Google Scholar ou Academia ou pour en savoir plus.

CV (français)   Résumé (english)

Chercheur en TAL et IA appliqué à la langue corse
Quand: 2019-...
Quoi: Création de ressources et outils de base pour le traitement automatique du langage appliqué au corse.
Ingénieur R&D en TAL et IA (team leader : 2016-2018)
Quand: 2013-2018
Quoi: Traitement automatique du langage et intelligence artificielle dans le contexte d'un moteur de recherche spécialisé dans le domaine juridique :
  • Classification automatique de documents textuels (apprentissage artificiel supervisé)
  • Détection de documents sémantiquement similaires (apprentissage artificiel non-supervisé)
  • Mise au point de ressources linguistiques (français, anglais, néerlandais)
  • Extraction de métadonnées (dans la jurisprudence)
  • Structuration de documents non-structurés (pour la jurisprudence)
  • Linked Data appliqué aux données juridiques (utilisation des technologies du web sémantique pour lier et organiser les documents)
Conseiller en transfert de connaissances et de technologies
Quand: 2012-2013
: ADRE / Technology Transfer Office - Université de Namur
Quoi: Spécialisé dans les technologies de l'information et de la communication (TIC), ainsi que dans le secteur des sciences humaines (SHS).
Chercheur (2003-2011)) - Université catholique de Louvain-la-Neuve (UCLouvain) - Différents projets :
Stratego
Quand: 2007-2010
Quoi: L'objectif principal du projet Stratego est de développer des outils visant à faciliter l'accès à de larges bases documentaires électroniques. Plus précisément, le projet se concentre sur (i) la structuration automatique de documents « bruts » (par exemple des documents numérisés) en documents XML satisfaisant un DTD ou un schéma XML, (ii) le classement automatique de documents dans des catégories prédéfinies et (iii) sur la constitution semi-automatique de thésaurus à partir de corpus de textes ciblés (ex: des texte de lois).
Activité: Etude et extraction de caractéristiques linguistiques pour la classification: unités polylexicales (Multi Words Expressions - MWE, Multi Words Units - MWU), entités nommées, etc. Création d'un système de catégorisation automatique de documents textuels dans un ensemble de catégories définies a priori (ici, un thésaurus) à l'aide d'une méthode linguistique basée sur une ressource automatiquement générée à partir de la nomenclature de catégories elle-même (le thésaurus).
Qui: IRIS (partenaire industriel), Cental (Centre de Traitement Automatique du Langage), IRIDIA (ULB) (Institut de Recherches Interdisciplinaires et de Développements en Intelligence Artificielle) , ISYS (UCL) (Information Systems Unit) et SIC (ULB) (Département des Sciences de l'Information et de la Communication)
B-Ontology
Quand: 2005-2007
Quoi: B-Ontology est un projet de recherche appliquée dont l'objectif est de construire le prototype d'une application capable d'extraire et d'organiser de l'information biographique. Cette information doit ensuite être utilisable dans le cadre du processus de rédaction d'une agence de presse. L'agence belge Belga diffuse quotidiennement plus de 250 dépêches en deux langues (français et néerlandais). Cette masse textuelle représente environ 70.000 mots par jour (25 millions de mots en un an) par langue. Pour Belga, qui se positionne comme information broker, il est indispensable que ce flux d'informations puisse être exploité. La valorisation envisagée dans ce projet concerne les informations relatives aux personnes, mais aussi aux organisations et aux événements dans lesquels elles interviennent. Le résultat est structuré selon une ontologie et stocké dans une base de connaissances.
Activité: Extraction d'information, repérage d'entités nommées, base de connaissances et ontologies.
Qui: Belga (partenaire industriel) et Cental (Centre de Traitement Automatique du Langage)
[moca], multimodal oral corpora administration
Quand: 2004-2006
Quoi: Gestion informatisée et exploitation de grands corpus oraux.
Activité: Conception générale du système, conception et réalisation de la base de données et de l'interface web.
Qui: Valibel (contenu et conception) et Cental (conception et expertise technique)
Julibel
Quand: 2004
Quoi: Cette base de données contient des échantillons textuels d'origines diverses (écrits littéraires, publicités, corpus oraux, etc.), susceptibles d'être exploités dans les classes de français pour illustrer des phénomènes variés, tels que l'ironie, les connecteurs, les figures de style, etc.
Activité: Reconception de la base de données et de l'interface web d'interrogation.
Qui: Valibel (contenu) et Cental (expertise technique)
Projet de Recherche en Lexicologie Grecque (PRLG)
Quand: 2003-2005
Quoi: Réalisation de concordances lemmatisées des auteurs grecs patristiques et byzantins. L'objectif du projet est d'offrir une image exhaustive et cohérente du lexique grec par le biais de la lemmatisation des sources patristiques et byzantines.
Activité: Développements informatiques (désambiguisation, concordances en ligne, module de lemmatisation intégré à Unitex)
Qui: Institut Orientaliste (contenu) et Cental (expertise technique)
2007 - 2011
Thèse de doctorat en Langues et lettres, au sein du Centre de traitement automatique du langage (Cental), UCL.
Titre : ”Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles”.
Directeur : Cédrick Fairon.
1999 - 2002
Maîtrise en informatique (obtenue avec grande distinction) des Université de Namur (anciennement Facultés Universitaires Notre-Dame de la Paix, FUNDP) - Namur.
Mémoire de fin d'études : L. Kevers et J.-B. Van Zuylen, Création et exploitation d'archives audiovisuelles numériques.
Promoteur: Jean-Marie Jacquet.
1996 - 1999
Candidature en sciences économiques, sociales et de gestion, orientation informatique des Université de Namur (anciennement Facultés Universitaires Notre-Dame de la Paix, FUNDP) - Namur.
Kevers L. (2011), Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles, thèse de doctorat en Langues et lettres, Université catholique de Louvain, 31-01-2011.
Texte   Présentation

(FR) ”Accès sémantique aux bases de données documentaires. Techniques symboliques de traitement automatique du langage pour l'indexation thématique et l'extraction d'informations temporelles”.

Dans le contexte actuel d'une société et d'une économie centrées sur l'information, l'accès à la masse grandissante de documents électroniques est devenu un enjeu capital. De nombreux outils de recherche d'informations se contentent cependant d'un scénario de recherche classique, basé sur les mots. Pourtant, la relation entre un concept et son expression ne se limite pas toujours à un lien unique. Ainsi, un concept peut souvent être désigné par plusieurs expressions (« chômeur » et « demandeur d'emploi »), et inversement, un mot peut aussi parfois désigner plusieurs concepts différents (« carotte » en tant que légume ou en géologie). Afin de gérer cette difficulté, il peut être intéressant de représenter les documents non plus dans un espace de mots, mais dans un espace de concepts.

Dans cette thèse, nous proposons trois façons d'apporter des éléments de sens à la représentation des documents : une méthode de classification supervisée (semi-)automatique de documents, la prise en compte de manière particulière de certains éléments d'informations, comme le temps, et finalement un système d'indexation thématico-temporel qui montre l'intérêt, et les perspectives en termes applicatifs, de cette approche multidimensionnelle et sémantique de l'accès à l'information.

(EN) ”Semantic access to databases of documents. Natural language processing with symbolic techniques for thematic indexation and temporal information extraction”.

Within our information society and economy, access to the growing bulk of electronic documents is a major concern. Surprisingly, information retrieval tools often only work on a classical search scheme, based on words. But, as a matter of fact, the relation between words and concepts can not always be reduced to a single link. A concept can be named by several expressions (« unemployed person » and « job-seeker »), and conversely one word can sometimes depict more than one concept (« carrot » as a vegetable or in geology). To cope with this difficulty, it might be interesting to represent documents in a concepts space in place of a words space.

In this thesis we are proposing 3 methods designed to complete the documents representation with semantic data : a (semi) automatic supervised classification method was set up to index documents, the specific processing of some information items, such as time, and finally a thematic and temporal indexing system that outlines interest and perspectives for applications within this multidimensional and semantic approach.

L. Kevers et B. Kindt (2005), Traitement automatisé de l'ambiguïté lexicale en grec ancien. Première approche par application de grammaires locales. In: Lingvisticae Investigationes, 28:2, p.235-254.
L. Kevers et B. Kindt (2004). Vers un concordanceur-lemmatiseur en ligne du grec ancien. In: L'Antiquité Classique, 73, p. 203-213.
L. Kevers, S. et Retali-Medori (à venir). Copyright in the context of tooling up Corsican and other less-resourced languages. In : International Conference on Language Technologies for All (LT4All), Enabling Linguistic Diversity and Multilingualism Worldwide, International Year of Indigenous Languages – IYIL 2019.
L. Kevers , S. Retali-Medori, F. Guéniot et A.G. Tognotti (à venir). Tooling up a less-resourced language with NLP : the example of Corsican and the BDLC. In : International Conference on Language Technologies for All (LT4All), Enabling Linguistic Diversity and Multilingualism Worldwide, International Year of Indigenous Languages – IYIL 2019.
L. Kevers, F. Guéniot, A.G. Tognotti et S. Retali-Medori (2019). Outiller une langue peu dotée grâce au TALN : l’exemple du corse et de la BDLC. In : Actes de la 26e conférence sur le Traitement automatique des langues naturelles (TALN). Toulouse, juillet 2019.
L. Kevers et J. Medori (2010). Symbolic classification methods for patient discharge summaries encoding into ICD. In: Advances in Natural Language Processing, 7th International Conference on NLP, IceTAL 2010, Reykjavik, August 16-18, 2010, Lecture Notes in Artificial Intelligence, 2010, p. 197-208.
L. Kevers, A. Mantrach, C. Fairon, H. Bersini, M. Saerens (2010). Classification supervisée hybride par motifs lexicaux étendus et classificateurs SVM. In: S. Bolasco, I. Chiari, L. Giuliano ed(s). 10th International Conference on statistical analysis of textual data (JADT 2010), Rome, 9-11/06/2010, Ed. Univ. di Lettere Economia Diritto, 2010, p. 105-117.
L. Kevers (2009). Indexation semi-automatique de textes : thésaurus et transducteurs. In: Actes de la Sixième Conférence Francophone en Recherche d'Information et Applications (CORIA), Presqu'Île de Giens, p. 151-167.
L. Kevers et C. Fairon (2007). Vers une base de connaissances biographiques : extraction d'information et ontologies. In: Revue des Nouvelles Technologies de l'Information - Série Extraction et gestion des connaissances. RNTI-E-9. Actes des 7èmes Journées Francophones Extraction et Gestion des Connaissances (EGC'2007, Namur). Cépaduès éditions. Vol. 1, p. 373-378.
L. Kevers (2006). L'information biographique : modélisation, extraction et organisation en base de connaissances. In: P. Mertens, C. Fairon, A. Dister, P. Watrin (éds). Verbum ex machina. Actes de la 13e conférence sur le Traitement automatique des langues naturelles (TALN06). Presses universitaires de Louvain, Louvain-la-Neuve (Cahiers du Cental 2), p. 680-689.
Y. Bestgen, C. Fairon et L. Kevers (2004). Un baromètre affectif effectif. Corpus de référence et méthode pour déterminer la valence affective de phrases. In: G. Purnelle, C. Fairon et A. Dister (eds). Le poids des mots. Actes des 7es Journées internationales d'Analyse statistique des Données Textuelles (JADT04). Presses universitaires de Louvain.
C. Fairon, L. Kevers, P. Mertens, H. Naets, J. Perrez (2007). Het B-Ontology-project: naar het automatisch verwerken van biografische informatie. Journée d'Etudes de l'Association des néerlandistes de la Belgique francophone et de la France (ANBF Onderzoeksmarkt 2007). Université de Lille, 07/12/2007.
P. Gilles, L. Kevers et A.-C. Simon (2006). MOCA: un système de gestion et d'annotation de données orales. 3ème Rencontre Fribourgeoise de la Linguistique sur Corpus.
L. Kevers et B. Kindt (2005). Adaptation des ressources d'Unitex au traitement du grec ancien. 24ème conférence internationale grammaires et lexiques comparés. Liverpool.
L. Kevers et B. Kindt (2004). Traitement automatisé de l'ambiguïté lexicale en grec ancien. Première approche par application de grammaires locales. 23ème conférence internationale grammaires et lexiques comparés. Deauville.
Présentation de séminaires

2015 – Séminaire du Cental : "Étude de cas d'un projet de catégorisation automatique".

2007 – Séminaire du Cental : "Traitement des expressions temporelles dans les dépêches de presse".

2005 – Journées de l'ATALA : "Traitement automatisé du grec ancien et de l’arabe non classique" (avec B. Kindt et L. Tuerlinckx).

2003 – Séminaire du LADL : "La lemmatisation des sources grecques patristiques et byzantines au service d'une description lexicale du grec ancien" (avec B. Kindt).

Autres activités scientifiques

Membre du comité scientifique pour le volume « SMS Communication : A Linguistic Approach », édition spéciale de Lingvisticæ Investigationes (2012).

Membre du comité d'organisation pour FIL 2010 (Forum des industries de la langue), WAC3 (2007), TALN 2006 et JADT 2004

Relecteur pour AIST 2015, LTC'09 et LTC'07

Les voyages constituent pour moi une occasion unique de combiner plusieurs passions. Randonner au travers d'inoubliables paysages, découvrir des gens et des cultures surprenantes, et tenter de retranscrire toutes ces émotions au moyen de la sérigraphie ou de la photographie. J'ai eu la chance de donner libre cours à ces passions lors d'une année sabbatique (2011-2012) qui m'a permis de visiter plus de 15 pays.

En outre, j'ai également pu randonner et découvrir:
- les Alpes (Massif des Ecrins)
- les Cévennes (chemin de Stevenson)
- les Pyrénées (tour du Mont Perdu)
- la Corse (GR20)
- l'Australie (l'Overland Track, en Tasmanie)
- l'Islande (le Laugavegur, de Landmanalaugar à Þórsmörk)

Mes coordonnée se trouvent dans mon CV.