RESSOURCES et OUTILS

Corpus

  1. Corpus français étiqueté et lemmatisé, corrigé manuellement (environ 500 000 tokens) pour l’entraînement de l’étiqueteur morphosyntaxique TTL (Ion, 2007).
  1. Corpus de genres textuels variés (littéraire, juridiques, journalistiques, rapport publics) annoté en relations de coréférence (environ 50 000 tokens) en XML.

Outils

RefGen : module de détection automatique de chaînes de référence pour le français

  • Création d’une base de patrons d’extraction des entités nommées (noms de personnes, de lieux, d’organisations et de fonctions), de groupes nominaux complexes et des emplois impersonnels du pronom il.
  • Création d’une base de patrons de correction des erreurs récurrentes de TTL (Ion, 2007) en XML.
  • Création de contraintes lexicales et sémantiques pour le calcul de la référence, en Java.
  • Création de l’interface de RefGen, en C#.