en fr Multilingual epidemic surveillance : a parsimonious caracter-based approach Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel Reportar como inadecuado




en fr Multilingual epidemic surveillance : a parsimonious caracter-based approach Veille épidémiologique multilingue : une approche parcimonieuse au grain caractère fondée sur le genre textuel - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 Equipe Hultech - Laboratoire GREYC - UMR6072 GREYC - Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen

Abstract : In this dissertation we tackle the problem of multilingual epidemic surveillance.The approach advocated here which is differential, endogenous and noncompositionnal.We maximise the factorization by using genre properties andcommunication principles. Our local analysis does not rely on classical linguisticanalyzers for morphology, syntax or semantics. The distribution of characterstrings at key positions is exploited, thus avoiding the problem of the definitionof a -word-. We implemented DAnIEL Data Analysis for Information Extractionin any Language, a system using this approach. DanIEL analyzes pressarticles in order to detect epidemic events. DAnIEL is fast in comparison tostate-of-the-art systems. It needs very few additional knowledge for processingnew languages. DAnIEL is also evaluated on the analysis of scientific articlesfor classification and keyword extraction. Finally, we propose to use DAnIELoutputs to perform a task-based evaluation of boilerplate removal systems.

Résumé : Cette thèse explore la problématique du multilinguisme en recherche d’information.Nous présentons une méthode de veille sur la presse adaptée autraitement du plus grand nombre de langues possible. Le domaine spécifiqued’étude est la veille épidémiologique, domaine pour lequel une couverture laplus large possible est nécessaire. La méthode employée est différentielle, noncompositionnelleet endogène. Notre but est de maximiser la factorisation pourtraiter de nouvelles langues avec un coût marginal minimal. Les propriétésdu genre journalistique sont exploitées, en particulier la répétition d’élémentsà des positions clés du texte. L’analyse au grain caractère permet d’être indépendantdes contraintes posées par le mot graphique dans de nombreuseslangues. Nous aboutissons à l’implantation du système DAnIEL Data Analysisfor Information Extraction in any Language. DAnIEL analyse les documentspour déterminer s’ils décrivent des faits épidémiologiques et les regrouper parpaires maladie-lieu. DAnIEL est rapide et efficace en comparaison des systèmesexistants et nécessite des ressources très légères. Nous montrons d’autres applicationsde DAnIEL pour des tâches de classification et d’extraction de mots-clésdans des articles scientifiques. Enfin, nous exploitons les résultats de DAnIELpour évaluer des systèmes de nettoyage de page web.

en fr

Keywords : Natural Language Processing Information Extraction Multilingualism Information Retrieval

Mots-clés : Traitement du langage naturel Multilinguisme Recherche d’information Recherche de l’information Extraction d’Information





Autor: Gaël Lejeune -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados