en fr Indexing emotions in audiovisual documents using the auditory modality Indexation des émotions dans les documents audiovisuels à partir de la modalité auditive Reportar como inadecuado




en fr Indexing emotions in audiovisual documents using the auditory modality Indexation des émotions dans les documents audiovisuels à partir de la modalité auditive - Descarga este documento en PDF. Documentación en PDF para descargar gratis. Disponible también para leer online.

1 MRIM - Modélisation et Recherche d’Information Multimédia Grenoble LIG - Laboratoire d-Informatique de Grenoble, Inria - Institut National de Recherche en Informatique et en Automatique

Abstract : This thesis concerns the detection of emotions in multi-lingual audio utterances. One application being considered is the indexing of emotional states in audio-visual documents for their search by contents. Our work begins with the study of emotion and of its model representations: discrete, continuous and hybrid models. In the following of the work, only the discrete model will be used for practical reasons linked to evaluation but also because it is easier to use in the targeted applications. A state of the art on the different approaches used for emotion recognition is then presented. The problem of the production of annotated corpus for training and evaluation of emotional state recognition systems is also considered and an overview of the available corpus is given. One of the difficulties on this point is to obtain realistic corpus for the target applications. To obtain data more spontaneous and more diverse in languages, two corpora were created from motion pictures, one in English and one in Vietnamese. The following work is divided into four parts: study and search for the best parameters to represent the acoustic signal for the emotion recognition, study and search for the best models and classification systems for the same problem, experiments on the recognition emotions across languages and, finally, production of an annotated Vietnamese corpus and assessment of emotion recognition in this language which has the specificity of being tonal. In the first two studies, mono-speaker, multi-speaker and speaker-independent cases were considered. The search for the best parameters was performed on a broad set of global and local parameters traditionally used in automatic speech processing as well as derivations them. An approach based on the forward forced sequential selection was used for selecting optimal combinations of acoustic parameters. The same approach can be used on different data types, although the final result depends upon the type. Among the MFCC, LFCC, LPC, fundamental frequency, intensity, phonetic rate and other parameters from the time-domain, MFCC gave the best results in the considered cases. A symbolic normalization approach has helped to improve the performance in the speaker independent case. For the search for the best models and associated classification systems, an approach by successive elimination within cases of increasing complexity single-speaker, multi-speaker and speaker-independent was used. The GMM, HMM, SVM and VQ vector quantization models have been studied. The GMM model is the one which led to the best results on the considered data. Cross-language experiments German and Danish have shown that the developed methods work well from one language to another, but that a specific optimization of the parameters for each language and for each type of data is necessary for obtaining the best results. These languages are not tonal languages, however. Tests with the created Vietnamese corpus have shown a much less good generalization in this case. This may be due to the fact that the Vietnamese language is tonal but it may also be due to the difference between the conditions of creation of the corpora: action in the first case and more spontaneous for the Vietnamese.

Résumé : Cette thèse concerne la détection des émotions dans les énoncés audio multi-lingues. Une des applications envisagées est l-indexation des états émotionnels dans les documents audio-visuels en vue de leur recherche par le contenu. Notre travail commence par l-étude de l-émotion et des modèles de représentation de celle-ci : modèles discrets, continus et hybride. Dans la suite des travaux, seul le modèle discret sera utilisé pour des raisons pratiques d-évaluation mais aussi parce qu-il est plus facilement utilisable dans les applications visées. Un état de l-art sur les différentes approches utilisées pour la reconnaissance des émotions est ensuite présenté. Le problème de la production de corpus annoté pour l-entraînement et l-évaluation des systèmes de reconnaissance de l-état émotionnel est également abordé et un panorama des corpus disponibles est effectué. Une des difficultés sur ce point est d-obtenir des corpus réalistes pour les applications envisagées. Afin d-obtenir des données plus spontanées et dans des langues plus variées, deux corpus ont été créés à partir de films cinématographiques, l-un en Anglais, l-autre en Vietnamien. La suite des travaux se décompose en quatre parties : études et recherche des meilleurs paramètres pour représenter le signal acoustique pour la reconnaissance des émotions dans celui-ci, étude et recherche des meilleurs modèles et systèmes de classification pour ce même problème, expérimentation sur la reconnaissance des émotions inter-langues, et enfin production d-un corpus annoté en vietnamien et évaluation de la reconnaissance des émotions dans cette langue qui a la particularité d-être tonale. Dans les deux premières études, les cas mono-locuteur, multi-locuteur et indépendant du locuteur ont été considérés. La recherche des meilleurs paramètres a été effectuée sur un ensemble large de paramètres locaux et globaux classiquement utilisés en traitement automatique de la parole ainsi que sur des dérivations de ceux-ci. Une approche basée sur la sélection séquentielle forcée avant a été utilisée pour le choix optimal des combinaisons de paramètres acoustiques. La même approche peut être utilisée sur des types de données différents bien que le résultat final dépende du type considéré. Parmi, les MFCC, LFCC, LPC, la fréquence fondamentale, l-intensité, le débit phonétique et d-autres coefficients extraits du domaine temporel, les paramètres de type MFCC ont donné les meilleurs résultats dans les cas considérés. Une approche de normalisation symbolique a permis d-améliorer les performances dans le cas indépendant du locuteur. Pour la recherche du meilleur modèle et système de classification associé, une approche d-élimination successive selon des cas de complexité croissante mono-locuteur, multi-locuteur et indépendant du locuteur a été utilisée. Les modèle GMM, HMM, SVM et VQ quantification vectorielle on été étudiés. Le modèle GMM est celui qui donne les meilleurs résultats sur les données considérées. Les expérimentations inter-langue Allemand et Danois ont montré que les méthodes développées fonctionnent bien d-une langue à une autre mais qu-une optimisation des paramètres spécifique pour chaque langue ou chaque type de données est nécessaire pour obtenir les meilleurs résultats. Ces langues sont toutefois des langues non tonales. Des essais avec le corpus créé en Vietnamien ont montré une beaucoup moins bonne généralisation dans ce cas. Cela peut être du au fait que le Vietnamien est une langue tonale mais cela peut aussi être dû à la différence entre les conditions de création des corpus : acté dans les premiers cas et plus spontané pour le Vietnamien.

en fr

Keywords : emotion recognition indexation multimedia information retrieval

Mots-clés : émotion reconnaissance de l-émotion indexation de l-émotion recherche d-informations multimédia





Autor: Xuân Hùng Lê -

Fuente: https://hal.archives-ouvertes.fr/



DESCARGAR PDF




Documentos relacionados