Historique et thématiques de GEOD
L’activité de GEOD a commencé en 1997, sur le domaine de recherche de la parole et du dialogue, pour concevoir des logiciels d’interaction et de communication parlée et doter les systèmes d’une composante langagière fiable et performante.
Depuis plus les années 1990, les moyens de communication (téléphone mobile, Internet) et les média de diffusion électronique de l’information (émissions de radio et de télévision numériques) ont connu un essor sans cesse croissant. Dans le même temps, le progrès des techniques de traitement numérique de l’information et de la technologie des calculateurs a été gigantesque. Cette évolution a ouvert des perspectives prometteuses à de nombreuses applications dans le domaine de la communication orale homme-machine ou homme-homme médiatisée, mais aussi à des applications spécifiques dans le domaine médical comme la télésurveillance des malades à domicile (habitat intelligent). En parallèle, grâce à la facilité de stockage due en partie à des algorithmes de compression très efficaces, les corpus de documents audio et vidéo ne cessent de croître. Pratiquement toute information multimédia se trouve aujourd’hui disponible sous format numérique et son exploitation ouvre le champ à de nouvelles applications d’indexation et de recherche de documents par le contenu.
Depuis 1997, les objectifs principaux de recherche que se fixe GEOD sont (a) la réalisation de systèmes de reconnaissance grand vocabulaire pour la parole continue, en intégrant la robustesse pour l’acquisition et la reconnaissance de la parole, (b) le développement de systèmes de dialogue homme-machine multimodaux, (c) l’interaction multimodale dans les environnements et espaces perceptifs. Pour atteindre ces objectifs, des recherches transversales (d) sur les corpus et les outils d’apprentissage demeurent toujours nécessaires.
Reconnaissance robuste multilingue de la parole continue
Le prétraitement acoustique, prenant en compte l’utilisabilité dans des conditions réelles et capable d’atteindre des systèmes robustes aux conditions acoustiques sévères, constitue le problème majeur de la reconnaissance de parole. GEOD a porté ses efforts sur la localisation du locuteur grâce à une antenne de microphones (technique d’acquisition multicapteur et d’inter-corrélation des signaux), méthode de séparation aveugle de sources, annulation des réverbérations acoustiques par estimation de la réponse fréquentielle de la salle.
Dans le domaine de la modélisation acoustique pour la reconnaissance de parole continue, GEOD a concentré ses activités de recherche sur les techniques à base de chaînes de Markov cachées (ou HMM), et plus spécialement sur l’optimisation statistique des modèles de phonèmes (dépendant et indépendant du contexte) par apprentissage sur de vastes corpus de parole multilocuteurs (BREF80, BREF120 : deux bases du LIMSI et BRAF100 : base enregistrée au CLIPS avec 10000 phrases et 100 locuteurs – voir action “Recherches transversales”).
L’équipe étudie également la modélisation acoustique pour les serveurs vocaux, avec l’objectif de minimiser la distorsion du signal consécutive à la compression du signal de parole, pour conséquence de dégrader les performances du système de reconnaissance.
GEOD développe également un système de reconnaissance pour le vietnamien, qui est une langue à 6 tons, dans le cadre de la coopération scientifique du CLIPS avec l’Institut Polytechnique de Hanoi (IPH).
Sur les modèles de langages et la détection de thèmes, l’approche choisie par GEOD a consisté à utiliser le WEB comme source d’informations pour constituer le corpus d’apprentissage à partir duquel est extrait le vocabulaire et élaboré le modèle de langage. Une technique de filtrage par blocs minimaux (fonctions du vocabulaire) a été développée (D. Vaufreydaz), impliquant le recours à des lexiques et dictionnaires linguistiques (BDLEX 50000 et ABU : Association des Bibliophiles Universels, ont été utilisés).
A partir de 2001, les recherches de GEOD ont évolué de la prise en charge de grand vocabulaire au multilinguisme.
Les activités de recherche de GEOD dans ce thème se sont concentrées sur le développement de modèles acoustiques multilocuteurs et de modèles de langage pour le système de reconnaissance automatique de parole continue en français du laboratoire. L’originalité réside dans l’approche qui consiste à “aspirer” un grand nombre de sites Web dans une langue donnée et à filtrer les données textuelles récupérées afin de les rendre exploitables pour calculer des modèles statistiques de langage. Une adaptation de cette méthodologie à des langues peu dotées marque une tendance vers le multilinguisme qui prend une importance de plus en plus grande dans ces recherches. Des applications à la langue vietnamienne, à la langue khmère et à l’espagnol-mexicain (castillan) ont été envisagées et ont permis d’obtenir des résultats très encourageants. Des extensions de ce thème de recherche, dans le sens d’une “transcription enrichie” (segmentation en locuteurs, détection de zones d’intérêt, détection de “jingles” audio,…) pour des applications de recherche d’information par le contenu dans les bases de données, ont aussi été menées dans le cadre de diverses participations à des campagnes d’évaluation internationales. Enfin, des travaux pour des applications en biométrie ont été conduits en tenant compte du caractère souvent multimodal du domaine.
Environnements perceptifs : la parole et les sons comme composante de l’interaction multimodale
GEOD développe en collaboration avec le laboratoire TIMC le concept général de “lieu de vie intelligent”. Il s’agit de concevoir des salles dotées de plusieurs types de capteurs et gérées par un système informatique qui analyse les signaux en temps réel de manière à intervenir automatiquement en fonction des besoins, demandes et attentes des acteurs humains. L’utilisation de capteurs sonores et de traitements spécifiques sur les signaux de parole ou sur les bruits de la vie courante, s’avère une approche innovante.
Dans ce thème sont décrits les travaux de recherche de GEOD sur la parole et sur les sons, dans le contexte applicatif des espaces perceptifs et plus particulièrement dans le cadre d’une coopération avec le laboratoire TIMC13 pour l’Habitat Intelligent pour la Santé (HIS). Dans les locaux de TIMC, un appartement (30m2) a été équipé pour devenir un HIS prototype. Divers algorithmes de détection et de classification des sons de la vie courante ont été développés et validés pour la détection de situations de détresse d’un patient sous télésurveillance médicale. De même, un modèle de langage pour le système de reconnaissance de parole de GEOD a été adapté pour la reconnaissance des appels de détresse dans cet environnement. Quelques développements pour des applications en “smart room” (salle de réunion) sont également présentés.
Développement de systèmes de dialogue H-M multimodaux
Le thème du dialogue homme-machine englobe l’interaction orale et l’interaction multimodale (parole et gestes). La modélisation du dialogue homme-machine pose des problèmes théoriques car le dialogue humain ne peut-être considéré comme une activité entièrement planifiée : à chaque instant, les interlocuteurs peuvent opérer des incidences ou des ruptures, ils utilisent des stratégies qu’ils adaptent au cours de l’interaction en fonction des buts à atteindre et des opportunités offertes par la situation.
Entre 1997 et 1999, GEOD s’est principalement intéressé à 4 des modules de la représentation schématique d’un système de dialogue, à savoir les 4 premiers de : la gestion des buts liés à la tâche, la compréhension des énoncés du locuteur, leur interprétation en situation de dialogue et relativement aux buts à atteindre, le contrôle et la gestion du dialogue et enfin la génération des sorties : texte, parole ou graphique.
Dans ce thème sont décrits les travaux de recherche de GEOD sur le dialogue homme-machine. Les principales avancées se sont concrétisées autour de la théorie des jeux et de la théorie de la représentation du dialogue (SDRT = Segmented Discourse Representation Theory). L’analyse et l’exploitation de corpus se sont poursuivies pour étudier les attentes des locuteurs, leurs modes de compréhension, leurs comportements face à des agents conversationnels expressifs. Pour cela diverses situations de dialogue ont été simulées notamment dans le cadre du projet ACE (Agent Conversationnel Expressif). Enfin la méthode DCR16 a été approfondie pour obtenir une procédure validée en évaluation automatique de systèmes de dialogue. Toutes ces recherches ont été centrées sur des domaines applicatifs apportés par le projet PVE (Portal Vocal d’Entreprise) dont le but est de développer des services de dialogue en parole naturelle pour la vie sociale de l’entreprise (par exemple organisation de réunions, d’agendas personnels, etc.). Une ouverture vers le dialogue à plusieurs locuteurs a été amorcée, ce qui place l’équipe sur un terrain original.
Recherches transversales
Les recherches transversales liées aux axes précédemment exposés concernent les ressources linguistiques (corpus écrits et oraux) et plus généralement les outils et les méthodologies nécessaires à l’acquisition, la production ou la gestion de ces ressources linguistiques, mais aussi des méthodes très sophistiquées d’alignement phonétique ou d’apprentissage automatique.