Kommunikationswissenschaft

Analyse, Modellierung und Synthese sichtbarer Sprechbewegungen bei unterschiedlichen Sprechgeschwindigkeiten

(abgeschlossen)

DFG-Projekt (FA 795/4-1)
Leitung: Dr. Sascha Fagel
 

Im Rahmen des Vorhabens werden unterschiedlich schnell gesprochene Äußerungen optisch aufgezeichnet und mithilfe eines aktuellen gestischen Modellansatzes für gesprochene Sprache analysiert. Das resultierende Modell beschreibt die sichtbaren Bewegungen hinsichtlich des Sprechtempos und eignet sich für die realistische Animation eines sprechenden Gesichts bei unterschiedlichen Sprechgeschwindigkeiten. Für die Erstellung des Modells wird ein kompaktes Korpus verwendet, das die deutsche Sprache adäquat abbildet. Ob der Sprecher die Sprechgeschwindigkeiten in geeigneter Weise produzieren konnte, wird in einem Perzeptionstest überprüft. Das erhobene Datenmaterial wird mittels der am ICP Grenoble entwickelten Methode der "geführten" Hauptkomponentenanalyse parametrisiert. Die parametrisierten Daten werden mit einem Verfahren modelliert, das sowohl  koartikulatorische Effekte (Einflüsse eines Lautes auf seine lautliche Umgebung und umgekehrt) abbildet als auch die Sprechgeschwindigkeit variabel beschreiben kann. Anschließend wird das entwickelte Modell in aktuelle Systeme zur Sprachvisualisierung (zur Reproduktion aufgenommener Daten) und visuellen Sprachsynthese (zur Erzeugung beliebiger Sprachäußerungen) implementiert. Die Qualität der resultierenden synthetischen visuellen Sprache bezüglich der Sprechgeschwindigkeit wird mittels Wahrnehmungsexperimenten evaluiert.