Eine Übersicht über Datenbanken gesprochener Sprache
Name | Institution | knappe Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal? | Transkription verfügbar? |
ABC (Airplane Behaviour Corpus) | Technische Universität München, Institute for Human-Machine Communication & Department of Informatics (Björn Schuller, Dejan Arsic, Gerhard Rigoll, Matthias Wimmer, Bernd Radig) | Der ABC umfasst ca. 11,5h augezeichnetes und annotiertes Videomaterial gedacht für die Beobachtung von Verhalten im öffentlichen Verkehr (Flugzeug). Nähere Beschreibung in: B. Schuller, M. Wimmer, D. Arsic, G. Rigoll, and B. Radig, “Audiovisualbehaviour modeling by combined feature spaces,” in Proc. ICASSP,2007, pp. 733–736. abrufbar unter: https://mediatum.ub.tum.de/doc/1138565/1138565.pdf | 8 (m:4 / f: 4) | 25 bis 48 Jahre (∅ 32 Jahre) | vorgegeben | 431 Aufnahmen | aggressiv, heiter, berauscht, nervös, neutral, müde | induziert | audiovisuell | (ja?) |
emoDB (Berlin emotional Speech Database) | TU Berlin, Kommunikationswissenschaft (Felix Burkhardt, Astrid Paeschke, Miriam Rolfes, Walter Sendlmeier, Benjamin Weiss) | A Database of German Emotional Speech Proceedings Interspeech 2005, Lissabon, Portugal abrufbar unter: http://database.syntheticspeech.de/databaseOfGermanEmotionalSpeech.pdf | m:5 / f:5 | 21 bis 35 Jahre (∅ 30 Jahre) | vorgegeben | 494 Aufnahmen | Wut, Langeweile, Ekel, Freude, Angst, Trauer, neutral | gespielt | audio | |
SmartKom (SmartKom Multimodal Corpus) | Universität München (Bayerisches Archiv für Sprachsignale) | Multimodale dialogische Mensch-Technik-Interaktion (in Form eines Wizard-of-Oz-Experiments) zur Entwicklung von Kommuni- kationsassistenten, die Sprache, Gestik und Mimik analysieren Nähere Beschreibung in: Reithinger, N. & Blocher, A., (2003). SmartKom - Multimodale Mensch-Technik-Interaktion (SmartKom – Multimodal Human Computer Interaction). In: Ziegler, J. (Hrsg.), i-com: Vol. 2, No. 1. München: Oldenbourg Wissenschaftsverlag GmbH. (S. 4-10) abrufbar unter: https://doi.org/10.1524/icom.2.1.4.19034 | 224 | n/a | spontan | 448 Aufnahmen, ca. 4-5 min Länge | Wut, Dankbarkeit, Hilflosigkeit, Gereiztheit, Freude, Nachdenklichkeit, Überraschung, Reflektiertheit, neutral, unidentifizierbare Episoden | audiovisuell | ||
VAM (Vera-Am-Mittag) | Universität Karlsruhe, Institut für Nachrichtentechnik und University of SOuthern California, Speech Analysis and Interpretation Lab | Mitschnitte aus deutscher Talkshow Nähere Beschreibung in: M. Grimm, K. Kroschel and S. Narayanan, "The Vera am Mittag German audio-visual emotional speech database," 2008 IEEE International Conference on Multimedia and Expo, 2008, pp. 865-868, doi: 10.1109/ICME.2008.4607572. abrufbar unter: https://sail.usc.edu/publications/files/grimmicme2008.pdf | m:15/ f:32 | 16 bis 69 Jahre (davon 70% unter 35 Jahre) | spontan | 946 Aufnahmen | valence (negative – positive), activation (calm – excited) and dominance (weak – strong) | natürlich | audiovisuell | ja |
AD (Anger Detection) | Universität Ulm, Institut für Informationstechnologie | Telefonanrufe | 9 | n/a | spontan | 660 Aufnahmen | neutral und wütend | natürlich | audio | |
EA-ACT | Björn Schuller,Lehrstuhl für Mensch-Maschine-Kommunikation Technische Universität München im Rahmen seiner Dissertation | Nähere Beschreibung in: Schuller, B. (2005). Automatische Emotionserkennung aus sprachlicher und manueller Interaktion. abrufbar unter: https://d-nb.info/980554381/34 | m:34 / f:5 (Muttersprachen: 28x Deutsch, 1xEnglisch, 1xFranzösisch, 1xMandarin, 3xSerbisch, 5x Türkisch) | spontan | 2280 Aufnahmen | Ärger, Freude, Trauer, Überraschung, Neutralität | gespielt | |||
FAU Aibo (Aibo Emtion Corpus (AEC) | Universität Erlangen-Nürnberg | Sprachaufzeichnungen von insgesamt 51 Kindern zweier deutscher Schulen bei Interaktion mit Sony Roboter Aibo Nähere Beschreibung in: Steidl, S.. “Automatic classification of emotion related user states in spontaneous children's speech.” (2009). abrufbar unter: http://www5.informatik.uni-erlangen.de/Forschung/Publikationen/2009/Steidl09-ACO.pdf | 51 (m:21 /f: 30) | 10 bis 13 Jahre | spontan | 17074 Aufnahmen | neutral, Ärger, Gereiztheit, Freude, Überraschung, Langweile, Hilflosigkeit, Baby Talk, ermahnend, emphatisch, andere | natürlich | audiovisuell | ja |
PPMMK-EMO | Universität Passau | PPMMK-EMO is a database of German emotional speech recorded at the University of Passau covering the four basic classes angry, happy, neutral, and sad. It has a total of 3 154 samples averaging 2.5 seconds in length recorded from 36 speakers. | 36 | n/a | 3154 Aufnahmen | Ärger, Freude, Trauer, Neutralität | ||||
SIMIS (Speech in Minimal Invasive Surgery) | Technische Universität München, Institut für Mensch-Maschine-Kommunikation | Aufzeichung von Chirurgen im Operationssaal Nähere Beschreibung u.a. in: Schuller, B., Eyben, F., Can, S., & Feußner, H. (2010). Speech in Minimal Invasive Surgery - Towards an Affective Language Resource of Real-life Medical Operations. abrufbar unter: https://mediatum.ub.tum.de/doc/1287421/1287421.pdf | 10 | 24 bis 54 Jahre | spontan | 9299 Aufnahmen | Ärger, Verwirrung, Freude, Ungeduld, Neutralität | natürlich | audio |
Name | Institution | kurze Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal? | Transkription verfügbar? |
eNTERFACE (eNTERFACE'05 Audio-Visual Emotion Database) | Université catholique de Louvain, Laboratoire de Télécommunications et de Télédétection und Aristotle University of Thessaloniki, Department of Informatics | database for testing and evaluating video, audio or joint audio-visual emotion recognition algorithms. Nähere Beschreibung in: O. Martin, I. Kotsia, B. Macq and I. Pitas, "The eNTERFACE' 05 Audio-Visual Emotion Database," 22nd International Conference on Data Engineering Workshops (ICDEW'06), 2006, pp. 8-8, doi: 10.1109/ICDEW.2006.145. abrufbar unter: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.220.2113&rep=rep1&type=pdf | m: 34 / f: 8 | n/a | vorgegeben | 1277 Aufnahmen | Ärger, Ekel, Angst, Freude, Trauer, Überraschung | induziert | audiovisuell | |
SUSAS (Speech Under Simulated and Actual Stress) | University of Colorado-Boulder, Robust Speech Processing Laboratory | Nähere Beschreibung in: Hansen, J., & Bou-Ghazale, S.E. (1997). Getting started with SUSAS: a speech under simulated and actual stress database. EUROSPEECH. abrufbar unter: https://www.isca-speech.org/archive/archive_papers/eurospeech_1997/e97_1743.pdf | m: 19 / f: 13 | 22 bis 76 Jahre | spontan und vorgegeben | 3593 Aufnahmen | high stress, medium stress, screaming, fear, neutral | natürlich | audio | |
SAL (Sensitive Artificial Listener) | Queen’s University Belfast, Tel Aviv University , University of Twente | Nähere Beschreibung in: Douglas-Cowie, Ellen & Cowie, Roddy & Cox, Cate & Amir, Noam & Heylen, Dirk. (2008). The Sensitive Artificial Listener: an induction technique for generating emotionally coloured conversation. Mathematics of Computation - Math. Comput.. abrufbar unter: http://www.lrec-conf.org/proceedings/lrec2008/workshops/W2_Proceedings.pdf | m: 2/ f: 2 | n/a | spontan | n/a | natürlich | |||
AVIC (Audiovisual Interest Corpus) | Technische Universität München und Toyota Motor Corporation | Nähere Beschreibung in: Schuller, Björn & Müller, Ronald & Hörnler, Benedikt & Höthker, Anja & Konosu, Hitoshi & Rigoll, Gerhard. (2007). Audiovisual recognition of spontaneous interest within conversations. Proceedings of the 9th International Conference on Multimodal Interfaces, ICMI'07. 30-37. 10.1145/1322192.1322201. abrufbar unter: https://www.researchgate.net/publication/221052336_ Audiovisual_recognition_of_spontaneous_interest_within_conversations | m:11 / f: 10 | 30 bis >40 Jahre (∅ 29 Jahre) | spontan | 3 901 Aufnahmen | natürlich | audiovisuell | ||
EU-EV (EU-Emotion Voice Database) | University of Amsterdam u.a. | The EU-Emotion voice stimuli consist of 2159 audio-recordings of 54 actors, each uttering sentences with the intention of conveying 20 different emotional states (plus neutral). The database is organized in three separate emotional voice stimulus sets in three different languages (British English, Swedish, and Hebrew) Nähere Beschreibung in: abrufbar unter: Lassalle, Amandine & Pigat, Delia & O'Reilly, Helen & Berggren, Steve & Fridenson-Hayo, Shimrit & Tal, Shahar & Elfström, Sigrid & Råde, Anna & Golan, Ofer & Bölte, Sven & Baron-Cohen, Simon & Lundqvist, Daniel. (2018). The EU-Emotion Voice Database. Behavior Research Methods. 51. 10.3758/s13428-018-1048-1. https://link.springer.com/content/pdf/10.3758/s13428-018-1048-1.pdf | 54 (davon 18 Hebräisch und 18 Schwedisch) | 10 bis 72 Jahre | vorgegeben | 2,159 Aufnahmen (695 in British English, 1,011 in Swedish, and 453 in Hebrew) | 20 different emotional states (plus neutral) afraid, angry, ashamed, bored, disappointed, disgusted, excited, frustrated, happy, hurt, interested, jealous, joking, kind, proud, sad, sneaky, surprised, unfriendly, worried) | gespielt | ||
EmoFilm | Universität Augsburg, Universität Rom, Imperial College London | emotional speech from films multilingual database suitable for study of culture and measurement strategies when evaluating the perception of emotion in speech Nähere Beschreibung in: Parada-Cabaleiro, E., Costantini, G., Batliner, A., Baird, A., & Schuller, B. (2018). Categorical vs Dimensional Perception of Italian Emotional Speech. INTERSPEECH. abrufbar unter: https://opus.bibliothek.uni-augsburg.de/opus4/frontdoor/deliver/index/docId/44177/file/0047.pdf | 207 (auch Italienisch und Spanisch) | n/a | vorgegeben | 1115 Aufnahmen | anger, sadness, happiness, fear | gespielt | audiovisuell | |
IEMOCAP (Interactive Emotional Dyadic Motion Capture) | University of Southern California, Signal Analysis and Interpretation Laboratory | consists of dyadic sessions where actors perform improvisations or scripted scenarios, specifically selected to elicit emotional expression Nähere Beschreibung in: C. Busso, M. Bulut, C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J. Chang, S. Lee, and S. Narayanan, "IEMOCAP: Interactive emotional dyadic motion capture database," Journal of Language Resources and Evaluation, vol. 42, no. 4, pp. 335-359, December 2008. abrufbar unter: https://sail.usc.edu/iemocap/Busso_2008_iemocap.pdf | m:5 /f: 5 | n/a | scripted and spontaneous sessions | 5531 Aufnahmen | Ärger, Freude, Trauer, excitement, Frustration, Angst, Überraschung, Neutralität und andere plus dimensional (valence, activation, dominance) | gespielt | audiovisuell (mit motion capture) | ja |
MELD (Multimodal EmotionLines Dataset) | University of Michigan, Nanyang Technological University, Instituto Politénico Nacional,Singapore University of Technology and Design, National University of Singapore | MELD contains about 13,000 utterances from 1,433 dialogues from the TV-series Friends Nähere Beschreibung in: Poria, Soujanya & Hazarika, Devamanyu & Majumder, Navonil & Naik, Gautam & Cambria, Erik & Mihalcea, Rada. (2018). MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations. abrufbar unter: https://arxiv.org/pdf/1810.02508.pdf | 6+ | n/a | vorgegeben | 13707 Aufnahmen | Ärger, Ekel, Trauer, Freude, Neutral, Überraschung, Angst | gespielt | audiovisuell | ja |
HUMAINE (Human-Machine Interaction Network on Emotions) | University of Belfast, LIMSI-CNRS, Universität Erlangen-Nürnberg, Tel Aviv University, National Technical University Athens und viele weitere Partner | HUMAINE aims to lay the foundations for European development of systems that can register, model and/or influence human emotional and emotion-related states and processes: "emotion-oriented systems". It contains 48 clips (defined as naturalistic, induced or acted data), selected from the following corpora: - Belfast Naturalistic database (in English, naturalistic, 10 clips) - Castaway Reality Television dataset (in English, naturalistic, 10 clips) - Sensitive Artificial Listener (in English, induced, 12 clips) - Sensitive Artificial Listener (in Hebrew, induced, 1 clip) - Activity/Spaghetti dataset (in English, induced, 7 clips) - Green Persuasive dataset (in English, induced, 4 clips) - EmoTABOO (in French, induced, 2 clips) - DRIVAWORK corpus (in German, induced, 1 clip) - GEMEP corpus (in French, acted, 1 clip) Nähere Beschreibung in: Douglas-Cowie, Ellen & Cox, Cate & Martin, Jean-Claude & Devillers, Laurence & Cowie, Roddy & Sneddon, Ian & McRorie, Margaret & Pelachaud, Catherine & Peters, Christopher & Lowry, Orla & Batliner, Anton & Hoenig, Florian. (2011). The HUMAINE database. 10.1007/978-3-642-15184-2_14. abrufbar unter: https://www.researchgate.net/publication/226191511_The_HUMAINE_database | n/a | n/a | n/a | 48 Aufnahmen | mit >20 Labels versehen | natürlich, induziert und gespielt | audiovisuell | |
CREMA-D | University of Pennsylvania | an audio-visual data set uniquely suited for the study of multi-modal emotion expression and perception Nähere Beschreibung in: Cao, H., Cooper, D. G., Keutmann, M. K., Gur, R. C., Nenkova, A., & Verma, R. (2014). CREMA-D: Crowd-sourced Emotional Multimodal Actors Dataset. IEEE transactions on affective computing, 5(4), 377–390. https://doi.org/10.1109/TAFFC.2014.2336244 abrufbar unter: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4313618/ | 91 | n/a | vorgegeben | 7,442 Aufnahmen | happy, sad, anger, fear, disgust, and neutral (surprise was not considered by the acting directors to be sufficiently specific, as it could relate to any of the other emotions with rapid onset) | gespielt | audiovisuell | |
MOCHA-TIMIT | University of Edinburgh, Centre for Speech Technology Research | Nähere Beschreibung unter: https://data.cstr.ed.ac.uk/mocha/README_v1.2.txt | 2 (m:1 /f:1) | n/a | vorgegeben | 460 Aufnahmen | ||||
TORGO | University of Toronto, The Speech and Stuttering Institute & Department of Computer Science & Oral Dynamics Laboratory, Department of Speech-Language Pathology, & Holland Bloorview Kids Rehabilitation Hospital,Toronto, | TORGO is one of the most popular dysarthric speech corpora [33]. It consists of aligned acoustic and articulatory recordings from 15 speakers. Seven of these speakers are control speakers without any speech disorders, while the remaining eight speakers present different levels of dysarthria. Nähere Beschreibung in: R. F., N. A.K., and T. Wolff, “The torgo database of acoustic and articulatory speech from speakers with dysarthria,” Lang Re- sources & Evaluation, vol. 46, pp. 523–541, 2012 abrufbar unter: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.420.767&rep=rep1&type=pdf | 15 | n/a | vorgegeben | reflex, respiration, lips, jaw, velum laryngeal, tongue, intellegibility | n/a | |||
The Nemours Database of Dysarthric Speech | Applied Science & Engineering Laboratories (ASEL), A.I. duPont Institute, USA | The Nemours database is a collection of 814 short nonsense sentences; 74 sentences spoken by each of 11 male speakers with varying degrees of dysarthria. Nähere Beschreibung in: Menéndez-Pidal, Xavier / Polikoff, James B. / Peters, Shirley M. / Leonzio, Jennie E. / Bunnell, H. T. (1996): "The nemours database of dysarthric speech", In ICSLP-1996, 1962-1965. abrufbar unter: https://www.isca-speech.org/archive/archive_papers/icslp_1996/i96_1962.pdf | 11 (m:11) | n/a | vorgegeben | 814 Aufnahmen | 39 segment labels derived from the ARPAbet symbol set. | n/a | broad phonemic transcription |
Name | Institution | kurze Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal | Transkription verfügbar |
GEMEP (Geneva Multimodal Emotion Portrayal) | Université de Genève | Nähere Beschreibung in: Bänziger, T., & Scherer, K. R. (2010). Introducing the Geneva Multimodal Emotion Portrayal (GEMEP) corpus. In K. R. Scherer, T. Bänziger, & E. B. Roesch (Eds.), Blueprint for affective computing: A sourcebook (pp. 271-294). Oxford, England: Oxford university Press. abrufbar unter: https://www.unige.ch/cisa/files/5814/6721/0641/Banziger__Scherer_-_2010_-_Introducing_the_Geneva_Multimodal_Emotion_Portrayal_GEMEP_Corpus.pdf | m: 5 / f: 5 | n/a | vorgegeben | 1260 Aufnahmen | Bewunderung, Amüsement, Zärtlichkeit, Ärger, Ekel, Verzweiflung, Stolz, Scham, Ängstlichkeit, Interessiertheit, Gereiztheit, Freude (Begeisterung), Verachtung,Angst(Panik), Freude (sinnlich), Erleichterung, Überraschung, Trauer | gespielt | audiovisuell | ja |
Name | Institution | knappe Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal | Transkription verfügbar |
EmoFilm | Universität Augsburg | Nähere Beschreibung in: Emilia Parada-Cabaleiro, Giovanni Costantini, Anton Batliner, Alice Baird, and Björn Schuller (2018), Categorical vs Dimensional Perception of Italian Emotional Speech, in Proc. of Interspeech, Hyderabad, India, pp. 3638-3642. | 207 (auch Englisch und Italienisch) | 1115 Aufnahmen | anger, contempt, happiness, fear, and sadness | |||||
SES (Spanish Emotional Speech database) | Nähere Beschreibung in: Montero, Juan & Gutierrez-Arriola, Juana M. & Colás, José & Macias-Guarasa, Javier & Enríquez, Emilia & Pardo, Juan. (1999). Development of an emotional speech synthesiser in Spanish. abrufbar unter: https://www.isca-speech.org/archive/archive_papers/eurospeech_1999/e99_2099.pdf | 1 (m:1) | vorgegeben | 30 words, 15 short sentences and 3 paragraphs | Anger, happiness, sadness, surprise, neutral | gespielt | ||||
Nähere Beschreibung in: Sanz, Ignasi & Guaus, Roger & Rodrguez, Angel & Lázaro Pernias, Patrícia & Vilar, Norminanda & Pont, Josep Maria & Bernadas, Dolors & Oliver, Josep & Tena, Daniel & Longhi, Ludovico. (2001). Validation Of An Acoustical Modelling Of Emotional Expression In Spanish Using Speech Synthesis Techniques. abrufbar unter: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.385.1165&rep=rep1&type=pdf | eight actors (four females, four males), three intensities, 336 utterances. | |||||||||
Technical University of Madrid | 80 utterances (300 utterances with four different sentences as syn- thetic data set (actors), 80 utterances as real data set (DVD movies)), 15 non-professional speakers (female and male) in the synthetic data set. abrufbar unter: https://ieeexplore.ieee.org/abstract/document/1513750 | neutral, happiness, sadness, anger, and fear |
Name | Institution | kurze Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal | Transkription verfügbar |
CASIA | 4 | 1200 Aufnahmen | ||||||||
CVE (Chinese Vocal Emotions) | 4 | 874 Aufnahmen | ||||||||
MES (Mandarin Emotional Speech) | 6 | 360 Aufnahmen |
Name | Institution | knappe Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal | Transkription verfügbar |
BUEMODB (Bogazici University Emotion Database) | Bogazici University | gespielte Sätze zur Messung der F0 | 11 (f:7/M:4) | vorgegeben | 484 Aufnahmen | anger, joy, neutrality, and sadness. | gespielt | |||
TurES (TURkish Emotional Speech database) | Äußerungen aus 55 türkischen Filmen | 582 (f: 188 / m: 394) | vorgegeben | 5304 Aufnahmen | happy, surprised, sad, angry, fear, neutral and other) and 3- dimensional emotional space (valence, activation, and dominance). | gespielt | ||||
EmoSTAR | Äußerungen aus Film und Fernsehen | >300 Aufnahmen | ||||||||
Voice Corpus | f:25 / m:25 | 3740 Aufnahmen | afraid, angry, happy, sad, neutral | |||||||
Turkish Emotion-Voice Database (TurEV-DB) | Cognitive Science Department, Middle East Technical University (METU) | Amateurschauspieler | f:3 m:3 | angry, calm, happy sad | gespielt |
Name | Institution | kurze Beschreibung | Anzahl Sprecher*innen | Altersgruppen | eingesprochener Text | Umfang | Annotationskategorien | Ursprung der Emotion | multimodal | Transkription verfügbar |
DES (Danish Emotional Speech) | m:2 / f: 2 | vorgegeben | Aufnahmen | induziert |