Das Kiel Korpus

Allgemein

Das Kiel Korpus ist eine wachsende gesprochene Sprachdatensammlung der deutschen Lese- und Spontansprache, welche seit 1990 am ipds aufgezeichnet und segmentell etikettiert wird. Derzeit umfassen die CD-ROMs des Kiel Corpus mehr als vier Stunden etikettierter Lesesprache auf The Kiel Corpus of Read Speech Vol. I sowie knapp vier Stunden etikettierter Spontansprache auf The Kiel Corpus of Spontaneous Speech Vol. I, Vol. II und Vol. III.

 

Laden Sie Beispielsignale herunter!
10 Signaldateien der Berliner Sätze aus The Kiel Corpus of Read Speech Vol. I sowie fünf Durchgänge aus The Kiel Corpus of Spontaneous Speech Vol. II stehen in Form einer gezippten tar-Datei zur Verfügung. Diese Dateien sind im ESPS/waves+- oder MS RIFF WAVE-Format und umfassen jeweils ungefähr 2 MB Speicherplatz.

 

 

Segmentierung und Etikettierung

Das Setzen der Label geht aus von einer kanonischen phonemischen Transkription einer Äußerung. Eine Labelliste wird aus der Transkription erzeugt. Jedes Element erhält ein Präfix der folgenden:

## für wortinitiale Labels
$ für wortinterne Labels
$# für wortinterne, Kompositums-initiale Labels
# für wortexterne Labels, z.B. Pausen, Atmen, Interpunktionszeichen.

Die Etiketten sind zeitlich mit dem Signal synchronisiert. Jedes Label markiert den Beginn des Signalabschnitts, der dafür als hauptverantwortlich ausgemacht wurde. Wo es erforderlich war, wurden die Labels angepaßt. Im folgenden finden sie einige Beispiele möglicher Modifikationen:

Vorher Nachher
##b ##%b Die Abgrenzung eines Signalabschnitts ist unsicher, in diesem Falle konnte der Verschluß für den Plosiv nicht genau lokalisiert werden.
$t $t- Phonetische Korrelate einer phonologischen Einheit fehlen. Häufig benutzt, um das Fehlen eines Verschlußes / plosiven Elements nach Frikativen oder eines vokalischen Abschnitts in /@n/- oder /@l/-Sequenzen anzuzeigen.
$n $n-m Ein Signalabschnitt wird angemessener durch ein anderes Label aus dem Inventar repräsentiert. Überwiegend eingesetzt, um Assimilationen zu kennzeichnen.

$-p Ein Label aus dem Inventar wird eingefügt, um einen nicht notwendigerweise in der kanonischen Transkription vorhersehbaren Signalabschnitt zu etikettieren. Oft benutzt, um das Vorhandensein epenthetischer Verschlüsse anzuzeigen.

 

Eine Vielzahl weiterer phonetischer Merkmale wird ebenfalls über den "Einfüge"-Bindestrich:

 

$-~ zeigt das Vorhandensein von Nasalität an, wenn ein Nasal nicht mehr zeitlich abgrenzbar ist
$-q zeigt das Vorhandensein von junkturellem Knarren oder Knarrstimme an. Das Symbol q wird außerdem benutzt, um Plosivsymbole zu ersetzen (so z.B. $t-q, $p-q), wenn glottalisierte Korrelate auftreten, wie sie häufig in der Umgebung von Nasalen und Lateralen zu finden sind.
$-h zeigt den Beginn der Plosivlösungsphase (und Aspiration) an.
$-MA wird benutzt, um das Vorhandensein des Korrelates eines getilgten Labels zu signalisieren, z.B. $i:- in einer Realisierung von vielleicht, in der phonetische Korrelate des ersten Vokals gleichzeitig mit der labiodentalen Friktion und Anteilen des Laterals auftreten, aber kein zeitlich diskreter Vokalabschnitt vorhanden ist.

 

 

Zu der Bestellung des Kiel Korpus

 

Internet-Publikationen und unveröffentlichtes Material des IPDS

 

 

Manuskripte
  • HTML - Benno Peters. (2001). 'Video Task' oder 'Daily Soap Szenario' - Ein neues Verfahren zur kontrollierten Elizitation von Spontansprache.Manuskript.
  • Jonathan Harrington. (2006). 'The Phonetic Analysis of Speech Corpora' - Vowels, place of articulation, and formants.Manuscript.
  • HTML - Ernst Dombrowski, Thurid Holzrichter, Niels Münz, Alexander Nowak, Monika Poschmann. (2007). 'Prosody and musical rising two-tone patterns: sound examples'
Beiträge zu verschiedenen Forschungsfeldern
  • Link zu "Forschung > Lautmuster deutscher Spontansprache"

Kiel Korpus - Bestellung

The Kiel Corpus of Spontaneous Speech, Vol. I

The Kiel Corpus of Spontaneous Speech, Vol. II

The Kiel Corpus of Spontaneous Speech, Vol. III

The Kiel Corpus of Spontaneous Speech, Vol. IV

 

The Kiel Corpus of Read Speech, Vol. I

Kiel-CD #1

 


Hier klicken Nähere Informationen zum Kiel Corpus

Sprecher: 26 weibliche; 27 männliche

Sprachmaterial: Deutsche gesprochene Prosa bestehend aus dem folgenden



Wörter Gelesen von



weiblich männlich
100 Berliner Sätze 524 6 6
100 Marburger Sätze 500 6 6
20 CNET Sätze 202 1 1
63 Kohler-Sätze 476 1 1
30 Tillmann/Kohler-Sätze 240 1 1
15 Schiefer/Sommer-Sätze 84 1 1
45 SEL-Sätze 270 1 1
25 zusätzliche SEL-Sätze 154 1 1

Die Buttergeschichte (in 3 Teilen) 237 9 7

Nordwind und Sonne (in 2 Teilen) 111 7 9
100 Erlangen-Sätze 1001 2 3
100 Siemens-Sätze 1133 2 3

(Ein weiblicher und ein männlicher Sprecher haben den ganzen Corpus gelesen.)

Signaldateien: 16kHz Abtastfrequenz; 16-bit Auflösung

Symbolischer Inhalt:
- orthographische Repräsentation des Textes
- kanonische Transkription
- segmentelle Labels
- kanonische und Varianten-Lexika

Preis der CD ohne Versandkosten: 75,- Euro.

Im Preis enthalten sind Kopien der AIPUKs 27 und 28. Für diejenigen, die bereits über die genannten AIPUKs verfügen,
wird die CD #1 zu einem reduzierten Preis von 50,- Euro angeboten.

 

 

 

The Kiel Corpus of Spontaneous Speech, Vol. I-III

Kiel-CD #2-4





The Kiel Corpus of Spontaneous Speech, Vol. I

Kiel CD #2


Sprecher: 26

Sprachmaterial:
- spontane deutsche Dialoge
- Terminvereinbarungs-Aufgabe
- 31 Dialoge
- 525 Dialog-Turns
- 9291 Wort-Tokens (1099 Worttypen)

Signaldateien: ein Durchgang/Datei; 16kHz Abtastfrequenz; 16-bit Auflösung

Symbolischer Inhalt:
- orthographische Transkription
- kanonische Transkription
- segmentelle Labels
- kanonische und Varianten-Lexika

 

 

 

  Kiel CD#2Preis: 50 EURO
Bestellen
 

zurück nach oben



The Kiel Corpus of Spontaneous Speech, Vol. II

Kiel CD #3

Sprecher: 16

Sprachmaterial:
- spontane deutsche Dialoge
- Terminvereinbarungs-Aufgabe
- 51 Dialoge
- 862 Dialog-Turns

Signaldateien: ein Durchgang/Datei; 16kHz Abtastfrequenz; 16-bit Auflösung

Symbolischer Inhalt:
- orthographische Transkription
- kanonische Transkription
- segmentelle Labels
- kanonische und Varianten-Lexika

 

  

  Kiel CD#3Preis: 75 EURO
Bestellen
 


zurück nach oben



The Kiel Corpus of Spontaneous Speech, Vol. III

Kiel CD #4

Sprecher: 10

Sprachmaterial:
- spontane deutsche Dialoge
- Terminvereinbarungs-Aufgabe
- 35 Dialoge
- 597 Dialog-Turns

Signaldateien: ein Durchgang/Datei; 16kHz Abtastfrequenz; 16-bit Auflösung

Signal- und Labeldateien in DOS-, UNIX- und ESPS/waves+-Formaten

Symbolischer Inhalt:
- orthographische Transkription
- kanonische Transkription
- segmentelle Labels
- kanonische und Varianten-Lexika

 

 

  Kiel CD#4Preis: 75 EURO
Bestellen

 

zurück nach oben


The Kiel Corpus of Spontaneous Speech, Vol. VI

Kiel DVD #1

 

Sprecher: 12

Sprachmaterial:
- spontante deutsche Sprache
- Video-Aufgabe
- 6 Dialoge

 

Signaldateien: 16-bit, 16kHz, Microsoft WAV Format

Labeldateien: 7-bit ASCII Dateien, DOS Format (CR/LF am Zeilenende)

Symbolischer Inhalt:
- orthographissche Transkription
- kanonische Transkription
- segmentelle und prosodische Labels

 

  

  Kiel DVD#1Preis: 75 EURO
Bestellen

 

zurück nach oben

Bestellformulare für das Kiel Korpus

Bestellung von ISFAS Publikationen

Sie können Ihre Bestellung per E-mail oder FAX aufgeben.

 

...Bestellung per FAX

Wenn sie ihre Bestellung per FAX aufgeben wollen, können Sie sich auf dieser Seite ein ausfüllbares Bestellformular als

pdf-version

oder als doc-Version

herunterladen und dann ausdrucken. Um genauere Angaben zu den einzelnen Publikationen zu erhalten, klicken Sie bitte hier für die AIPUKs. Die FAX-Nummer des IPdS ist: 0431/880-7405

 

 

...Bestellung per E-Mail

Wenn Sie eine E-mail schreiben, dann vergessen Sie bitte nicht, Ihren vollständigen Namen, Adresse, Telefonnummer und E-Mail-Adresse anzugeben. Ansonsten kann Ihre Bestellung nicht bearbeitet werden. Des weiteren sollte die vollständige Bezeichnung der betreffenden Publikation, sowie der Einzelpreis und bei mehreren Artikeln der entsprechende Gesamtpreis in Euro auf der E-Mail-Bestellung angegeben werden. Um genauere Angaben zu den einzelnen Publikationen zu erhalten, klicken Sie bitte hier für die AIPUKs. Bitte beachten Sie im Falle einer E-Mail-Bestellung zudem, daß ihre Angaben während der Übertragung nicht geschützt und durch Dritte eingesehen werden könnten.

Die Preise verstehen sich als Nettopreise zuzüglich Versandkosten. Die Versandkosten richten sich nach Lieferziel, Gewicht und Größe der Sendung. Mehrere Bestellungen können zusammen verschickt werden und tragen somit zumeist zu einer Reduzierung der Versandkosten bei.