Advanced Speech Signal Processing Tool | -xassp-

xassp ist eine Anwendung zur Anzeige, Analyse und Verarbeitung von Sprachsignalen. Es wird in erster Linie zum segmentellen oder prosodischen Etikettieren eingesetzt, läßt sich aber auch, aufgrund seiner Konfigurationsmöglichkeiten, für viele andere Zwecke verwenden.

Hauptdialog von xassp

Frei definierbare Konfigurationen erleichtern dem Benutzer die Auswahl mehrerer zusammengehöriger Dateien bzw. Analysen, die auf dem Bildschirm dargestellt werden sollen. Ein Beispiel für eine solche Konfiguration ist Segmental, die für das segmentelle Etikettieren gedacht ist. Die Fenster, die bei dieser Konfiguration geöffnet werden, sind

  • das im Hauptdialog ausgewählte Sprachsignal,
  • ein aus dem Sprachsignal berechnetes Sonagramm und
  • die Labels aus der zum Sprachsignal gehörigen Label-Datei.

Ein Bild dieser Konfiguration ist nebenstehend dargestellt. Sie erlaubt es dem Benutzer, anhand des Sonagramms und der Möglichkeit, beliebige Teile des Sprachsignals hörbar zu machen, Segmentgrenzen zu bestimmen und an den entsprechenden Stellen Labels zu plazieren.

Beispielkonfiguration für segmentelles Etikettieren



Eine weitere oft verwendete Konfiguration ist Prosodic, die alle für das prosodische Etikettieren benötigten Daten beinhaltet. Es werden folgende Fenster geöffnet:

  • das ausgewählte Sprachsignal,
  • die berechnete Grundfrequenz des Sprachsignals und
  • die Labels aus der zum Sprachsignal gehörigen Label-Datei.

Nebenstehend ist ein Beispiel für diese Konfiguration abgebildet.

Konfiguration für prosodisches Etikettieren

Mit Hilfe der Darstellung der Grundfrequenz und der Möglichkeit, Teile des Sprachsignals anzuhören, können die prosodischen Labels zu den bereits vorhandenen segmentellen an den entsprechenden Stellen hinzugefügt werden.



Obwohl mit dem prosodischen und segmentellen Etikettieren schon ein weites Anwendungsgebiet von xassp abgedeckt ist, bietet es noch einige weitere Möglichkeiten zur Analyse des Sprachsignals:

  • Grundfrequenz (F0)
    Die Grundfrequenz kann auf unterschiedliche Arten dargestellt werden. Unter anderem lassen sich die minimale und maximale dargestellte Frequenz, sowie die Art der Frequenzskala (linear oder logarithmisch) einstellen.
  • Energie
  • Sonagramm (FFT und LPC)
  • Section (FFT und LPC) (siehe auch die nebenstehende Abbildung)
    Aus der LPC-Section lassen sich Formanten berechnen und in einem separaten Fenster darstellen.
Section

Alle Analysen lassen sich sowohl über Konfigurationen als auch durch ein Menü im Sprachsignalfenster aktivieren.

Werden zusammengehörige Daten auf dem Bildschirm dargestellt, so besteht die Möglichkeit, diese zu verknüpfen, so daß Aktionen, die in einem Fenster durchgeführt werden, Einfluß auf die anderen haben. So werden zum Beispiel Marken, die einen Teil des Signals markieren, in allen miteinander verknüpften Fenstern gesetzt. Außerdem wird dafür gesorgt, daß in allen verknüpften Fenstern der gleiche Zeitbereich in der gleichen Auflösung dargestellt wird.