Spracherkenner liefern in der Regel einen Strom von Worten die sie erkannt haben. Was sie nicht liefern sind wichtige strukturelle Informationen wie z.B. die Interpunktion. Diese ist aber wichtig, um dem menschlichen Leser das Verständnis des Gesagten zu erleichtern. Weiterhin sind Satzgrenzen wichtig für eine weitere Verarbeitung im Bereich des Natural Language Processing.
Bisherige Ansätze haben versucht solche Satzgrenzen unter Zuhilfenahme von lexikalischen und prosodischen Merkmalen in gelesenen Äußerungen von Nachrichtensprecher oder aber in spontanen Telefongesprächen zweier Parteien zu erkennen. Neuere Ansätze versuchen diese Erkennung in Meeting Szenarien mit mehreren Parteien. Ein solcher Ansatz wird in dem Paper von Kolàr und anderen http://www.speech.sri.com/papers/tsd2006-kolar-ProsSentSeg.pdf vorgestellt.
Eine interessante Frage, die die Autoren gleich zu Beginn aufwerfen, ist: "Was ist überhaupt ein Satz im spontan gesprochener Sprache?". Um dieser Frage nachzugehen haben sie mehrere Stunden von Meeting Mitschnitten transkribieren lassen. Dabei sollten die Durchführenden schnellstmöglich vorgehen. Hier kam es zu keinem einheitlichen Ergebnis. Satzgrenzen werden von unterschiedlichen Personen in spontan gesprochener Sprache also unterschiedlich wahrgenommen.
Für die Untersuchung wurden 270 prosodische Merkmale untersucht, wie z.B. Pause, Grundfrequenz, Dauer und Energie in verschiedenen Ausprägungen. Eine ganze Reihe dieser Merkmale hatte eine Korrelation und wurde zu Gruppen zusammengefasst. Für die Klassifikation wurden zwei Ansätze herangezogen:
1. ein HMM Framework und
2. ein eigener Ansatz mit Namen BoosTexter
Die Autoren konnten bei beiden Ansätzen zeigen das prosodische Informationen durchaus dabei helfen kann Satzgrenzen oder Dialogabschnitte zu erkennen. Dabei waren
die Pause nach dem aktuellen Wort, die Dauer des Wortes, die Pausen nach dem folgenden Wort und die normalisierte Dauer des letzten Wortes die wichtigsten Merkmale.
Diese Untersuchungen zeigen auf, das die Untersuchung prosodischer Merkmale durchaus für die Analyse im Rahmen von Meeting Szenarien Anwendung finden kann.
Keine Kommentare:
Kommentar veröffentlichen