Üblicherweise beschäftigt sich die Forschung multimodaler Interaktion damit, wie verschiede Eingabemodalitäten zusammen genutzt werden können, um die Mensch-Maschine-Interaktion zu verbessern. Wenn es darum geht, verschiedene Ausgabemodalitäten gemeinsam zu nutzen, lichtet sich die Forschungslandschaft deutlich. Pernilla Qvarfordt hat in http://www.ida.liu.se/~perqv/paper/MMNordic03.pdf untersucht, wie sich Sprachausgaben mit redundanten Informationen parallel zur graphischen Ausgabe auf die Benutzerinnen solcher Systeme auswirkt. Sie folgt damit der Beobachtung, dass in alltäglichen Gesprächen ebenfalls oft redundante Informationen gegeben werden.
Für die Untersuchung hat sie eine Wizard-of-Oz Studie mit einem multimodalen Fahrplan durchgeführt. Die Benutzerinnen konnten mit dem Fahrplan entweder über Sprache oder aber durch Berühren eines Touchscreens interagieren. Die Spracherkennung und die Gestenerkennung wurden simuliert. Die Abfragen des Fahrplans waren echt.
In der Studie wurden drei Fälle unterschieden:
1. Keine Sprachausgabe
2. Begrenzte Sprachausgabe
3. Volle Sprachausgaben
In allen drei Fällen gab es graphische Rückmeldungen. Diese wurde z.B. genutzt, um anzuzeigen, dass das System gerade arbeitet, das eine Eingabe erwartet wird, für Fehlermeldungen oder aber um den Status des Spracherkenners anzuzeigen.
Begrenzte Sprachausgabe bedeutete hier, dass Sprachausgaben für Teile der Einleitung, für Fehlermeldungen oder für die Hilfe genutzt wurden. Volle Sprachausgabe bedeutete, dass Sprachausgaben auch dann erfolgen konnten, wenn die Benutzerin eine längere Pause machte.
Erstaunlicherweise wurde kein Einfluss der Sprachausgaben auf die Zeit, die zur Erledigung der Aufgabe benötigt wurde, beobachtet. Ebenso hatten die Benutzerinnen in allen drei Fällen jederzeit das Gefühl, das System zu kontrollieren. Unterschiede gab es aber, wenn es darum ging, herauszufinden welche Spracheingaben in der aktuellen Situation möglich waren. Sowohl ohne Sprachausgabe als auch bei voller Sprachausgabe waren die Systemenausgaben hilfreich. Lediglich bei der begrenzten Sprachausgabe waren sich die Benutzerinnen nicht sicher. Eine ähnliche Beobachtung gab es auch bei der Beurteilung der Benutzbarkeit des Systems. Das System mit begrenzter Sprachausgabe wurde als weniger komfortabel empfunden.
Insgesamt lässt sich also sagen, dass die Hinzunahme der Sprachausgabe keinen signifikanten Einfluss auf die Benutzbarkeit des Systems hat. Wenn Sprachausgaben verwendet werden, sollte dies jedoch auf möglichst natürliche Art und Weise erfolgen oder aber vermieden werden. Je natürlicher die Sprachausgaben sind, desto einfacher fällt die Benutzung des Systems und die Auswahl der Spracheingaben. Die Benutzerinnen fühlen sich sicherer und begegnen dem System positiver.
Freitag, 11. September 2009
Donnerstag, 10. September 2009
Using Prosody for Automatic Sentence Segmentation of Multy-Party Meetings
Spracherkenner liefern in der Regel einen Strom von Worten die sie erkannt haben. Was sie nicht liefern sind wichtige strukturelle Informationen wie z.B. die Interpunktion. Diese ist aber wichtig, um dem menschlichen Leser das Verständnis des Gesagten zu erleichtern. Weiterhin sind Satzgrenzen wichtig für eine weitere Verarbeitung im Bereich des Natural Language Processing.
Bisherige Ansätze haben versucht solche Satzgrenzen unter Zuhilfenahme von lexikalischen und prosodischen Merkmalen in gelesenen Äußerungen von Nachrichtensprecher oder aber in spontanen Telefongesprächen zweier Parteien zu erkennen. Neuere Ansätze versuchen diese Erkennung in Meeting Szenarien mit mehreren Parteien. Ein solcher Ansatz wird in dem Paper von Kolàr und anderen http://www.speech.sri.com/papers/tsd2006-kolar-ProsSentSeg.pdf vorgestellt.
Eine interessante Frage, die die Autoren gleich zu Beginn aufwerfen, ist: "Was ist überhaupt ein Satz im spontan gesprochener Sprache?". Um dieser Frage nachzugehen haben sie mehrere Stunden von Meeting Mitschnitten transkribieren lassen. Dabei sollten die Durchführenden schnellstmöglich vorgehen. Hier kam es zu keinem einheitlichen Ergebnis. Satzgrenzen werden von unterschiedlichen Personen in spontan gesprochener Sprache also unterschiedlich wahrgenommen.
Für die Untersuchung wurden 270 prosodische Merkmale untersucht, wie z.B. Pause, Grundfrequenz, Dauer und Energie in verschiedenen Ausprägungen. Eine ganze Reihe dieser Merkmale hatte eine Korrelation und wurde zu Gruppen zusammengefasst. Für die Klassifikation wurden zwei Ansätze herangezogen:
1. ein HMM Framework und
2. ein eigener Ansatz mit Namen BoosTexter
Die Autoren konnten bei beiden Ansätzen zeigen das prosodische Informationen durchaus dabei helfen kann Satzgrenzen oder Dialogabschnitte zu erkennen. Dabei waren
die Pause nach dem aktuellen Wort, die Dauer des Wortes, die Pausen nach dem folgenden Wort und die normalisierte Dauer des letzten Wortes die wichtigsten Merkmale.
Diese Untersuchungen zeigen auf, das die Untersuchung prosodischer Merkmale durchaus für die Analyse im Rahmen von Meeting Szenarien Anwendung finden kann.
Bisherige Ansätze haben versucht solche Satzgrenzen unter Zuhilfenahme von lexikalischen und prosodischen Merkmalen in gelesenen Äußerungen von Nachrichtensprecher oder aber in spontanen Telefongesprächen zweier Parteien zu erkennen. Neuere Ansätze versuchen diese Erkennung in Meeting Szenarien mit mehreren Parteien. Ein solcher Ansatz wird in dem Paper von Kolàr und anderen http://www.speech.sri.com/papers/tsd2006-kolar-ProsSentSeg.pdf vorgestellt.
Eine interessante Frage, die die Autoren gleich zu Beginn aufwerfen, ist: "Was ist überhaupt ein Satz im spontan gesprochener Sprache?". Um dieser Frage nachzugehen haben sie mehrere Stunden von Meeting Mitschnitten transkribieren lassen. Dabei sollten die Durchführenden schnellstmöglich vorgehen. Hier kam es zu keinem einheitlichen Ergebnis. Satzgrenzen werden von unterschiedlichen Personen in spontan gesprochener Sprache also unterschiedlich wahrgenommen.
Für die Untersuchung wurden 270 prosodische Merkmale untersucht, wie z.B. Pause, Grundfrequenz, Dauer und Energie in verschiedenen Ausprägungen. Eine ganze Reihe dieser Merkmale hatte eine Korrelation und wurde zu Gruppen zusammengefasst. Für die Klassifikation wurden zwei Ansätze herangezogen:
1. ein HMM Framework und
2. ein eigener Ansatz mit Namen BoosTexter
Die Autoren konnten bei beiden Ansätzen zeigen das prosodische Informationen durchaus dabei helfen kann Satzgrenzen oder Dialogabschnitte zu erkennen. Dabei waren
die Pause nach dem aktuellen Wort, die Dauer des Wortes, die Pausen nach dem folgenden Wort und die normalisierte Dauer des letzten Wortes die wichtigsten Merkmale.
Diese Untersuchungen zeigen auf, das die Untersuchung prosodischer Merkmale durchaus für die Analyse im Rahmen von Meeting Szenarien Anwendung finden kann.
Montag, 7. September 2009
Gnome Voice Control
Nachdem ich ein wenig mit den Vista Spracherkenner herum gespielt habe, war ich auf der Suche nach etwas ähnlichem für Linux. Dabei stieß ich ziemlich schnell auf Gnome voice control.
Nach dem Herunterladen aus dem Subversion Repository war zunächst noch die Installationen weiterer Bibliotheken erforderlich. Weiterhin war für mein Fedora System der Server Pfad für
Anschließend lässt sich das Applet mit der rechten Maustaste einem Panel hinzufügen.
Leider funktioniert das Applet nur, wenn der Desktop auf English umgestellt wurde. Das Applet läss sich zwar auch dann Laden, wenn der Desktop auf Deutsch eingestellt ist, sürtzt aber beim Starten des Erkenner gnadenlos ab.
Im Hintergrund werkelt der Spracherkenner PocketSphinx aus dem CMU Sphinx Projekt. Derzeit wird leider nur Englisch unterstützt und auch nur wenige Befehle, wie z.B. Run Terminal oder Run Editor. Weiterhin gibt es auch Unterstützung zur Kontrolle des Desktops wie Minimize Window oder Maximize Window.
In der aktuellen Version ist das Programm nur kurze Zeit benutzbar bevor es abstürzt oder aber der Desktop einfriert.
Insgesamt ein interessantes Programm, das aber noch einige Entwicklung benötigt, bevor es wirklich von Nutzen sein kann.
Nach dem Herunterladen aus dem Subversion Repository war zunächst noch die Installationen weiterer Bibliotheken erforderlich. Weiterhin war für mein Fedora System der Server Pfad für
/usr/lib
nach Aufruf von make install
anzupassen:sudo ln -s /usr/local/lib/bonobo/servers/GNOME_VoiceControlApplet_Factory.server /usr/lib/bonobo/servers
Anschließend lässt sich das Applet mit der rechten Maustaste einem Panel hinzufügen.
Leider funktioniert das Applet nur, wenn der Desktop auf English umgestellt wurde. Das Applet läss sich zwar auch dann Laden, wenn der Desktop auf Deutsch eingestellt ist, sürtzt aber beim Starten des Erkenner gnadenlos ab.
Im Hintergrund werkelt der Spracherkenner PocketSphinx aus dem CMU Sphinx Projekt. Derzeit wird leider nur Englisch unterstützt und auch nur wenige Befehle, wie z.B. Run Terminal oder Run Editor. Weiterhin gibt es auch Unterstützung zur Kontrolle des Desktops wie Minimize Window oder Maximize Window.
In der aktuellen Version ist das Programm nur kurze Zeit benutzbar bevor es abstürzt oder aber der Desktop einfriert.
Insgesamt ein interessantes Programm, das aber noch einige Entwicklung benötigt, bevor es wirklich von Nutzen sein kann.
Abonnieren
Posts (Atom)