Neues Sprach-Interface "Galaxy"
Diverse Sprach-Interfaces sind bereits auf dem Markt. Produkte sind von IBM, Phillips oder AT&T Bell Labs erhältlich. Eine der neuesten Technologien, wie der General Magic Portico Service, erlaubt dem User die Abfrage von News und das Abhören von Mails per Telefon.
Das MIT baut gerade die neueste Generation von Sprach-Interfaces. Die "Spoken Language System Group" entwickelt ein Mensch-Computer-Konversationssystem basiernd auf "Galaxy". Galaxy ist eine fortlaufend weiterentwickelte Client-Server-Architektur, die fünf Funktionen erfüllen soll: Stimmenerkennung, Spracherkennung, das Wiederauffinden von Information, Sprachgenerierung und Stimmensynthese.
Die Architektur von Galaxy ist eine verteilte. Die Generierung und Verarbeitung der Anfragen und Daten erfolgt über externe Server. Galaxy holt sich die relevanten Daten von verschiedenen Wissensdomains, um der Anfrage des Users zu antworten. Das System kann gleichzeitig die Anfragen verschiedener User bearbeiten.
Seine Mobilität erlaubt die Abfrage per Telefon oder über das Internet.
Galaxy-Client-Server-Architektur
Die fortlaufend weiterentwickelte Galaxy-Architektur liefert servergenerierte Antworten vor allem an "Leichtgewichts"-Clienten wie PCs und Telefonen. Verschiedene Technologieserver ermöglichen das Verstehen von gesprochener Sprache, Spracherkennung und die Synthese von Sprache. Domain-Server liefern anwendungsspezifische Informationen, aber auch Wettervorhersagen, Flugpläne, Restaurantführer und ausgewählte Web-basierende Informationen.
Um einen möglichst breiten Zugang zu ermöglichen, ist Galaxy auch vom Internet aus benutzbar. Die MIT-Forscher arbeiten bereits an einer Architektur, die die Erkennung von nonverbaler Kommunikation wie zum Beispiel der von Gesten bewerkstelligt.
GalaxyErhöhte Mobilität
Spracherkennung würde sich sehr für handheld Computer eignen, wie sie ebenfalls am MIT entwickelt werden, zum Beispiel das "Handy 21". Die Verwendung von Sprache zur Abfrage von diversen Funktionen erweitert das Mobilitätsspektrum enorm.
"Es gäbe dann keine Notwendigkeit mehr zur Verwendung eines sperrigen Keyboards bei einem tragbaren System wie diesem", sagt Victor Zue, Associate Director des MIT-"Laboratory for Computer Sciences".
Die Systeme der Zukunft sollten in der Lage sein, relevante Daten von verschiedenen Domains zu beziehen, ohne dass sie dazu aufgefordert werden - ein Update-Automatismus der für den User relevanten Information.
"Im Idealfall", resümiert Victor Zue, "ermöglichen die Sprach-Interfaces der Zukunft Computern, die Intentionen der User zu verstehen und im spezifischen Kontext zu antworten."
Publikationen der MIT-Spoken Language System Group