Lautlos mit dem Computer sprechen
Seit 15 Jahren beschäftigt sich die deutsche Informatikerin Tanja Schultz mit Spracherkennungssystemen. Ihr jüngster Prototyp kommt dabei ganz ohne Sprache aus, besser gesagt ohne laut gesprochene Sprache. Es genügt, wenn der Anwender die Befehle "stumm" spricht, denn das System erfasst die elektrischen Potenziale von Muskelbewegungen des menschlichen Sprechapparats.
Das Silent Speech Interface soll es möglich machen, mit dem Handy zu telefonieren, ohne umstehende Menschen zu belästigen, und Patienten mit Kehlkopfkrebs wieder eine Stimme zu geben.
Tanja Schultz hält den Lehrstuhl für Kognitive Systeme am Institut für Anthropomatik des Karlsruher Instituts für Technologie (KIT). Die Computerwissenschaftlerin beschäftigt sich dort mit menschenzentrierten Technologien und Anwendungen auf der Basis von Biosignalen, wie beispielsweise der Erfassung, Erkennung, und Interpretation von Sprache sowie von Muskel- und Hirnaktivitäten.
Das Institut wurde Anfang Februar 2010 gegründet. Es vereint 120 Mitarbeiter in sieben Forschungsgruppen und ist das erste und bisher einzige Institut seiner jungen Disziplin in Deutschland.
ORF.at: Frau Schultz, mit dem Prototyp des Silent Speech Interface haben sie heuer auf der CeBIT in Hannover für Aufsehen gesorgt. Was kann man sich darunter vorstellen?
Tanja Schultz: Das Interface ermöglicht es, lautlos gesprochene Sprache zu übertragen. Dahinter steckt die Idee, dass akustische Signale, die man durch Sprache aussendet, sehr oft von Hintergrundlärm beeinträchtigt werden, beispielsweise im Zug oder durch einen Ventilator im Raum. Dadurch funktioniert Spracherkennung in lauter Umgebung sehr schlecht.
ORF.at: Könnten Sie das Funktionsprinzip des Geräts kurz erläutern?
Schultz: Die Technologie basiert auf der Elektromyographie (EMG): der Erfassung und Aufzeichnung elektrischer Potentiale, die durch Muskelaktivität entstehen. Anstatt das akustische Signal zu verwenden, greifen wir durch Oberflächenelektroden die Energiepotentiale ab, die durch Muskelkontraktion entstehen. Bewegt man lautlos die Lippen, werden die EMG-Signale der Mundbewegung an den Computer übertragen. Eine Software kann aus der Form der Signale ableiten, welcher Muskel bewegt wurde, und davon wieder den entsprechenden Laut berechnen. Die Signale werden anschließend in Sprache umgewandelt und von einer computergenerierten Stimme dem Gesprächsteilnehmer übermittelt.
ORF.at: Bietet diese Technik neben der Spracherkennung in lauter Umgebung noch andere Anwendungsmöglichkeiten?
Schultz: Eine der Möglichkeiten ist, Menschen, die krankheitsbedingt nicht mehr sprechen können, eine Stimme zu geben, beispielsweise Kehlkopfkrebspatienten und Menschen, die Probleme mit ihren Stimmbändern haben. Wenn man das Signal über die Muskelaktivität abgreift, kann man ihnen über die lautlose Spracherkennung und anschließende Sprachsynthese die Sprache zurückgeben. Das ist ein großes Anwendungsfeld. Daneben kann man mit dem Interface lautlos telefonieren. Das wäre für Menschen interessant, die kommunizieren müssen oder wollen, aber keine laute Sprache von sich geben können. Ein anderes Anwendungsgebiet sind sprachgetriebene Applikationen. Immer mehr Menschen wickeln ihre E-Banking-Geschäfte über ein Sprachinterface oder Callcenter ab. Das birgt jedoch das Risiko, dass geheime Passwörter und Codes in falsche Ohren geraten können. Mit dem Silent Speech Interface könnte man heikle Informationen vertraulich übermitteln. Eine weitere Anwendung bietet die Verbindung von Spracherkennung und Sprachübersetzung. Formuliert man lautlos einen Satz in seiner Muttersprache, erkennt ihn das System und übersetzt ihn in eine andere Sprache. So könnte man mühelos eine Fremdsprache sprechen, ohne sie zu beherrschen.
ORF.at: Woher stammt diese Idee eigentlich?
Schultz: Ich arbeite seit ungefähr sechs Jahren gemeinsam mit einem Kollegen an dem Interface. Bei der NASA hat Chuck Jorgensen bereits vor ein paar Jahren mit Elektroden, die er am Kehlkopf anbrachte, mit lautloser Spracherkennung experimentiert. Die NASA wollte für ihre Astronauten, die oft ein Maske tragen und deshalb nicht hörbar sprechen können, einen Kanal schaffen, über den sie Gerätschaften ansteuern können. Jorgensen konnte mit seinem System allerdings nur sehr wenige Laute beziehungsweise Kommandos voneinander differenzieren. Wir haben mehr Elektroden eingesetzt und diese im Gesicht angebracht, also näher an den Muskeln, die für die Artikulation zuständig sind, und damit mittlerweile wesentlich bessere Ergebnisse erzielt.
ORF.at: Wie hoch ist die Fehlerquote bei Ihrem System?
Schultz: Das hängt sehr stark vom Sprecher ab. Es gibt gut und schlecht artikulierende Sprecher. Die Spannweite ist relativ groß. Gute Sprecher schaffen eine fünf- bis zehnprozentige Fehlerquote. Bei schlechten Sprechern liegt der Fehleranteil bei 40 bis 50 Prozent. Im Durchschnitt sind wir derzeit mit einem Suchvokabular von 100 Wörtern bei zehn bis 20 Prozent Fehlerrate.
ORF.at: Der aktuelle Prototyp funktioniert nur mit englischer Sprache. Haben Sie das System auch schon mit anderen Sprachen ausprobiert?
Schultz: Wir haben das System auch schon mit Chinesisch und Deutsch getestet. An sich ist die Technologie unabhängig von der Sprache. Wir haben jetzt die ersten Versuche mit Japanisch gemacht. Japanisch und Chinesisch sind Tonalsprachen, das heißt, die Bedeutung vieler Wörter wird auch über die Intonation unterschieden. Wir untersuchen gerade, inwieweit wir die Bewegungen des Kehlkopfes miterfassen können, um solche Intonationsunterschiede zu registrieren.
ORF.at: Die Technologie ist in dieser Form wohl noch nicht massentauglich. Ich kann mir nicht vorstellen, dass viele Menschen mit einem Set von Elektroden im Gesicht herumlaufen wollen.
Schultz: Der Ansicht war ich eigentlich auch. Die Kabel stören. Die Leute fühlen sich eingeschränkt, wenn sie etwas auf der Wange kleben haben - und es sieht obendrein nicht besonders attraktiv aus. Aber als wir das System vor ein paar Monaten auf der CeBIT ausstellten, kamen sehr viele Menschen auf uns zu, die meinten, dass sie durchaus bereit wären, im Alltag die Elektroden zu tragen, wenn sie davon Vorteile hätten. Zum Beispiel Mitarbeiter eines Callcenters, die in einem Raum mit hundert anderen Telefonisten arbeiten, und Menschen mit Sprachbehinderungen. Wahrscheinlich würden sie damit nicht auf die Straße gehen, aber in den eigenen vier Wänden würden sie die Elektroden durchaus tragen. Ich hoffe aber stark darauf, dass sich die Sensortechnologie weiterentwickelt. Es gibt bereits erste Ansätze von implantierbaren EMG-Elektroden. Elektroden werden in Zukunft schrumpfen, so dass man sie irgendwann injizieren kann. Niemand würde sich zum Spaß Elektroden implantieren lassen. Es wäre aber durchaus eine Lösung für Menschen, die dadurch eine Stimme bekommen könnten.
ORF.at: Wie werden Sie das Interface weiterentwickeln?
Schultz: Es gibt für uns mehrere Richtungen, die wir verfolgen: Wir haben immer noch Probleme mit der Repositionierung der Elektroden, das heißt, wenn man die Elektroden abmacht und wieder anbringt, können sich die Signale verändern, weil wir die Position nicht genau treffen. Da arbeiten wir an Kompensationsverfahren und haben recht gute Erfolge. Sukzessive erweitern wir das Vokabular, so dass die Spracherkennung für möglichst große Domänen verfügbar ist. Wir sind jetzt ungefähr bei einem Pool von 1.000 Wörtern. Wenn wir auf 10.000 gehen, bricht die Erkennungsleistung derzeit noch ein. Außerdem arbeiten wir an dem Phänomen, dass elektromyographische Signale sehr personenspezifisch sind. Wenn ein System auf einer Person trainiert wird und dann mit EMG-Signalen einer anderen Person erkannt wird, funktioniert das leider noch nicht sehr gut. Wir arbeiten daher an der Adaptierbarkeit des Systems an neue Personen.
ORF.at: Sie arbeiten am Institut für Anthropomatik. Was verstehen Sie unter diesem Begriff?
Schultz: Anthropomatik ist ein Kunstwort, das sich aus "anthropos" - Griechisch für "Mensch" und "matik" für "Automatik" zusammensetzt. Unter Anthropomatik verstehen wir die Wissenschaft von der Symbiose zwischen Mensch und Maschine. Ziel dieses Forschungsgebietes ist die Erforschung und Entwicklung menschgerechter Systeme mit Mitteln der Informatik. Voraussetzung dafür ist ein grundlegendes Verständnis des Menschen, seiner Anatomie, seiner Motorik, seiner Wahrnehmung und Informationsverarbeitung sowie seines Verhaltens.
ORF.at: Inwieweit unterscheidet sich diese Herangehensweise von der in anderen technischen Disziplinen?
Schultz: Dahinter steckt die Erkenntnis, dass eine Maschine nur dann nützlich ist, wenn sie sich an menschliche Bedürfnisse anpassen kann. Wir haben heute sehr viel Technik um uns herum, aber wir müssen momentan sehr viel Zeit und Mühe darauf verwenden, die Technik an unsere Bedürfnisse anzupassen. Eigentlich sollte es anders herum sein: Die Technik sollte wissen, was der Mensch möchte und diesen Service bieten.
ORF.at: Inwiefern beschäftigen Sie sich mit den ethischen Aspekten der Forschung?
Schultz: Wir haben am KIT ein Institut, das sich mit Technikfolgenabschätzung beschäftigt. Ich halte das für ein sehr wichtiges Thema. Wenn ich wirklich adaptierbare Systeme entwickle, dann muss ich mich fragen, was das für moralische, ethische und soziale Konsequenzen für die Gesellschaft hat. Aber ich bin davon überzeugt, dass Maschinen für Menschen hilfreich sein können, wenn sie sich an die Bedürfnisse und Handlungsweisen der Menschen anpassen und nicht explizit mit "command & control" bedient werden müssen.
(futurezone/Anna Masoner)