Freie Sprachsoftware für Rechner und Roboter
Ein Roboter, der auf Befehle hört, das Mittagessen serviert und auch für einen Smalltalk zu haben ist: Das ist das Ziel des EU-Projekts Astromobile. Für die Kommunikation stellt der steirische Verein für Forschung und Lehre, "simon listens", die freie Spracherkennungssoftware "Simon" zur Verfügung. Sie ist zwar nicht so gut für Diktate geeignet wie ihre kommerziellen Pendants, dafür kann sie sich sehr gut an die Bedürfnisse von Menschen mit Sprachproblemen anpassen.
"'Simon' ist nichts anderes als ein Maus- und Tastaturersatz", erklärt Franz Stieger, Obmann und Projektverantwortlicher des im steirischen Leibnitz beheimateten Vereins "simon listens". Ursprüngliche Idee war, spastisch gelähmten Kindern die PC-Nutzung zu ermöglichen. Mit Unterstützung durch das Framework "Simon" können sie allein durch Spracheingabe E-Mails schreiben, im Internet surfen und via Skype telefonieren.
"Wenn die Spracherkennungssoftware sehr generell ist, ist die Fehlerquote noch zu hoch", erklärt Stieger. So funktioniere etwa die Windows-basierte Software "Naturally Speaking" von Dragon zwar für "normal Sprechende gut", doch für Spastiker sei sie nicht anwendbar, da diese oft eine zu undeutliche Aussprache hätten.
Software für "normal Sprechende"
Die Konkurrenzprodukte zur Spracherkennung seien zudem auf Zielgruppen wie Ärzte, Rechtsanwälte und Notare abgestimmt. Nachdem sich die Formulierungen in diesen Berufsgruppen häufig wiederholen würden, funktioniere das Diktationsmodell hier relativ gut. Bei Ärzten etwa sei ein Wortschatz von 1.000 Wörtern ausreichend, um einschlägige Diagnosen sicher erkennen und in Text umwandeln zu können.
Mittlerweile werde "Simon" in Zusammenhang mit mehreren Projekten erprobt, wie etwa bei Astromobile (Assistive SmarT RObotic platform for indoor environments: MOBILity and interaction). Das im Juli gestartete Projekt hat zum Ziel, einen Roboter zu entwickeln, der für die selbstständige Navigation im Innenraum geeignet ist, und mit Menschen intelligent interagieren kann, und zwar auch auf Basis von verbaler Kommunikation.
Smalltalk mit dem Roboter
Eingesetzt werden soll die Roboterplattform in Haushalten von körperlich beeinträchtigen Personen, aber auch für Senioren soll sie geeignet sein, so Stieger. Darüber hinaus soll die elektronische Haushaltshilfe Erinnerungsfunktionen, etwa an ein Telefonat oder die Medikamente, beherrschen und auch zu Sicherheits- und Überwachungszwecken eingesetzt werden können.
Während der italienische Projektpartner, die Universität Scuola Superiore Sant'Anna, die autonome Bewegung von Robotern mittels verschiedener Sensoren erforscht, ist die Spracherkennung Aufgabe von "simon listens". In der Anfangsphase sollen primäre Bedürfnisse wie das Entgegennehmen von Befehlen und Erinnerungsfunktionen funktionieren. Für die Zukunft schwebt Stieger auch der Einsatz von "künstlicher Intelligenz" und Sprachausgabe vor. Ziel der Bemühungen sei, mit dem Roboter auch einen Smalltalk halten zu können. Ob "Simon" auch einmal "normale natürliche Kommunikation" erfüllen kann, sei jedoch fraglich, so Stieger.
Surfen mit Sprachsteuerung
Die Basisarchitektur von "Simon" bestehe aus zwei Komponenten: "Simon" selbst, der als Client fungiere und die erkannten Befehle ausführe und "Simond", der Server, auf dem die eigentliche Erkennung läuft und mit dem das Sprachmodell (Sprachpaket) verwaltet wird. Mit der Client-Server-Architektur sei es theoretisch möglich, "Simon" auch auf dem Smartphone zu nutzen. Für Stieger ist vorstellbar, dass der Roboter etwa auch via Handy gesteuert wird und der Abgleich über den Server erfolgt. "Damit wäre die Bedienung einfacher."
"'Simon' braucht einen klar definierten Einsatzbereich", so Stieger, weshalb es verschiedener "Szenarien" bedürfe, die den aktuellen Kontext festlegen, in dem das System jeweils verwendet wird. Ein Basisszenario für das primäre Kommunikations- und Informationsbedürfnis gebe es bereits. Eine Art Kommandoebene, mit der sich über Zahlen und einigen wenigen Wörtern - wie "rauf" und "runter" etwa - Maus und Tastatur steuern ließen. Das Szenario kommuniziere mit dem E-Mail-Programm, der Open-Source-Multimedia-Software MediaPortal, Skype sowie Firefox. Für jede andere Softwarevariante müsse ein eigenes Szenario geschrieben werden.
Mit "Husten" den Computer steuern
Mit dem bisher noch sehr einfach aufgebauten Kommunikationssystem kann etwa mit Hilfe des Firefox-Add-ons "Mouseless Browsing" im Internet gesurft werden. Das Plug-in hinterlegt die Links einer Website mit Zahlen. Wird eine Zahl genannt, kann damit der gewünschte Link geöffnet werden. Eine virtuelle Tastatur ermöglicht die Texteingabe, damit lassen sich auch E-Mails schreiben.
Auch am Desktop lässt sich die Zahlensteuerung einsetzen. Die Bildschirmfläche wird zu diesem Zweck von der Software in neun Teile geteilt. Nach dem Nennen einer Zahl wird der jeweilige Ausschnitt eingezoomt und erneut unterteilt. Der Vorgang lässt sich bis zu viermal wiederholen, bis der gewünschte Button erreicht wurde.
Im Hintergrund von "Simon" steht das Sprachmodell, das dem Computer hilft, das Gesagte zu erkennen und auszuführen. Ein wesentlicher Unterschied zu bereits bestehender Spracherkennungssoftware sei, so Stieger, dass "Simon" mit generellen Sprachen umgehen könne, aber auch ein eigenes Sprachmodell kreiert werden könne. Das Interface lasse sich so auch mit selbst aufgenommenen Lauten wie Husten, Kichern und Schnäuzen steuern.
Statisches Modell mit Trainingsmodul
Drei Sprachmodell-Varianten bietet "Simon" an: Zum einen das statische Modell, das die Zahlen von null bis neun und logische Wörter wie "zurück" und "schießen" umfasst und eigentlich nicht trainiert werden müsse, sofern der Nutzer deutlich sprechen könne. Das zweite Modell wird vom User generiert und muss von ihm trainiert werden.
Die dritte Variante kombiniert die ersten beiden. Ergänzt mit dem Trainingsmodul für Personen mit Sprachproblemen, werde das Sprachmodell um neue Töne erweitert und an die Stimme des Sprechers angepasst. "Das heißt, ich kann mit schlecht sprechenden Personen schnell trainieren, das ist der innovative Aspekt dabei", erklärt Stieger.
Sprachgesteuerte Hausanlage
Derzeit arbeite das Team in einem weiteren Projekt an einem Sprachmodell für Senioren. Mit "'Simon' reden sie in Zahlen und Wörtern" und würden ohne PC-Kenntnisse einen Zugang zum Internet bekommen. Auch Licht, Heizung und Fenster ließen sich so bedienen, denn die Software mit der Haussteuerungsanlage zu koppeln sei kein Problem und wäre eine kostengünstige Lösung. In Seniorenheimen ließe sich damit auch das Personal entlasten, nachdem nicht mehr für jeden Handgriff Hilfe benötigt werde.
Im ersten Schritt müsse das Szenario definiert werden, also Überlegungen angestellt werden, was funktionieren soll, erklärt Stieger die Arbeitsschritte. Danach würden die theoretischen Wörter und Begriffe selektiert und mit einem ersten Prototyp gemeinsam mit den Senioren geprobt. Wobei auch bestimmte Situationen berücksichtigt würden, wie die Entfernung des Mikrophons zur Person, wenn diese etwa bettlägerig sei.
Aufwendiger Arbeitsprozess
"Dann werden mit etwa 50 bis 100 Personen Aufnahmen gemacht", beschreibt Stieger den aufwendigen Prozess. Ein einzelnes Wort müsse von verschiedenen Personen und in verschiedenen Situationen aufgenommen werden. "Je mehr Sprecher und je mehr unterschiedliche Situationen, desto höher die Erkennungsrate".
Die praktische Erfahrung habe gezeigt, dass ein Wort etwa fünfmal von jeder Stimme aufgenommen werden müsse, um ein gutes Ergebnis zu erzielen. Hat die Person ein Handicap, dann seien etwa fünfzehn Aufnahmen notwendig. Für die Aufnahmen habe der Verein das eigene Programm Simon Sound Collective entwickelt, damit "können wir die Sprachaufnahmen dezentral sammeln".
Theoretisch ist "'Simon' in alle Sprachen der Welt transferierbar. Wir werden aber nie die Ressourcen haben, für jede Sprache ein Paket zu erstellen". Denn für die Bearbeitung von einer Stunde seien drei bis vier Wochen Arbeit notwendig, erläutert Stieger. Für die Aufnahmen habe der Verein die Hilfe von Schülern erhalten.
Spracherkennung technisch gesehen
Simon arbeitet mit der freien Spracherkennungsengine "Julius", die auf den Umgang mit großen Wortschätzen spezialisiert ist, und auf dem Hidden-Markov-Model (HMM) basiert. Grob zusammengefasst wird bei diesem Modell das gesprochene Wort in einzelne Lautbestandteile - Phoneme - zerlegt und mit dem im System gespeicherten Modellen verglichen. Ein Wörterbuch – in diesem Fall das digitale Wörterbuch HADI-BOMP aus Bonn - setzt daraus die möglichen Wörter zusammen.
Zu Schluss kommt ein Grammatikmodell zum Einsatz, das die Wahrscheinlichkeit der Wortkombination berechnet und so das richtige Wort finden soll. "Für das HMM muss eine eigene Grammatik programmiert werden", erläutert Stieger. Schüler der ersten und zweiten Klasse Volksschule würden mit einer sehr einfachen Satzstruktur arbeiten, weshalb das System dort gut funktioniere.
Kostenfaktor
Eine wesentliche Rolle würden schließlich auch die Kosten einnehmen: "Die Dragon-Version, die es ab 200 Euro zu kaufen gibt, ist sehr teuer", meint Stieger. "Simon" hingegen ist Open-Source-Software und werde als kostenloser Download zur Verfügung gestellt. Das Programm steht unter der freien GPL-Lizenz und läuft unter Windows XP, Vista und demnächst auch Windows 7, und natürlich auch auf diversen Linux-Distributionen.
"Simon" läuft auf jedem derzeit erhältlichen Computer und Notebook. Die aktuell als Download angebotene Version der Software sei noch nicht perfekt. Sie müsse individuell angepasst werden, um sie zum Laufen zu bringen, "aber zu 90 Prozent sollte sie funktionieren", meint Stieger.
"Simon" für die Schule
Wichtig ist dem Sprachtherapeuten und Sonderschullehrer das ursprüngliche Anliegen: Diktation für spastisch gelähmte und schlecht sprechende Kinder. Diese seien nur motorisch und nicht geistig eingeschränkt, und "es ist besser, wenn die Schüler mit 'Simon' Sätze aufnehmen und es nutzen, anstatt dass man sie im Unterricht mühsam Kreise malen lässt", kritisiert Stieger. "Damit könnten sie auch dem Schulunterricht besser folgen."
(futurezone/Claudia Glechner)