Computer im Mundl-Modus
Ein nun vorgestelltes Forschungsprojekt will dem Computer das Wienerische näherbringen. Von der gehobenen Umgangssprache, dem Schönbrunner Deutsch, bis zum Wiener Dialekt mit Ausdrücken wie "Nudlaug" und "Heast, G'schissana, hau di iba d'Heisa" soll der Computer mit seinem Nutzer in Zukunft auf verbaler Augenhöhe kommunizieren.
"Hallo, ich hör nichts", tönt es bei der Präsentation im Schutzhaus auf der Schmelz in Wien. "He, Nudlaug, wos is?", ist die etwas forscher formulierte Version - beides sind Beispiele, wie der Computer in Zukunft auf eine nicht erfolgte Eingabe reagieren könnte.
"Hallo, ich hör' nichts"
"He, Nudlaug, wos is?"
Wissenschaftler des interdisziplinären Forschungsprojekts unter der Führung des Forschungszentrums Telekommunikation Wien (ftw) haben dazu zwei Jahre lang an dem Projekt "Wiener Soziolekt und Dialektsynthese" gearbeitet.
An der Entwicklung beteiligt waren neben dem ftw das Österreichische Forschungszentrum für künstliche Intelligenz (ÖFAI), das Centre for Speech Technology Research (CSTR) in Edinburgh und das Wiener Institut für Schallforschung (ARI).
Von Schönbrunn bis Favoriten
Dabei wurden die Stimmen von vier Schauspielern und Sprechern (Hanno Pöschl, Helma Gautier, Stephan Pokorny und Julia Österreicher) in vier verschiedenen Soziolekten (österreichisches Deutsch, Wiener Dialekt, Wiener Umgangssprache oder Schönbrunner Deutsch und Wiener Jugendsprache) aufgenommen und verarbeitet.
"Gehen Sie, geht das nicht ein bisserl deutlicher?" (Schönbrunner Deutsch, Helma Gautier)
"Du klingst, als warst du blunznfett" (Wienerisch für: "Du hörst dich an, als wärst du betrunken", Hanno Pöschl)
Zwei Ansätze für Sprachsynthese
Bei der Verarbeitung selbst kamen zwei Methoden zum Einsatz, erklärt Projektleiter Michael Pucher vom ftw. Die klassische Methode der natürlichen Sprachsynthese besteht darin, Texte sowie einzelne Sätze und Wörter aufzunehmen, die dann in einzelne Sequenzen zerschnitten und wieder zusammengesetzt werden. Der Vorteil dieser Methode sei, dass die Sprachausgabe relativ natürlich klinge, der Nachteil, dass dafür sehr viele Aufnahmen gemacht werden müssen, erklärt Pucher.
Bei der Methode der adaptiven Sprachsynthese wird die Sprache vorher analysiert und ihre einzelnen Merkmale abgetastet. Daraus wird ein Modell trainiert, das dann bei der Synthese zum Einsatz kommt. "Diese Methode geht davon aus, dass Sprache in zwei Prozesse zerlegt werden kann: erstens die durch die strömende Luft vibrierenden Stimmbänder und den Signalfilter Mund- und Nasenraum, der das Signal noch einmal modifiziert."
Dieses Quelle-Filter-Modell könne man in Hinblick auf die Signalverarbeitung sehr schön implementieren, und auch technologisch sei es besser nutzbar. Da es aber eine Idealisierung sei, höre man einen deutlichen Unterschied zur klassischen Methode, die viel natürlicher klinge. Ein weiterer Vorteil dieser Methode sei, dass man für die Synthese einer Stimme weniger Daten brauche und den Dialekt stufenlos einstellen könne, so Pucher.
Beispiele
"Nur kein Schmalz nicht habe ich gesagt" auf Wienerisch:
und im Schönbrunner Deutsch:
Kommerzielle Anwendung soll kommen
Die bestehenden Aufnahmen und Daten sollen auch kommerziell zum Einsatz kommen, etwa als Software, die dann Texte vom Bildschirm in österreichischem Deutsch vorliest. Für das Wienerische sei die Abdeckung noch nicht groß genug, um auch alle möglichen Inhalte generieren zu können, erklärt Pucher: "Wir können mit den vorhandenen Daten zwar theoretisch bereits alles synthetisieren, aber wir wissen noch nicht genau, wie wir das von der Orthografie auf das Phonetische umsetzen sollen."
In technischer Hinsicht sei ein Dialekt nicht schwieriger als Hochsprache, es würden allerdings öfter Ressourcen wie Texte, Lexika und entsprechende Vorarbeiten fehlen, da Dialekte sich ökonomisch nicht so sehr rechnen würden. "Für Englisch gibt es viel, auch für Deutsch, aber für Österreichisch gibt es nichts, und für Roma-Sprachen etwa gibt es auch nichts", so Pucher.
Wienerisch vorerst nur für Demonstrationen
Für das Wienerische werde es daher vorerst vor allem spezielle Anwendung wie den bei der Vorstellung präsentierten Restaurantguide geben, der einem Anrufer in den vier aufgenommenen Ausprägungen im Dialogsystem Restaurants empfiehlt - inklusive "Nudlaug". Die Anwendungsdemonstration sowie weitere Soundfiles dazu sollen nächste Woche auf der ftw-Website publiziert werden.
"Heast, G'scherda, i vasteh di ned"
("Zugereister, ich verstehe dich nicht")
"Heast, G'schissana, hau di iba d'Heisa"
(Sehr unflätiger Ausdruck für: "Geh mir aus den Augen")
Beiden Versionen der Sprachsynthese ist ihre künstliche Erzeugung zum Teil noch sehr deutlich anzumerken, und nicht immer kann man das Gesprochene auch richtig verstehen, wie etwa Gautier nach der Präsentation anmerkte. Es werde auch noch einiges an Forschung brauchen, um den Computern ein halbwegs menschliches Ausdrucksvermögen mit etwa unterschiedlichen Stimmlagen näherzubringen, so Pucher.
(futurezone/Nadja Igler)