© ORF.at/Barbara Wimmer, Besound 5 von Bang & Olufsen

Musikalische Intelligenz für die Maschine

FORSCHUNG
03.08.2009

More Of The Same (MOTS) ist ein Musikempfehlungssystem aus Österreich, das nicht auf der Analyse von Metatags und Hörergewohnheiten beruht, sondern ausschließlich Audioaufnahmen analysiert und die musikalischen Ähnlichkeiten der Musikstücke in statistischen Modellen berechnet. Das klingt kompliziert, macht dem Musikliebhaber das Leben aber einfacher.

Am Österreichischen Forschungsinstitut für Artificial Intelligence (OFAI) wurde in den letzten Jahren ein Computeralgorithmus entwickelt, der digitalen Audiosystemen musikalische Intelligenz einhauchen soll: MOTS. Der Algorithmus, der hinter dieser Technologie steckt, ist dazu da, dem Menschen das Erstellen von Playlists abzunehmen, ohne dass dieser mit einer wahllosen Wiedergabe seiner Musikfiles konfrontiert wird.

"Wenn Sie ein Lied ausgesucht haben und dieses langsam zu Ende geht, spielt die Anlage weiter und wählt dabei Musik aus, die zu Ihrer ersten Auswahl passt", erklärt Gerhard Widmer, Abteilungsleiter am OFAI und Vorstand des Instituts für Computational Perception der Johannes Kepler Universität Linz, den Sinn der neu entwickelten Technologie.

Audioaufnahme als Grundlage

Die Entwicklung von MOTS wurde vom Wissenschaftsfonds FWF gefördert.

Der Computeralgorithmus analysiert dabei alle Audioaufnahmen, die auf der Festplatte gespeichert sind und versucht, Musikstücke zu finden, die ähnlich sind. "Es weiß dabei weder zu welcher Stilrichtung ein Musikstück gehört noch das Produktionsjahr oder das Tempo", so Widmer gegenüber ORF.at.

Das unterscheidet MOTS etwa von dem US-Musikempfehlungssystem Pandora und die Genius-Funktion von Apple, die ebenfalls automatisierte Playlists erstellt, die stilistisch zusammenpassen sollen. Die Funktion ist in iTunes 8 integriert, und dabei werden im Gegensatz zu MOTS die Metainformationen von Musikstücken aus der Mediendatenbank analysiert sowie die Einkaufsstatistik aus dem Apple Store ausgewertet.

Klang und Rhythmus entscheidend

MOTS, von Dominik Schnitzer am OFAI entwickelt, analysiert die Musikstücke rein mathematisch: Es berechnet abstrakte Muster, "Features" nach zwei Arten: Klang und Rhythmus. Diese beiden Aspekte sind auch für die menschliche Wahrnehmung von Musik entscheidend. Die Maschine sucht dabei nicht nach dem Takt oder bestimmten Instrumenten, sondern analysiert etwa, bei welcher Frequenz der Bass einen starken Peak hat.

Die Kompressionsrate von Musikstücken ist dabei nicht entscheidend. "Die Stücke klingen ja trotzdem noch unterschiedlich, auch wenn sie aufgeblasen sind. Wenn eine Trompete spielt, hat diese eine andere Klangfarbe, als wenn eine Gitarre zu hören ist", sagt Widmer.

Rechnen mit reduzierten Informationen

Bei der Analyse werden die Informationen der Musikstücke stark reduziert. Egal, wie groß die Musikdatei vorher war: Es bleiben am Ende lediglich 800 Zahlen oder 3,2 Kilobyte übrig. Diese fixe Zahlenmenge ist notwendig, um die Musikstücke miteinander vergleichbar zu machen. "Natürlich gehen dabei Informationen verloren, aber es ist nicht jedes Bit in einer Audioaufnahme relevant für unseren Höreindruck", so Widmer.

Die übrig gebliebenen 800 Zahlen pro Musikstück stellen das statistische Modell dar, mit dem MOTS anschließend nach mathematischen Ähnlichkeiten sucht. Dazu wird ein Ähnlichkeits- und Distanzmaß definiert, anhand dessen die Maschine entscheidet, wie ähnlich sich die Musikstücke sind.

"MOTS hört nicht wie ein Mensch"

Die Maschine muss etwa bei 10.000 Musiktiteln, die auf einer Festplatte gespeichert sind, 50 Millionen Ähnlichkeiten ausrechnen und diese bei der Auswahl eines bestimmten Songs binnen kürzester Zeit live nach deren Ähnlichkeit sortieren. "Natürlich kann es dabei auch zu Überraschungen kommen", sagt Widmer, "MOTS hört Musik ja nicht wie ein Mensch."

Melodien, Vocals, Instrumente, Genre und Tempo - Eigenschaften, die Menschen völlig selbstverständlich mit Musik assoziieren - werden vom Computeralgoritmus nicht erkannt. "Das ist alles zu schwierig für den Computer. Es gibt auf der ganzen Welt noch keinen Rechner, der nur das Tempo einer Musikaufnahme zu 100 Prozent exakt erkennen kann", erklärt Widmer. Beim Testen des Ähnlichkeitsmaßes wurde allerdings sehr wohl darauf geachtet, ob die Ergebnisse innerhalb eines Genres liegen.

FM4 Soundpark-Relaunch

Der Radiosender FM4 hat sein Empfehlungssystem verbessert, das ebenfalls am OFAI entwickelt wurde. Statt wie bisher drei lassen sich jetzt bis zu fünf Songs, die ähnlich klingen, direkt auswählen. Der Soundpark-Player zeigt außerdem in netzwerkartiger Optik die letzten Songs an, die man gehört hat, um auch wieder zu vorher gehörten Titeln zurückspringen zu können.

"Falls bei gewissen Musikstilen, die sehr eigen sind, immer wieder die gleichen Songs empfohlen werden sollten, kann man jetzt via "Shuffle"-Funktion auch in verschiedene andere musikalischen Gefielde vorstoßen," erklärt Arthur Flexer, Wissenschaftler am OFAI, der das Projekt betreut.

Integration in Audioplayer

Die ausgereifte MOTS-Technologie wurde nicht nur zu reinen Forschungszwecken entwickelt, sondern für das dänische Unternehmen Bang & Olufsen. Es ist seit kurzem in einem digitalen Audioplayer des Herstellers, dem BeoSound 5, integriert. Der Audioplayer besitzt eine Speicherkapazität von 500 GB und kostet 4.765 Euro. Bang & Olufsen verzeichnete trotz des stolzen Preises bereits vor dem Verkaufsstart 500 Vorbestellungen. Der Konzern verlängerte daraufhin umgehend die Zusammenarbeit mit dem OFAI.

Ein dem B&O-Verfahren ähnlicher, allerdings etwas abgespeckter Algorithmus arbeitet auch seit etwa einem Jahr im Soundpark von FM4. "Auch da ergibt es Sinn, weil man mit dem Empfehlungssystem auf neue, unbekannte Musiker stößt, deren Werke man sich dann anhören kann", so Widmer.

Internet als zusätzliche Informationsquelle

Derzeit arbeitet man am Institut für Computational Perception in Linz in Kooperation mit dem OFAI bereits an einer Weiterentwicklung von Musikempfehlungssystemen. "Wir wollen Informationen aus dem Audiosignal mit Metadaten kombinieren. Der Computer holt sich dann, wenn er den Namen der Band kennt, automatisch Informationen aus dem Internet zu dem Künstler, die nicht aus der Musik erschließbar sind", erklärt Widmer den nächsten Schritt, an dem gerade geforscht wird.

Die Sinnhaftigkeit einer solchen Zusammenführung liegt auf der Hand: "Wenn eine Sängerin im Internet immer wieder mit den Begriffen Feminismus und Politik assoziiert wird und eine zweite auch, dann könnte der Computer das erlernen und als zusätzliches Kriterium bei der Ähnlichkeitsberechnung heranziehen", beschreibt der Forschungsleiter die Möglichkeiten. An der genauen Vorgehensweise wird derzeit intensiv getüftelt. Bei Begriffen wie "Prince", die mehrere Bedeutungen haben, oder an Tagen, an denen ein Popidol wie Michael Jackson stirbt, könnte es für einen Computer nämlich schwierig sein, zu wirklich relevanten Ergebnissen für eine Ähnlichkeitsberechnung im Internet zu gelangen.

Mehr zum Thema:

(futurezone/Barbara Wimmer)