Alexa, wer ist der Boss?

Es ging breit durch die IT-Medien: Amazon Alexa ist nun auch (ohne Einladung) in Deutschland erhältlich, als potenter Lautsprecher Echo und als kleine Dose Dot. Höchste Zeit also, mir die virtuelle Assistentin genauer anzuschauen bzw. -hören.

alexa-wer-ist-der-boss (1).jpg 

Beworben werden ihre Fähigkeiten als universelle Assistentin, um unter anderem Musik und Hörbücher abzuspielen, Nachrichten vorzulesen, Infos zu Verkehr, Wetter, Sport und anderen Themen bereitzustellen. Auch Lampen, Thermostate und viele weitere IoT-Geräte sollen gesteuert werden können. Das hört sich ja schon ganz schön umfangreich an. Doch wie klappt das in der Praxis?

Verblüffung und Ernüchterung

Der erste Eindruck ist vielversprechend! Die neue Mitbewohnerin weiß ad-hoc wie das Wetter morgen wird, wer Angela Merkel ist und sie kann Radiosender abspielen. Fragt man Alexa nach einem Witz oder Chuck-Norris-Fakt, bekommt man kurzweiligen Spaß:

  • Was sind die letzten Worte einer Giftschlange? Mist, jetzt hab ich mir auf die Zunge gebissen!
  • Sagt die 0 zur 8: Schicker Gürtel!
  • Als Alexander Graham Bell das Telefon erfand, hatte er zwei verpasste Anrufe von Chuck Norris.

Auch Wetter- oder Wissensfragen werden solide beantwortet. Aber sobald es ins Detail geht, zeigt die deutsche Spracherkennung ihre Schwächen. Ich habe zum Beispiel den Rating Checker für Filme und Serien installiert und versucht, die Bewertung des ein oder anderen Films abzufragen. Allerdings hat die gute Alexa keinen meiner Filme erkannt – und das lag hoffentlich nicht an meiner Aussprache ;-)

  • Alexa, öffne Rating Checker
  • Willkommen bei Rating Checker für Filme und Serien. Du kannst beispielsweise die Frage stellen: ‘Welches Rating hat Game of Thrones?’... Nun, womit kann ich dir helfen?
  • Welches Rating hat The Incredibles?
  • Der Film ‘Head Trip’ hat ein IMDb-Rating von 7.8.
  • Welches Rating hat Jurassic Park?
  • Sorry. Ich konnte keinen Film oder Serie mit dem Titel ‘rosick park’ finden.
  • Welches Rating hat Dark Beach?
  • Die Serie ‘Hart to Hart’ hat ein IMDb-Rating von 6.7.

Neuer Versuch: Steuerung meiner Smarthome-Komponenten, eines meiner Primärziele.

Dieser Anleitung folgend habe ich es nach einiger Frickelei geschafft, meinen openHAB-Server mit Alexa zu koppeln (via eigenem Smarthome-Skill in der Amazon Cloud – wer myopenhab nutzt, kann jedoch auf den offiziellen openHAB-Skill zurückgreifen), so dass Lichter und Rollläden von Alexa gesteuert werden können:

  • Licht im Wohnzimmer
  • Licht in der Küche
  • Licht im Esszimmer
  • Rollladen im Wohnzimmer
  • Rollladen in der Küche
  • Rollladen im Esszimmer

Aber auch hier tritt schnell Ernüchterung ein:

  • Alexa, schalte Licht im Wohnzimmer an
  • Ich habe mehrere Geräte mit diesem Namen gefunden. Welches wolltest du?
  • Licht im Wohnzimmer
  • OK
  • Alexa, schalte Licht in der Küche aus
  • Ich habe mehrere Geräte mit diesem Namen gefunden. Welches wolltest du?
  • Licht in Küche
  • Ich habe mehrere Geräte mit diesem Namen gefunden. Welches wolltest du?
  • Licht Küche
  • OK
  • Alexa, schalte Rollladen im Esszimmer an
  • Ich habe mehrere Geräte mit diesem Namen gefunden. Welches wolltest du?
  • Rollladen im Esszimmer
  • OK

Aber warum versteht uns Alexa so schlecht?

Bei der Definition von Skills für Alexa sollte im Idealfall das gesamte Vokabular im Vorfeld bekannt sein. Nur so ist laut Amazon eine möglichst genaue Spracherkennung möglich.

Das erklärt auf jeden Fall die Ungenauigkeit beim Rating Checker, denn man kann ja unmöglich alle möglichen Film- und Serien-Titel im Vorfeld angeben.

Zwar erlaubt Alexa die Nutzung vordefinierter Vokabeln, z.B. Zahlen, Zeiten, Vornamen und Städte. In vielen Kontexten sinnvolle Vokabeln wie z.B. Filmtitel, Sportmannschaften, Räume, Namen von Prominenten, Nahrungsmittel oder Farben sind aber (zumindest bisher) nur in US-Englisch verfügbar. Damit sind deutsche Skills aktuell ganz schön gehandicapt.

Erklären kann ich mir dieses Verhalten eigentlich nur so: Sofern Alexa weiß, welches Vokabular zu erwarten ist, kann die Spracherkennung wesentlich präziser arbeiten als wenn der gesamte Inhalt des Dudens erkannt werden soll. Das würde auch erklären, weshalb meine virtuelle Assistentin bei meinem sehr kleinen aber doch ähnlichen Smarthome-Vokabular wiederholt nachfragt.

Mit dieser Erkenntnis habe ich meine Geräte wie folgt umbenannt:

  • Licht → schaltet Licht im aktuellen Raum (Wohnzimmer)
  • Küche → Schaltet Licht in Küche
  • Esszimmer → Schaltet Licht im Esszimmer
  • Rollladen → Schaltet Rollladen im gesamten Erdgeschoss (wann lässt man schon mal einzelne Rollladen hoch oder runter?)

Und siehe da, jetzt verstehe ich mich auf einmal viel besser mit meiner neuen Freundin. Denn diese reduzierte und sehr unterschiedliche Menge von Gerätenamen wird absolut zuverlässig erkannt. Selbst wenn ich mich verspreche ("Alexa, schalte Wohnzimm... ähhh.. Esszimmer aus!"), wird das Licht im Esszimmer ausgeschaltet. Bingo!

Ich bin übrigens nicht der einzige mit diesem Problem. Diese Art der Verarbeitung von Spracheingaben basiert auf Technologien, die jede Menge Samples benötigen und daraus lernen – in diesem Fall ist der Kern Amazon Lex.

Das erklärt auch, weshalb die englische Spracherkennung wesentlich besser funktioniert als die noch sehr junge deutsche (21 Monate vs. 5 Monate ‘Erfahrung’). Angeblich sollen bald sogar Personen und Emotionen erkannt werden – wir sind auf jeden Fall gespannt, wohin sich die Spracherkennung und -verarbeitung entwickeln wird.

Wer hört eigentlich mit?

Das ist so eine Sache und insbesondere in Deutschland ein viel diskutiertes Thema.

Damit die neue Assistentin jederzeit zu Diensten stehen kann, muss sie natürlich auch permanent mithören. Dabei unterscheidet sich die Funktionalität von der 'Wakeword'-Erkennung (typischerweise 'Alexa', alternativ auch 'Amazon', 'Echo' oder 'Computer'), die offline arbeitet, von der Verarbeitung des danach Gesprochenen. Denn das nach dem Wakeword Gesprochene wird nicht offline sondern in der Cloud verarbeitet.

Das heißt, der Audio-Mitschnitt wird ungefiltert in die Amazon-Cloud nach Irland geschleust, verarbeitet, und beantwortet. Die Verarbeitung kann natürlich noch weitere Wege zurücklegen, z.B. auf meinen openHAB-Server und wieder zurück nach Irland.

Man muss Amazon schon vertrauen, wenn man sich einen derartigen Spion ins Haus stellt. Denn die Geräte sind Blackboxen, ob und was tatsächlich mitgehört und in die Cloud geschickt wird, kann man selbst nicht kontrollieren – wem das nicht gefällt, muss auf diese großartige Assistentin verzichten.

Aber wisst ihr überhaupt, welche Apps auf euren Smartphones, die ihr stets mit euch tragt, über das eingebaute Mikro gewollt oder ungewollt mithören – oder vielleicht sogar über die Kamera mitgucken? Denkt mal drüber nach ;-)

Fazit

Wie mit jedem neuen Gadget muss man zunächst lernen wie man es richtig benutzt. Im Falle von Alexa heißt das, seinen verwendeten Wortschatz passend einzuschränken, auch wenn es unnatürlich wirken mag.

Denn bei einem Sprachinterface ist die Gefahr enorm hoch, die Erwartungen nicht zu erfüllen, weil Gespräche bei uns Menschen alltäglich sind, die Maschinen jedoch noch weit am Anfang stehen.

Jetzt liegt es zum einen an den Skill-Entwicklern, robuste und von Alexa gut erkennbare Phrasen zu definieren, und zum anderen an Amazon, die Alexa deutsche Spracherkennung weiter zu tunen, sodass sie zumindest das Niveau der englischen Schwester erreicht.

Dieser Blog-Beitrag ist der erste einer Serie, die von unseren Erfahrungen und Experimenten mit Alexa berichtet. Weitere, auch (software-)technische Beiträge werden folgen. Zum Beispiel das Experiment, einen Fernseher zu steuern oder bestimmte Personen zu lokalisieren.

Diesen Artikel weiterempfehlen

    

Über den Autor

Patrick is a software engineer and consultant at itemis. He holds a PhD in Software Engineering from the Technical University of Denmark and is passionate about model-driven software engineering, amongst others as a member of the YAKINDU products development team.