Swisscom hat Ende 2019 eine dialogfähige Sprachsteuerung mit der Swisscom TV-Box gelauncht und schafft es mit zielgenauer Konzentration auf spezifische Use Cases ihrer Kunden, neben den Riesen wie GoogleHome und Alexa Kunden zu begeistern. Ich habe mit Mihajlo Zivkovic, Product Manager Voice, über die Entwicklung des innovativen Produkts und die Zukunft von Sprachsteuerung gesprochen.
Mich würde zum Einstieg in das Thema interessieren, wie das Voice Assistant Projekt bei Swisscom ins Rollen kam.
Zu Beginn des Jahres 2018 wurden wir beauftragt, eine Lösung für eine Sprachsteuerung zu präsentieren, die den Fokus auf die Dialogkomponente legt. Zu dieser Zeit gab es bereits Alexa, GoogleHome und in der Schweiz war Siri aufgrund der zahlreichen iPhone-Besitzer bereits stark etabliert. Das Swisscom Produkt sollte aber einen anderen Fokus legen als diese etablierten Produkte. Wir wollten nämlich eine Lösung auf den Markt bringen, die auf der Set Top-Box – die damalige Swisscom TV-Box – funktionieren würde. Dafür haben wir einen Prototyp gebaut, basierend auf Alexa, und simple Sachen angepasst. Dieser Prototyp war zwar noch keinesfalls dialogfähig, jedoch konnten wir das Management damit von der Technologie und deren Relevanz überzeugen, sodass die nächste Generation des Swisscom Fernsehens Voice Assistance haben sollte. Dies war der Start für das Voice-Projekt bei der Swisscom.
Kannst du den Entscheidungsprozess rund um die Entwicklung der Sprachsteuerung auf Swisscom TV erläutern?
Nachdem wir das grüne Licht vom Management bekommen hatten, diskutierten wir lange Zeit über zwei unterschiedliche Herangehensweise, wie die dialogfähige Sprachsteuerung technisch umgesetzt werden sollte. Eine Möglichkeit war, dass wir auf existierende Produkte wie Alexa oder GoogleHome zurückgriffen. Dies hätte den Vorteil gehabt, dass wir mit weniger Entwicklungsaufwand die Lösung schneller auf den Markt hätten bringen können. Die andere Möglichkeit war, eine eigene Lösung zu bauen und so mehr Freiheiten in der Gestaltung zu haben. Jedoch war bei dieser Variante die Umsetzung deutlich komplexer, gerade auch weil man für die Schweiz auf die Mehrsprachigkeit Rücksicht nehmen muss.
Trotz des grösseren Aufwands entschieden wir uns für die zweite Variante, zum einen, weil wir so ein eigenes «Wake Word» – das Wort, das den Sprachassistenten «aufweckt», sprich der Nutzer den Assistenten aktiviert, ihn anspricht – wählen konnten. In unseren Augen wäre es ungewöhnlich gewesen, wenn unsere Kunden unsere Swisscom TV-Box mit beispielsweise «Hey Alexa» hätten ansprechen müssen. So konnten wir uns für das eigene Wake Word «Hey Swisscom» entscheiden. Zum anderen war uns die maximale Sicherheit und Privacy ein grosses Anliegen. Gerade im Schweizer Markt ist es essenziell, die Kontrolle über das eigene Produkt zu haben und unsere Kunden vertrauen, dass wir ihre Daten an einem sicheren Ort aufbewahren. Ob dieses Vertrauen auf eine Lösung übertragbar gewesen wäre, die mit «Hey Alexa» angesprochen wird, war fraglich.
Die nächste wichtige Entscheidung, der wir uns zu Beginn stellen mussten, war die Frage nach dem richtigen Use Case. Da es intern so viele Use Cases gab, mussten wir sorgfältig wählen. Doch es war uns schnell klar, dass wir eine auf die Wünsche unserer Kunden massgeschneiderte Lösung für einen bestimmten fokussierten Use Case entwickeln mussten, um eine entsprechend hohe Akzeptanz seitens der Kunden zu erreichen und ein positives Erlebnis zu gestalten. Aus diesem Grund haben wir uns entschieden, unser Pilotprojekt rund um das Produkt «Fernsehen» und Content-Suche zu gestalten. Warum? Weil 90 % der Kunden Sprachsteuerung für die Suche im Entertainmentbereich bereits kennen und nutzen. Das kann zum Beispiel die Suche nach Filmen, Serien oder auch Musik sein. Die restlichen 10 % nutzten Sprachsteuerung im Bereich der Smart Home Anwendungen, also um Geräte ein- und auszuschalten oder um beispielsweise den Wetterbericht abzufragen.
Kannst du uns die Lösung hinter eurer eigenen Sprachsteuerung erklären? Wie ist dies aufgebaut und wie reagiert diese auf die unterschiedlichen Schweizer Dialekte?
Unser Voice Assistant als zentraler Control Hub ist so ausgelegt, dass alle erhältlichen Swisscom Produkte nach und nach integriert werden können. Um per Sprachsteuerung mit einem bestimmten Produkt interagieren zu können, braucht der Assistant den entsprechenden Skill. Zum Beispiel liegen hinter dem TV-Skill bestimmte Abläufe, sogenannte Flows, und dazugehörige Dialoge, die wiederum zusammen die sprachgesteuerte Suche ermöglichen. Die Herausforderung liegt in der natürlichen Sprachverarbeitung. Der Voice Assistant muss nicht nur die Worte, sondern auch die Intention dieser Worte verstehen, um daraus die richtige Schlussfolgerung ziehen und dann die gewünschte Aktion ausführen zu können. Auf den Alltag des Kunden übertragen, heisst das: hat der Kunde beispielsweise den gewünschten Film gefunden, dann könnte er «Okay» sagen oder «Abspielen», um diesen zu starten. Auf beide Worte muss der Assistant mit derselben Aktion reagieren, nämlich den Film starten. Aus diesem Grund haben wir in der Entwicklung eng mit Sprachexperten für die verschiedenen Sprachregionen in der Schweiz zusammengearbeitet, die die natürlichen Dialoge bestens kennen. Sie haben uns geholfen, diese dann im Assistant umzusetzen.
Um die Privatsphäre unserer Kunden optimal zu schützen, haben wir beim Mikrofon darauf geachtet, dass man es aktiv mit einem physischen Schalter einschalten muss, wenn man die Sprachsteuerung benutzen will. Auch auf diesen Punkt haben wir sehr viel Wert gelegt im Gegensatz zu Vergleichsprodukten. Nach sieben Sekunden schaltet sich das Mikrofon auch wieder automatisch aus. So geben wir unseren Kunden die Sicherheit, dass keine Gespräche aufgezeichnet werden und er die alleinige Kontrolle darüber hab, ob «jemand» zuhört.
Wann habt ihr dieses erste Pilotprojekt der Swisscom TV-Box mit Voice Assistant dann gelauncht?
Startschuss für das Projekt war im Januar 2019. Dann hatten wir zehn Monate bis zum Launch im November. Das war eine sehr kurze, intensive Entwicklungszeit. Dies war nur möglich, weil wir uns auf diesen einen spezifische Use Cases konzentrierten, sprich das Nischen-Targeting. Des Weiteren haben uns auch die anderen USP wie bspw. der Big Screen und das Multimodul ermöglicht, ein besseres Produkt zu entwickeln als die grossen, bereits am Markt etablierten Player.
Habt ihr nach diesem ersten Launch Kundenfeedback eingeholt und basierend darauf das Produkt weiterentwickelt?
Ja, das Kundenfeedback war sehr wichtig für uns. Einerseits mussten wir die Sensibilität des Wake Words «Hey Swisscom» genauer justieren, sodass es zu möglichst wenigen falschen Aktivierungen kam. Mit dem Update von Januar 2021 konnten wir die Häufigkeit der falschen Aktivierungen um 40 % senken. Ein wichtiges Learning war für uns, dass die Standards von Alexa und GoogleHome hier nicht gut genug für Swisscom-Kunden war. Sie gehen beide offiziell von ein bis zwei Falschaktivierungen aus.
Ein weiteres wichtiges Feedback war zur Datensicherheit. Neu werden die Daten von Kunden, die Swisscom verlassen, automatisch gelöscht. Die Daten derjenigen Kunden, die beim Onboarding die Einwilligung geben, dass wir ihre Nutzerdaten für die Verbesserung unserer Produkte geben, werden auch spätestens nach fünf Jahren ganz gelöscht. Ausserdem werden die Daten ausschliesslich in der Schweiz auf Swisscom Servern gespeichert.
Wie kommen Swisscom Kunden in den Genuss dieser Technologie? Ist der Assistant automatisch in jeder TV-Box eingebaut?
Nein. Kunden von Swisscom TV können wählen, ob Sie die Standard Set Top-Box mit der einfachen «Push-to-Talk»-Lösung haben möchten. In diesem Fall hat der Kunde die Möglichkeit einfache Sprachbefehlen per Knopfdruck auf der Fernbedienung zu geben. Oder er wählt die komplette Experience mit der dialogfähigen Sprachsteuerung, die Premium Set Top-Box. Mit dieser Version kann der Kunde ganz convenient mit seinem TV sprechen und natürlicher mit ihm interagieren. Nach dem Launch Ende 2019 wechselten jene, die begeistert waren, schnell von der «Push-to-Talk» Lösung auf die neue natürliche Sprach- Experience.
Wie geht es jetzt weiter mit der Technologie Voice Assistant bei Swisscom?
Ursprünglich war unser ehrgeiziges Ziel, die Fernbedienung ganz durch die Sprachsteuerung zu ersetzen. Wir mussten uns aber eingestehen, dass es sich für die Anwendungen, bei denen Sprachsteuerung nicht sinnvoll ist, nicht lohnt Zeit und Kosten zu investieren. Wir wollen die Kunden schliesslich nicht zwingen, Sprachsteuerung zu verwenden, wenn es mit der Fernbedienung einfacher geht. Es ist deshalb wichtig, dass wir uns auf die spezifischen Use Cases konzentrieren. Beispielsweise wollen wir die sprachgesteuerte Suche noch weiter verbessern. Hier zeigt sich der Nutzen von Sprachsteuerung offensichtlich dem Kunden, da er zum Beispiel nicht mehr wissen muss, wie der Name eines Schauspielers richtig sich schreibt. Auch spart er Zeit und muss nicht mehr lange durch verschiedene Titel scrollen.
Voice ist heute vor allem im Entertainmentbereich akzeptiert. Wo liegen aus deiner Sicht zukünftige Use Cases?
Das kann ich nicht so einfach beantworten. Die Use Cases orientieren sich ja immer an der gegebenen Situation. Während der Pandemie hat Sprachsteuerung bspw. einen Boost in der Autoindustrie erlebt. Dort macht es auch absolut Sinn, dass der Fahrer Befehle geben kann wie «Anrufen», «Navigieren» usw., ohne den Fokus von der Strasse zu nehmen. Ein weiterer Use Case könnte im Gesundheitsbereich liegen. Hier wird von verschiedenen an Lösungen für die Ersteinschätzung eines medizinischen Vorfalls zu Hause gearbeitet. Das heisst, dass man dem Voice Assistant sagen kann, was man hat und dieser dann eine Einstufung je nach Krankheit gibt.
Wichtig finde ich für alle Use Cases, dass Voice dort eingesetzt wird, wo es Sinn macht und dem Nutzer einen wirklichen Mehrwert bringt. Spannend finde ich auch den Unterschied der Generationen. Meine Kinder beispielsweise interagieren ganz natürlich per Sprachsteuerung, während ich mich selbst immer wieder daran erinnern muss, dass es das ja gibt. Eine Studie hat vor kurzer Zeit ermutigende Zahlen veröffentlicht: Bereits heute benutzen 44% der Leute Voice Assistenten ein- bis zweimal in der Woche, Potential steigend. Ich bin also zuversichtlich, dass in Zukunft noch einige spannende Anwendungen und Use Cases sehen werden – auch bei Swisscom. So kann beispielsweise das Kundenerlebnis mit einem intelligenten Voicebot erheblich verbessert werden. Swisscom CIM (Customer Interaction Management) ist unser Experte für Voicebot Projekte.
Swisscom
Kund*innen erwarten heute intuitive und unterhaltende Kauferlebnisse über ihre bevorzugten Kanäle. Unternehmen müssen deshalb eine reibungslose Digital Customer Experience bieten, um im Wettbewerb erfolgreich zu sein. Swisscom realisiert für Unternehmen umfassende Customer-Experience-Lösungen – von der Web- und App-Entwicklung über E-Commerce bis zu Audience Analytics. Mit ganzheitlicher Beratung und markterprobter Expertise schaffen wir bei Ihnen positive Kundenerlebnisse und stärken dadurch Ihre Kundenbindung.