Nina Habicht neue cmm360 Expertin rund um das Thema Voice Assistant und Voice User Interfaces

Ich freue mich, Nina Habicht als neue cmm360 Expertin an Bord begrüssen zu dürfen. Sie unterstützt strategisch und operativ Start-ups und Konzerne bei der Entwicklung von Produkten sowie Visionen. In der Schweiz ist sie seit 2011 als Autorin und Forscherin in den Bereichen AI Design, Conversational und Voice User Interfaces sowie Chatbot & Avatars unterwegs. Als Partnerin des Chatbot Start-ups Paixon realisiert sie Sprachassistenten, Chatbots und anspruchsvolle CUI-Projekte. Nebenbei doziert sie unter anderem an der Zürcher Hochschule für Angewandte Wissenschaften zum Thema Chatbot und Voice Assistant Coaching und Entwicklung. Auf der cmm360 Plattform wird Nina Habicht ab sofort regelmässig über spannende Themen wie Voice Assistans und Voice User Interfaces berichten. Zur Vorstellung haben wir uns über Ihre Passion, Ihren Background sowie Ihre Meinung über Zukunft und Anwendungsfälle der Technologie unterhalten.

Liebe Nina, kannst du mir und den cmm360 Lesern eingangs erzählen, wie deine Passion entfacht ist und wie du dir deine Expertise für das Thema Voice aufgebaut hast?

2008 kam ich erstmals während meiner Tätigkeit bei der Bayer Healthcare AG in Kontakt mit digitalen Assistenten. Dort ging es um einen Bot für die Beratung rund um Krankheitssymptome. 2011 habe ich mich intensiv als wissenschaftliche Mitarbeiterin mit dem Thema “Avatars” auseinandergesetzt und ein kleines Programm eines sprechenden eCommerce Avatars geschrieben und dieses mit 550 Personen getestet. Es konnte statistisch bestätigt werden, dass Benutzer virtuelle Assistenten nicht nur wegen ihrer funktionalen Aspekte wie zum Beispiel die Steigerung der Bequemlichkeit durch Zeitreduktion und Suchoptimierung nutzen, sondern auch weil sie - ähnlich wie bei echten Menschen - soziale Motive erfüllen und Vertrauen aufbauen können. Die Studie wurde 2013 im Springer Verlag 2013 publiziert.

Während meiner Zeit als Consultant bei Zühlke Engineering kam ich schliesslich in Kontakt mit VoIP und Sprachtechnologien. 2018 entwickelte ich in meinem Chatbot-Projekt “Shoppi” - ein Conversational Commerce respektive Dealbot, der 2019 zur besten MAS-Thesis nominiert wurde. Aus meiner Passion zum Thema Voice Interfaces heraus entstand dann auch der Voicetechhub - eine unabhängige Plattform zur Förderung von Business Cases, Research und Tech Trends in diesem Bereich. Ebenfalls setze ich heute als Partnerin beim Chatbot-Entwicklungsunternehmens Paixon Sprachassistenten und Chatbots um.

Ich habe Betriebs- und Volkswirtschaft studiert mit Fokus auf Marktforschung, Statistik, Marketing und strategischem Management (MSc). Aufgrund meiner Tätigkeit in diversen Rollen als Projektleiterin, Business & Web Analyst, Business Developer und Head of Marketing im Tech-Umfeld habe ich mich stets sehr für Innovationen und Tech-Entwicklungen eingesetzt. 2019 absolvierte ich meinen MAS in Wirtschaftsinformatik.

Sind Voice Assistant in deinen Augen die Zukunft im Sinne von «Voice First» und warum?

“Voice First” wird oft im Zusammenhang mit Smart Speakern erwähnt. Ein Voice First-Gerät ist eine intelligente Hardware wie beispielsweise Google Home oder Amazon Alexa (einen Smart Speaker Überblick gibt es hier), bei dem die primäre Schnittstelle die Sprache ist, sowohl für die Eingabe als auch die Ausgabe. Unter “Voice First” versteht man aber auch eine strategische Entscheidung bei der Entwicklung und insbesondere beim Design eines neuen Converational Produktes. Hierbei heisst Voice First nicht, dass ein User Interface nur per Sprache ansprechbar ist und antwortet. Dies wäre Voice Only. Exzellente Voice First-Sprachassistenten sind holistisch, das heisst, sie kombinieren die Spracheingabe geschickt mit visuellen Ausgaben auf Screens.

Voice Assistants werden sich klar in den nächsten fünf bis zehn Jahren etablieren. Allerdings hängt es stark vom Anwendungsfall ab, ob die Voice First-Strategie sinnvoll ist. Per se würde ich nicht sagen, dass Sprache immer die beste Wahl darstellt. Beispielsweise haben taubstumme Personen grosse Nachteile bei Voice Only-Applikationen.

Deshalb sollte sich, bevor eine Sprachapplikation entwickelt wird, überlegt werden:

Ist der Use Case sinnvoll, um mit einer Konversation gelöst zu werden?
Macht der Use Case genau Sinn, weil die Hände in diesem Moment besetzt und die Augen bereits beschäftigt sind?
Erbringt der Use Case mit Voice einen wahren Mehrwert für den Endbenutzer?

Wo steht die Schweiz in puncto Einsatz und Anwendungen von Sprachassistenten im weltweiten Vergleich?

Die Schweiz steht ganz klar hinter Deutschland und den USA. Während in Deutschland bereits 60 % der Bevölkerung Sprachassistenten regelmässig nutzen, ist es in der Schweiz erst jeder fünfte Haushalt. In den USA nutzen rund ⅓, das heisst circa 112 Millionen Menschen mindestens monatlich Siri, Google Assistant, Samsung Bixby oder Cortana von Microsoft. Andere Studien, wie der Voice First-Barometer von 2020 sprechen bereits von jedem zweiten Schweizer und 21 %, welche mindestens einmal täglich Sprachassistenten nutzen. Es gibt allerdings klare Gründe für diese - vergleichsweise gesehen - schwache Adaption in der Schweiz: Gemäss SwissCognitive ist dank einer stabilen Wirtschaftslage und unter anderem darum, weil Amazon als Market Player in der Schweiz noch nicht sehr aktiv ist, die Dringlichkeit bei Schweizer Managern nicht so stark im Vergleich zu EU-Managern. Nicht zu unterschätzen ist, dass die Datenschutzbedenken relativ hoch sind und die unterschiedlichen Dialekte und Sprachen kaum “On-the-Fly” innerhalb eines Gesprächs verstanden werden können. Ebenso glaube ich, dass die Infrastruktur und die Grösse des Landes sowie die Mentalität eine Rolle spielen. So sind zum Beispiel ausserhalb der Schweiz die Fahrdistanzen grösser und das Einkaufen kommt für die ländliche Bevölkerung mit langen Fahrzeiten einher. Amerikaner und Deutsche verbringen somit mehr Zeit im Auto, wo Sprachassistenten wie beispielsweise Android Auto oder Echo Car einen starken Einsatz finden. Auch sind Online Bestellungen - das sogenannte V-Commerce - verfügbar und damit gang und gäbe.

Welche Entwicklungen oder Regulierungen braucht es noch in deinen Augen, um das zu ändern?

Grundsätzlich sollte über die Technologie genauer aufgeklärt werden. Google Assistant und Alexa sind beispielsweise stark in die negativen Schlagzeilen gekommen, weil Mitarbeitende Audio-Files abhören. Selten wird aber erklärt, dass es sich bei dieser Form von Sprachassistenten um Supervised Machine Learning handelt, das heisst, diese Assistenten müssen “überwacht” also anhand bestimmter Kontrollen und Regelparameter durch Menschen optimiert werden. Sie lernen nur deshalb menschliche Konversationen so präzise zu verstehen und zu beantworten, weil sie auf Basis riesiger Datensätze der Nutzer ihr Modell trainieren können. Jeder Anbieter - ob Apple, IBM, Google, Amazon, Samsung oder Microsoft - weist auf die Datenschutzrichtlinien hin, dennoch gibt es oftmals in der Praxis Unklarheiten, wenn ein Unternehmen auf Basis einer der Top 6 Tech-Provider eine eigene Applikation umsetzen möchte. Hier braucht es sicherlich noch Vorgehensweisen, Best Practices und Unterstützung von Rechtsberatern. Offiziell ist Amazon Alexa noch gar nicht in der Schweiz erhältlich und das Payment durch den Google Assistant ist hierzulande nicht freigeschaltet. Auch hier gilt es abzuwarten, wie sich der Markt entwickelt.

Welche Voice-Anwendungen sind demnach heute möglich oder sollte ich sagen sinnvoll und in welchem Umfang?

Google und Alexa geben unter anderem Auskünfte über das Wetter, die Uhrzeit, es lassen sich Push Notifikationen einrichten und Reminder setzen, damit keine Termine in Vergessenheit geraten. Die Entwicklung von eigenen Sprachassistenten für Smart Speaker und Smartphones auf Basis des Google Assistenten, sogenannte “Google Actions” beziehungsweise “Alexa Skills” für Amazon Alexa sind möglich. Auch kann Siri über das Developer-Kit von Apple in bestehende Apps integriert werden. Voice Assistenten gibt es für nahezu alle Lebensbereiche: für News und Wetter (zum Beispiel SRF, 20 Minuten), für Spiele und Quizzes, Einkaufslisten (zum Beispiel die Bring Shopping Liste), zum Erlernen einer Sprache (zum Beispiel Oxford Skill), zum Kochen, für Fahrplan- und Verkehrsmittelabfragen, Ferien und Tourismus, für Mediation (zum Beispiel Headspace) und Sport, Recruiting und Employer Branding, Kosmetik und Mode (zum Beispiel Sephora) und die Flugauskunft (zum Beispiel Swiss).

Wie gesagt, das Bestellen über die Sprache ist per April 2020 in der Schweiz noch nicht möglich. Selbstverständlich können auch eigene Anwendungen anhand einzelner Komponenten mit zum Beispiel Text-to-Speech (TTS), Speech-to-Text (STT) beispielsweise anhand von Amazon Polly (TTS), Cortana oder auch mit Nuance und IBM-Watson entwickelt werden. Je nach Anwendungsfall, Hardware, worauf der Assistent laufen soll, Funktionalitäten und IT-Umgebung eignet sich die eine oder andere Technologie besser.

Worin liegen die grossen Vorteile, die besten Experiences für User?

Es gibt klare Vorteile für den Nutzer:

Zugänglichkeit: Wenn die Hände und Augen besetzt sind wie beispielsweise beim Kochen oder Duschen und Autofahren. Hier insbesondere für Sehbeeinträchtigte eine klare Unterstützung.
Bequemlichkeit: Während dem Essen oder Duschen die Nachrichten Briefings vorlesen lassen? Sich als Bewerber direkt über das Unternehmen informieren, wenn es Ihnen beim Frühstück in den Sinn kommt?
Geschwindigkeit: Wir reden dreimal schneller als wir Tippen.
Natürlichkeit: Sprechen ist natürlich. Im Vergleich zum Graphical User Interface, schränkt Sprache den Nutzer nicht ein, ist weniger starr. Der Benutzer fragt nach und erhält die Antwort.

Nach deiner ganz persönlichen Einschätzung, wer muss sich noch mehr "entwickeln", um die Vorteile und Entwicklungen der Voice Technologie anbieten und auch nutzen zu können, Kunden oder Unternehmen?

Ich würde nicht sagen, dass sich jemand “entwickeln” muss. Vielmehr sollte man die Vorteile dieser Technologie als Unternehmen nutzen, denn sie ist kundenzentriert und stellt den Benutzer ins Zentrum. Millennials wollen Geschwindigkeit, Bequemlichkeit und Effizienz. Dies bieten Chatbots und Sprachassistenten. Sprache gibt es seit über 150’000 Jahre, sie wird natürlich als Kind erlernt, ist geschrieben und gesprochen das intuitive Kommunikationsmittel zwischen Menschen (nebst Gestik, Mimik und Malen). Menschen offenbaren Ihre Bedürfnisse und sagen etwas, dass sie allenfalls nie manuell eingegeben hätten. Was sich aus Konversationen als Unternehmen lernen lässt, sagt vielmehr aus als reine Web Traffic Daten. Kundenzentrierte Produkte lösen die Probleme und erfüllen die Bedürfnisse der Kunden. Wenn diese jedoch nie messbar sind, wird ein Produkt niemals in die Richtung entwickelt werden, dass es den Kunden in seinen Bann ziehen wird.

Was können wir im nächsten Jahr oder auch in den nächsten zwei Jahren erwarten?

Wir können mit einer starken Zunahme von Sprachassistenten rechnen. Kurz- bis mittelfristig mehr Google Actions und Alexa Skills, eine höhere Nutzung von Smart Speakern und anderen sprachgesteuerten Geräten wie Smart TVs, Swisscom Box und anderen. Ebenso werden wir Integrationen in bestehende Systeme, wie zum Beispiel Auto, Contact Center, Smart Home, Ticketautomaten, E-Banking oder Virtual Banking sowie im eCommerce antreffen. In zwei Jahren und später wird sich ein Ökosystem verschiedener Bots, die miteinander verbunden sind, entwickeln. Ein Indiz hierzu ist die Entwicklung von sogenannten “Mega Agents”. Das sind digitale Assistenten, die verschiedene Domänen handhaben können, weil sie aus einem Netzwerk von miteinander verbundenen Bots bestehen, welche alle einzeln auf ihrem jeweiligen Themengebiet Profis sind.

Sprachassistenten werden vermehrt in andere Tech Bereiche integriert werden: Sie werden mit VR oder AR kombiniert, sodass virtuelle Beratungen und Kundensupport-Gespräche möglich sein werden. Auch sieht man einen Trend hin zur Kombination von Decentralised Apps auf der Blockchain mit Digitalassistenten. Mit der Adaption im B2C Bereich, werden sie auch im B2B Bereich folgen: im Healthcare, bei der Medikamentenbestellungen und im Operationssaal, aber auch in der Warenbewirtschaftung und in der Industrie.

Zuletzt möchte ich darauf hinweisen, dass die Technologie nicht im Vordergrund steht, sondern vielmehr der passende Anwendungsfall und ein innovatives Ökosystem, wodurch der Kunde von der Vernetzung der Systeme profitieren kann. Ob sich ein solches Assistentennetzwerk etabliert, hängt auch stark von der Zusammenarbeit aller Partner und Unternehmen ab.