Corti startet kliniktaugliche Speech-to-Text-KI

Freitag, 22.05.2026

3 min Lesezeit

Corti hat mit Symphony for Speech-to-Text eine neue Generation kliniktauglicher KI-Modelle für Echtzeitdiktate, Gesprächstranskription und Audioverarbeitung vorgestellt. Die Lösung soll die Genauigkeit sprachgestützter Anwendungen im Gesundheitswesen deutlich verbessern und eine zuverlässigere Basis für KI-gestützte klinische Assistenzsysteme schaffen. Laut Corti erreicht Symphony niedrigere Fehlerraten als etablierte Systeme und unterstützt medizinische Terminologie in mehreren Sprachen.

Corti, das europäische Forschungs- und Entwicklungsunternehmen für kliniktaugliche KI, hat Symphony for Speech-to-Text vorgestellt. Es handelt sich um eine neue Generation kliniktauglicher Speech-to-Text-Modelle für Echtzeitdiktate, Gesprächstranskription und Stapelverarbeitung von Audiodaten. Die neuesten Modelle erhöhen die Genauigkeit heutiger sprachgestützter Anwendungen im Gesundheitswesen. Zugleich bieten sie der nächsten Generation klinischer Agenten eine zuverlässigere Grundlage für sprachbasierte Schlussfolgerungen.

Zu den wichtigsten Forschungsergebnissen zählen:

Eine um bis zu 93 Prozent niedrigere Wortfehlerrate gegenüber führenden Sprachmodellen. Getestet wurde mit englischer, deutscher und französischer medizinischer Terminologie. Dabei lag die WER im Englischen bei 1,5 Prozent. Zum Vergleich: OpenAI erreichte 17,7 Prozent, ElevenLabs 18,1 Prozent, Whisper 17,4 Prozent und Parakeet 18,9 Prozent.
Klinisch nutzbare Formatierung mit einem Recall von 98,3 Prozent bei formatierten Angaben wie Dosierungen, Messwerte und Datumsangaben. Beim stärksten Referenzsystem lag der Wert bei 44,3 Prozent.
Klinische Diktierleistung auf dem Niveau von Dragon Medical One. Symphony erzielte bei realen englischsprachigen medizinischen Diktaten eine WER von 4,6 Prozent. Dragon erreichte 5,7 Prozent. Das entspricht einer Verbesserung um 19 Prozent. Zudem erzielt Symphony mit 93,6 Prozent im Vergleich zu 92,9 Prozent von Dragon den höchsten Recall für medizinische Fachbegriffe.
Durchgängige mehrsprachige Verbesserungen mit einer WER von 2,4 Prozent im Deutschen. Das nächstbeste System erreichte 13,0 Prozent. Im Französischen lag die WER bei 3,9 Prozent gegenüber 10,6 Prozent.

Warum das wichtig ist

Bei der Spracherkennung im Gesundheitswesen gab es bislang im Wesentlichen zwei Kategorien. Zum einen allgemeine Cloud-APIs für die Transkription in unterschiedlichsten Anwendungsbereichen, die bei klinischer Terminologie an ihre Grenzen stoßen. Zum anderen spezialisierte medizinische Diktiersysteme, die für ärztliche Diktate optimiert sind, aber nicht als Infrastruktur für die derzeit im Gesundheitswesen entstehenden Anwendungen rund um Ambient AI, Agenten und Echtzeit-Tools zur klinischen Unterstützung konzipiert wurden. Symphony for Speech-to-Text ist Cortis neueste Antwort darauf. Das System erzeugt über eine produktionsreife API strukturierte, klinisch nutzbare Ausgaben für ein breites Spektrum klinischer Arbeitsabläufe. Es hilft nachgelagerter KI, auf Grundlage präziserer Fakten statt nur sauberer Transkripte zu schlussfolgern.

«Sprache war schon immer eine der wichtigsten Eingaben im Gesundheitswesen», sagte Andreas Cleve, Mitgründer und CEO von Corti. «Heute verändert sich vor allem, was nach der Erfassung der gesprochenen Worte geschieht. Im Zeitalter agentenbasierter KI geht es bei Spracherkennung nicht nur darum, ein Transkript zu erzeugen. Es geht darum, KI-Systemen präzise klinische Fakten als Grundlage für Schlussfolgerungen bereitzustellen. Wenn ein Modell ein Medikament, eine Dosierung oder ein Symptom falsch versteht, wird jeder nachgelagerte Schritt weniger zuverlässig. Symphony for Speech-to-Text bietet Entwicklern im Gesundheitswesen eine Spracherkennungsgrundlage, die genau genug ist, um im klinischen Alltag zu bestehen.»

Early Adopters setzen Symphony bereits heute für die Spracherkennung in einigen der sprachlich anspruchsvollsten klinischen Umgebungen ein. Die Schweiz beispielsweise – wo die Patientenversorgung mehrsprachig erfolgt, oftmals sogar innerhalb ein und derselben Institution – stellt ein strenges Prüffeld für medizinische Mehrsprachigkeit dar.

«In einem klinischen Gespräch zählt jedes Wort – ein überhörter Medikamentenname, eine falsch verstandene Dosierung oder ein fehlerhaft notiertes Symptom können die Aussagekraft einer Begegnung verändern. Die Präzision von Symphony bei der klinischen Terminologie liefert uns das Fundament, um über unsere Plattform Voicepoint Xenon® noch zuverlässigere KI-Funktionalitäten in klinische Arbeitsabläufe zu integrieren», sagt Pierre Corboz, Head of Solutions & Business Development bei Voicepoint. «Wenn Corti die Spracherkennungsebene optimiert, werden die Arbeitsabläufe, die wir gemeinsam gestalten, präziser, sicherer und für die klinischen Fachkräfte noch nützlicher.»

Corti

Corti ist ein Forschungs- und Entwicklungsunternehmen für KI-Modelle und Infrastruktur im Gesundheitswesen mit Sitz in Kopenhagen, Dänemark. Das Unternehmen verfolgt die Mission, administrative Hürden zu reduzieren und medizinisches Wissen weltweit verfügbar zu machen. Cortis KI-Modelle lassen sich über APIs und SDKs nahtlos in bestehende Anwendungen integrieren und sollen Kosten senken sowie die Qualität der Versorgung verbessern.