Eine hörbare Dokumentation
Microsoft bietet unter Windows sogenannte Natural Voices an.
Diese Stimmen werden ausdrücklich im Kontext von Barrierefreiheit beworben und sollen Menschen ermöglichen, sich Texte vorlesen zu lassen, um am digitalen Alltag teilzuhaben.
Aktuell stehen im Deutschen zwei solcher Stimmen zur Verfügung: Katja und Konrad.
Was „Natural“ in diesem Zusammenhang bedeutet, lässt sich leicht überprüfen. Man muss nur zuhören.
Dieser Beitrag dokumentiert genau das.
Nicht theoretisch, nicht über technische Spezifikationen, sondern hörbar.
Beispiel 1: Verständliche Sprachausgabe
Im ersten Beispiel hörst du einen neutralen Text, vorgelesen mit der Sprachausgabe von OpenAI, Sprecher Cove.
Der Text selbst ist sachlich, ruhig und ohne rhetorische Effekte. Er verlangt keine Interpretation, sondern lediglich eine saubere Aussprache, sinnvolle Betonung und eine nachvollziehbare Satzmelodie.
Das Ergebnis ist verständlich.
Nicht perfekt, aber mühelos hörbar.
Der Text kann aufgenommen werden, ohne zusätzliche kognitive Anstrengung.
(Audio: OpenAI – Cove)
Beispiel 2: „Konrad Natural“ unter Windows
Im zweiten Beispiel wird derselbe Text mit der Windows-Sprachausgabe Konrad Natural vorgelesen.
Der Text ist identisch.
Geändert hat sich ausschließlich die Stimme.
Was dabei entsteht, ist kein stilistischer Unterschied, sondern ein Verständlichkeitsproblem.
Wörter verlieren Konturen, Konsonanten werden unzuverlässig oder fehlen ganz, Satzgrenzen lösen sich auf. Der Text ist formal korrekt gesprochen und gleichzeitig kaum noch sinnvoll erfassbar.
Das ist kein Einzelfall und keine Geschmackssache.
Das ist das Ergebnis einer Stimme, die unter dem Label Natural als Hilfsmittel zur Barrierefreiheit ausgeliefert wird.
(Audio: Windows – Konrad Natural)
Einordnung
Barrierefreiheit bedeutet nicht, dass etwas „irgendwie funktioniert“.
Sie bedeutet, dass Menschen Informationen ohne zusätzliche kognitive Arbeit aufnehmen können.
Eine Vorlesestimme, die nur mit viel Kontext, innerer Rekonstruktion oder statistischem Raten verstanden werden kann, verfehlt dieses Ziel.
Sie verschiebt die Arbeit vom System auf den Nutzer.
Dass eine verständliche, natürlich wirkende Sprachausgabe im Deutschen technisch möglich ist, lässt sich bereits heute belegen.
Das zeigt nicht nur die hier verwendete Sprachausgabe von OpenAI, sondern auch die Microsoft-eigene Stimme Katja Natural.
Das Problem liegt daher nicht in der Sprache, nicht in fehlender Rechenleistung und nicht im Stand der Technik.
Es liegt in der Umsetzung einzelner Stimmen und in der Frage, welche Qualitätsmaßstäbe dafür angelegt werden.
Wenn Barrierefreiheit adressiert wird, ohne die tatsächlichen Nutzeranforderungen ernst zu nehmen, entsteht genau dieser Widerspruch:
Ein gut klingendes Label trifft auf eine Stimme, die Teilhabe erschwert.
Der Rest dieses Beitrags braucht keine weitere Erklärung.
Wer zuhört, hört es selbst.