Spracherkennungssoftware – taugt das was?

Da ich des Öfteren längere Texte verfasse, habe ich mir mal Gedanken gemacht, ob Siri, Dragon Naturally Speaking für Windows u.ä. Diktiersoftware heute praxistauglich eingesetzt werden können. Bereits 2003 ein Thema, habe ich vor 10 Jahren teile meiner Diplomarbeit einmal mit Dragon Naturally Speaking verfasst. Damals aber war Diktiersoftware noch relativ neu, sodass ich nicht durchgehend gute Ergebnisse erzielen konnte. Die Frage für mich lautete also: Heute, 10 Jahre später sollte diese Art von Software doch viel ausgereifter sein als früher und die Ergebnisse entsprechend gut sein. Ist das tatsächlich so?

Mein Anwendungsfall

Zugrunde liegt in meinem Fall das Schreiben von längeren deutschen und englischen Spezifikationen mit Microsoft Word. Wo und wann ich die Texte erfassen will, sollte keine Rolle spielen.

Bezogen auf diesen Anwendungsfall bietet sich bei mir am PC der Platzhirsch Dragon Naturally Speaking und im mobilen Einsatz (z.B. im Hotelzimmer) Siri auf dem iPhone und iPad an.

Zu berücksichtigende Störfaktoren

Leider sind bei mir auch einige nicht zu unterschätzende Störfaktoren wie Umgebungsgeräusche vorhanden, die den Einsatz von Diktiersoftware üblicherweise erschweren:

  • Motorgeräusche während einer Fahrt im Bus, in der Bahn etc.
  • Kindergeräusche im Hintergrund
  • Telefonierende Kollegen

Darüberhinaus bin ich etwas Scheu, was das freie Sprechen mit einem Computer angeht. Ich finde diese Art der Eingabe doch recht merkwürdig. Es gehört einige Überwindung dazu, völlig frei trotz aller Konzentrationsstörungen in das Mikrofon zu sprechen. Aber das gibt sich nach kurzer Zeit der Gewöhnung und kommt nicht wieder zurück.

Ein Praxistest

Ich habe nun mal einen Test gemacht und diesen Anwendungsfall einmal mit den genannten Anwendungen auf Herz und Nieren getestet. Das Ergebnis ist eigentlich recht positiv:

  • Sätze werden generell schon nach einem kurzen Training gut erkannt. Siri benötigt kein Training.
  • Kleine Versprecher werden fehlertolerant versucht zu korrigieren
  • Die Eingabe geht sehr schnell vonstatten
  • Viele Zusatzfunktionen wie Steuerung des PCs möglich

Es gibt aber auch Schattenseiten

  • Dialekte werden nicht gut erkannt
  • Satzzeichen müssen mitdiktiert werden
  • Ähnlich klingende Wörter können bei unklarer Sprechweise falsch erkannt werden. z.B Unfall -> Umfall. Diese sind schwer zu finden und zu korrigieren.
  • Im mobilen Einsatz müssen die Texte von Siri als Notiz erfasst und in ein Word Dokument gebracht werden – umständlich.
  • Umgebungsgeräusche verhindern zuverlässige Erkennung

Fazit für mich

Diktiersoftware ist heute deutlich weiter als vor 10 Jahren. Da trägt aber nicht nur die Software selbst zu bei sondern auch moderne Hardware, die dank schneller Multikern-Prozessoren auch sehr viel flotter arbeiten.

Insgesamt sind die Systeme aber schon sehr ausgereift. Insbesondere hat Apple dank Siri viel dazu beigetragen, dass man nicht mehr wie ein Außerirdischer angestarrt wird, wenn man mit einem Computer oder Handy spricht. Es wird zunehmend zur Normalität, mit elektronischen Hilfsmitteln jahrtausende alte menschliche Vorgänge durchzuführen.