Spracherkennung

Spracherkennung – Zukunft oder Vergangenheit

Während sich manche Technologien schneller entwickeln als sich irgend jemand hat jemals vorstellen können, scheint die Zeit für andere stehengeblieben zu sein. So hat z.B. der Mobilfunk nicht nur die alten Hasen der Fernmeldetechnik überrascht, indem er den Weg, wofür das Festnetz 100 Jahre gebraucht hatte, in nur 10 Jahren genommen hat. Er hat auch auch eine der modernsten und verwegensten Ideen (Iridium Projekt) zum Schrott degradiert, bevor sie überhaupt fertig war. Und die Führerschaft in Sachen Technologienutzung auf den Kopf gestellt – in den Entwicklungsländern gab es zwischenzeitlich mehr Mobiltelefone pro Kopf als in den Industrieländern. Diese Geräte heißen nur noch aus historischen Gründen Telefon. Sie werden viel seltener zum Telefonieren benutzt als für alle anderen Zwecke, seit sie Smartphone heißen. Dieses Gerät hat vor Allem die Wissenschaft überrascht, die eine vielzitierte Theorie zur Akzeptanz und Verbreitung neuer Technologien entwickelt hat, Allen voran die Diffusion of Innovations Theory von Everett Rogers (1962). Seitdem wurde das Konzept von Rogers in mehr als 110.000 akademischen Papieren zitiert. Aber keines davon hat das Kommen und den Erfolg von Smartphone vorgesehen können.

Das wohl seinerzeit bekannteste Gerät aus dieser Branche, das iPhone 4S, bediente sich einer viel diskutierten Technologie, der Spracherkennung. Siri heißt die Dame, die seit dem 4. Oktober 2011 immer artig alle Wünsche von den Lippen abliest und die entsprechenden Funktionen ausführt. Pizza Service anrufen, Adresse von einem Bekannten aussuchen, Lieblingsmusik abspielen etc. In den späteren Versionen vom iPhone wurde Siri weiter perfektioniert. Mittlerweile redet man nicht allzu häufig von Siri, weil selbst einfache Anwendungen wie MS Word eine Diktierfunktion bieten. Man kann während der Zoom-Konferenzen alles Gesprochene direkt transkribieren lassen.

Wenn man sich damit näher beschäftigt, wundert man sich, wie wenig Siri von den Fähigkeiten besaß, die eigentlich in den 1960er Jahren angedacht waren. Spätestens in den 1980er Jahren sollte der Spracherkennung der große Durchbruch gelungen sein.

Wie es denn im Jahre 2012 um diese Technik bestellt war, hat Ahmet Çakir in der Zeitschrift Computer und Arbeit beschrieben. Viel Licht – viel Schatten! Vor allem kann man nicht zuverlässig sagen, ob die Technik ihren Höhepunkt vor oder hinter sich hat. Die Eiserne Sekretärin, eine Dame, die das Gesprochene umgehend und ohne Murren zu Papier bringt, war Gerüchten nach von niemandem Geringeres als Marconi im Jahre 1909 erfunden worden, in dem Jahr, in dem er den Nobelpreis erhielt. Gesehen wurde die Dame aber nirgendwo. Sie erlebte Anfang der 1970er Jahre ein kurzes Comeback. Seit dieser Zeit sind auch die Sekretärinnen aus Fleisch und Blut langsam verschwunden. Schreiben tun mittlerweile fast alle ihre Briefe selbst. Die wenigsten aber durch eine direkte Eingabe in den Computer, was seit etwa 1990 technisch gut funktioniert.

Eines hat den Höhepunkt bestimmt noch nicht überschritten: Geld ausgeben für Forschung. Neu im Boot ist seit langem auch Google. Nicht zu vergessen – das Auto und alles drum herum. Wie schön wäre es, wenn man seinem Auto sagen könnte, wo es langgehen soll. Oder? Der Teufel steckt nicht im Detail, sondern im Prinzip. Man stelle sich vor, man sagt seinem Beifahrer „Mach mal jetzt halt“, und das Auto tut es. Oder gar der Beifahrer spricht den Befehl, wie Beifahrer es öfter tun wollen. Woher weiß das Auto, wer sein Herr bzw. seine Herrin ist? Und was gemeint ist? Soll einer, der gerade redet, halt machen? Oder das Auto?

Im Jahre 2023 konnte erstmals jeder eine künstliche Intelligenz bedienen, natürlich auch über die Spracheingabe. Wer es trotz häufiger Warnungen dennoch tut, wird beim Ergebnis nicht nur mit den Mängeln der KI konfrontiert – die erfindet einfach Fakten -, sondern auch mit den Fehlern der Spracheingabe.

Dies ist bei jeder neuen Anwendung und Technik üblich. Bei der Spracheingabe handelt es sich aber nicht um eine solche, da arbeitet man seit den 1960er Jahren dran. In üblichen Büros ist die Spracheingabe in Computer immer noch nicht allzu weit verbreitet, aber die Benutzung der Sprache als Kommunikationsmittel. Dies hat sich im Zuge der Computerisierung vervielfacht, weil die Maschine viele einfache Tätigkeiten geschluckt hat, so dass die übrig gebliebenen Arbeiten schlechter von der Maschine übernommen werden können. Daher sprechen Menschen viel häufiger bei der Arbeit. Und künftig wird das eher zunehmen.

Leider hat dies dazu geführt, dass der „Bürolärm“ als Störfaktor Nummer 1 oder Nummer 2 gilt. Und das, obwohl oder gerade weil praktisch alle lauten Geräte verschwunden sind. Der „Lärm“ besteht fast nur noch aus menschlicher Sprache, die aber gleichzeitig das Kommunikationsmittel ist. Wollte man die Spracheingabe z.B. statt der Tastatur noch weiter forcieren, wäre Lärm im Büro die garantierte Nummer 1.

Anm.: Wie man mit dem Thema erfolgreich umgeht, haben wir in der Norm ISO 9241-620 „Role of sound for users of interactive systems“ dargelegt. Wie man es nicht tun soll, kann man überall lesen, wo die Akustik im Büro behandelt wird, Pegel senken, wo es nur geht. Und Schallschirme aufstellen, bis keiner den anderen sieht. Die realen Erfolgschancen werden in VDI 2569 „Schallschutz und akustische Gestaltung in Büros“ so angegeben: „Abschließend muss erwähnt werden, dass nur zirka 30 % bis 40 % der Belästigungswirkung aus Lärm durch technisch-akustische Faktoren erklärbar sind.“

In ISO 9241-620 werden neben den Faktoren der technischen Akustik Massnahmen beschrieben, die der Reduzierung der Belästigung dienen können. Diese fallen situationsbedingt anders aus. Und sind aber auf jeden Fall nachweisbar wirksam. Aber der Umfang des Dokumentes (26 Seiten) deutet darauf hin, dass es sich um keine Kleinigkeit handelt. wie auch? Die Probleme wie auch die grundsätzlichen Lösungen zur Büroakustik sind in der Architektur seit den 1930er Jahren bekannt, also etwa 90 Jahre. Dass man in 2023 eine Norm schreiben musste, die die Situation verbessern soll, spricht Bände.

__Spracherkennung

Spracherkennung – Zukunft oder Vergangenheit

Spracherkennung - Zukunft oder Vergangenheit