Die Zukunft der Spracherkennung

Die Zukunft der Stimme
Ich erinnere mich noch an die Aufregung, die ich bei lesen eines der ersten Artikel fühlte, die in glühenden Worten die neuen mit Stift zu bedienenden 'Pen-Computer' diskutierten. Sie versprachen "revolutionär" zu werden, "der natürlichste Weg, ihren Computer zu bedienen" und daß sie "Legionen von Computer Usern an sich ziehen würden". Und es schien wahr zu werden - die Wahrheit ist, daß Pens in Verbindung mit Computern natürlich waren. Was könnte leichter und natürlicher sein, als einen Stift zur Hand zu nehmen?

Jetzt, sieben Jahre später, sind die Firmen, die die Pionierarbeit für Pens leisteten alle verschwunden: von Giganten geschluckt oder bankrott. Pen-Computer waren ein Flop und außer einigen sehr speziellen Anwendungen und dem gelegentlichen Apple Newton Anhänger gibt es heute keinen einzigen verbreiteten Computer mehr, der heutzutage mit einem Stift verkauft wird.

Wie kam es dazu? Schließlich lernt man die Nutzung eines Stifts viel leichter als die einer Tastatur oder einer Maus.

Die Antwort ist, daß der Pen den Maschinen, auf denen er laufen sollte, weit voraus war. Zu einem Großteil war die nötige Prozessorgeschwindigkeit nicht vorhanden, um Handschriften genau und schnell genug zu erkennen, schon gar nicht in einer Größe, die ein guter Pen Computer haben sollte. Ich erinnere mich an einem frühen IBM Pen Computer, den ich mal gesehen habe und der über 5 Kilo wog, mit einem passiven schwarz-weiß LCD Bildschirm, der bei hellem Tageslicht nahezu unlesbar war, der eine Batterielaufzeit von unter 1 Stunde hatte und einen 386SX Prozessor enthielt. Das nenne ich eine lahme Ente! Diese Maschine fristet jetzt wahrscheinlich ein Leben als Türstopper, was so ziemlich alles ist, wofür es zu gebrauchen war, als es zusammengeschraubt wurde. Ich bin sicher, daß es selbst für die heutigen schnellen Notebooks eine Herausforderung wäre, meine schnellste Handschrift zu lesen. Ich habe es ja manchmal schon schwer, meine eigene Handschrift zu lesen.

Sieht so auch die Zukunft der Spracherkennung aus? Die Sprachfunktionen in Merlin sind wirklich beeindruckend - und dem Stand von ein paar Jahren zuvor weit voraus. Ein Produkt zu haben, das mit einer ganz normalen Soundkarte funktioniert und die Möglichkeit bietet, seinen Computer ohne Training ziemlich gut zu steuern, war letztes Jahr noch völlig unmöglich. Aber jetzt - in einem Monat - wird ein kommerzielles Betriebssystem dieses Feature als Hauptverkaufsmerkmal beinhalten.

Ein Kollege erzählte mir kürzlich diese Geschichte: Er arbeitet mit einem Herrn zusammen, der einer der Vize-Präsidenten in einer von Amerikas größten und geschätzten Allgemeinen Universitäten ist. Dieser VP hat keinen Bedarf an Computern - er weigert sich, einen E-Mail Account anzumelden und hält seinen Schreibtisch von Computern frei, weil er keine Zeit hat, deren Bedienung zu lernen.

Diese selbe Person jedoch, hat früher Audiologie, die Lehre von Tönen und Sprachen, studiert. Hin und wieder gibt mein Kollege ihm eine Demonstration, auf welchem Stand die Sprachtechnologie zum aktuellen Zeitpunkt ist. Der VP ist bereit - jederzeit bereit, auf eine Technologie zu warten, die er effektiv einsetzen kann. Noch wartet er.

Stellen sie sich die Anwendungsmöglichkeiten für einen Firmenpräsidenten oder Vizepräsidenten wie ihn vor. Anstatt die Benutzung eines Computers zu lernen, könnte der Präsident einfach ein Mikrophon zur Hand nehmen und sagen," Zeig mir die Verkaufszahlen aus dem letzten Monat", oder "Vergleiche die Produktionskosten dieses Monats mit denen aus dem letzten Monat und stelle das Ergebnis graphisch dar". Was wäre das für eine Revolution!

An diesem Punkt sind wir heute noch nicht angekommen und meine größte Angst ist, daß wir dort niemals hinkommen werden, wenn sich Leute von der frühen, unperfektionierten Technologie abschrecken lassen, wie es bei den Pen Computern passierte. Meine Hochachtung an IBM, für ihre Einführung der Technologie und die weitere Arbeit an den Mindestanforderungen für Prozessor und Geschwindigkeit, um Spracheingabe nutzen zu können. Nur über eine längere Zeit wird diese Technologie perfektioniert werden und ich heiße Microsoft und andere Verkäufer willkommen, um um die beste Lösung zu konkurrieren, denn ich glaube daran, daß das gesprochene Wort sich als noch als mächtiger als der Stift herausstellen könnte.

John McDonald