Syntax- und Grammatikmodelle (6)

Probleme der Computerlinguistik  

Spracherkennung - Sprechen/Hören


Der Frequenzumfang des menschlichen Sprachspektrums liegt zwischen 10 Hertz und 15 Kilohertz. Etwa 30.000 Messungen pro Sekunde müssten erfolgen, wenn man bei der Auswertung ohne Begrenzungen auskommen will. Diese Daten müssten jeweils 16 bit breit sein, um den vollen Dynamikumfang der menschlichen Stimme abzubilden. Das entspricht etwa 60 KB pro Sekunde. Diese Datenflut wäre für einen PC kaum tragbar, da der Arbeitsspeicher sofort überflutet wäre und endlose Rechenzeiten entstünden.
Man reduziert daher den Frequenz- und Dynamikumfang und lässt die Sprachdaten durch spezielle Hardware vorausanalysieren und komprimieren, bevor man sie zur Auswertung an den Rechner weitergibt. Dadurch reduzieren sich Analysezeit und Datenmengen. Der Rechner muss nur noch das eingelesene Muster mit den bereits vorhandenen verknüpfen. Ab einem bestimmten Grad der Übereinstimmung gilt ein Wort als erkannt. Gute Spracherkennungsprogramme erreichen bereits eine Erkennungsrate von 98 % und mehr.
Ein wesentlicher Fortschritt ist durch die Komprimierung von Frequenzdaten in der Zwischenzeit erreicht worden. Während eine wav-Datei von 6 Sekunden mit 44,1 KHz noch eine Kapazität von 1 122 304 Byte (1,07 MB) erforderte, kommt eine entsprechende mp3-Datei von 6 Sekunden mit 22 KHz auf nur 25.654 Byte (25 KB). Überzeugen Sie sich selber von dem Unterschied mit dem folgenden französischen Mustersatz (travoteur ist ein Phantasiewort):

Donne-moi mon travoteur, dit le charpentier, je veux élargir le trou.  

Sprechprobe Wav-Datei   1.122.304 Byte
Sprechprobe MP3-Datei       25.654 Byte

Der Unterschied ist offensichtlich für den Hörer nicht oder kaum festzustellen.

 

Weltwissensbasierte Systeme

Das Problem des semantischen Rechnens (auf syntaktischer Grundlage) lässt uns rasch an die heutigen Grenzen der Disziplin stoßen. Da der Computer nur eine Symbolmaschine ist, kann er sein Wissen nicht aus Erfahrung, sondern nur aus Beschreibungen schöpfen. Damit aber neues, sich ständig wandelndes Wissen aufgenommen werden kann, müsste die Beziehung zwischen linguistischen Symbolen und Weltwissen analysiert werden. Ein Circulus vitiosus entsteht: Um Sprache zu verstehen, braucht das System (Welt-) Wissen, um (Welt-)Wissen erwerben zu können, muss es Sprache verstehen können... Doch die Semantik basiert nicht total auf Weltwissen. Es gibt einen Kern von Sprachverstehen, der nicht auf Wissen, sondern auf Logik basiert. Mit Logik kann man rechnen. Die Strategie vieler Computerlinguistik-Projekte ist deshalb darauf beschränkt, natürlichsprachliche Eingaben in ein Logikkalkül zu übersetzen, um eine Art elementarer Semantiksprache zu entwickeln. Doch solche Vorhaben bleiben elementar, denn auch die gesamte referentielle Semantik unterliegt dem Wandel des Weltverständnisses. Dieses Weltverständnis reicht ebenfalls nicht aus, wenn die thematische Struktur der Texte nicht berücksichtigt ist; eine maschinelle Sprachverarbeitung braucht somit neben einer weltwissensbasierten Semantik auch noch eine pragmatische Analyse von Texten, um einigermaßen befriedigende Ergebnisse zu zeigen. Wir stehen also noch am Anfang, trotz komplexer Theorien.

 

  zurück zur Textauswahl
  zur nächsten Seite