2. Wohin geht die Reise?

Leitfragen

Statistische Techniken werden mittlerweile auf fast allen Feldern der Sprachanalyse und -generierung verwendet. Ein paar Stichworte:

  • Spracherkennung: HMMs (Hidden Markov Models) zur Erkennung von Phonen, n-gram-Modelle zur Beurteilung der Plausibilität von Ergebnissen
  • Information Retrieval: Beste Entsprechungen für Suchanfragen, Clustering, Textkategorisierung
  • Tagging: Erkennung von Wortklassen (HMMs, n-gram-Modelle, heuristische Verfahren)
  • Parsing: Reduzierung des Ambiguitätsproblems mit probabilitischen Grammatiken, PP-Attachment
  • Maschinelle Übersetzung: Das Übersetzungsproblem als Anwendung eines noisy channel
  • Machine Learning

n-gramme

Ein n-gram ist einfach eine Folge von n Zeichen. Speziell: 2-gramme heißten Bigramme, 3-gramme Trigramme. Eine Bigrammdarstellung dieses Satzes: (., Eine), (Eine, Bigrammdarstellung), (Bigrammdarstellung, dieses), (dieses, Satzes), (Satzes, .). Der Punkt steht dabei für Satzanfang und Satzende.

word-types vs. word-tokens

Ein word-type ist ein bestimmtes Wort, etwa ” blau“, ein word-token dagegen das Auftreten eines Wortes. Ein Text mit 200 word-types enthält tatsächlich 200 verschiedene Wörter und mag aus 500 word-tokens bestehen.


Markus Demleitner

Copyright Notice