Leitfragen
Was sind n-gramme?
Was ist der Unterschied zwischen word types und word tokens?
Statistische Techniken werden mittlerweile auf fast allen Feldern der Sprachanalyse und -generierung verwendet. Ein paar Stichworte:
Ein n-gram ist einfach eine Folge von n Zeichen. Speziell: 2-gramme heißten Bigramme, 3-gramme Trigramme. Eine Bigrammdarstellung dieses Satzes: (., Eine), (Eine, Bigrammdarstellung), (Bigrammdarstellung, dieses), (dieses, Satzes), (Satzes, .). Der Punkt steht dabei für Satzanfang und Satzende.
Ein word-type ist ein bestimmtes Wort, etwa ” blau“, ein word-token dagegen das Auftreten eines Wortes. Ein Text mit 200 word-types enthält tatsächlich 200 verschiedene Wörter und mag aus 500 word-tokens bestehen.