15. Der Good-Turing-Schätzer II

Leitfragen

Warum taugen die rohen Verteilungen von z.B. Wortfrequenzen nicht als Eingabe für einen Good-Turing-Schätzer?
Was ist Glättung, wann klappt sie gut, wann geht sie in die Hose?
Wozu dient hier die lineare Regression?

Zipf’s law spricht von Wortfrequenzen r und Frequenzen von Wortfrequenzen n_r. Uns interessiert also z.B. die Information, dass es n₂₀ = 4 Spezies gibt, die r= 20 Mal im Korpus auftreten. Außerdem behauptet Zipf’s Law, dass eine lineare Beziehung zwischen den Logarithmen von r und n_r gibt.

Plot von log n_r gegen log r für einen kleinen Korpus:

Es ist wichtig, diesen Plot zu verstehen, zumal er anders orientiert ist als die, die üblicherweise als Illustration für Zipf’s Law verwendet werden: Ganz links stehen die Spezies mit r= 1, also Wörter, die nur ein Mal vorkommen. Davon gibt es hier etwa 10^3.7. Dann gehen wir weiter zu Spezies mit zwei Vertretern usf. Rechts stehen demgegenüber die Spezies mit vielen Vertretern. Dabei gibt es zu jeder Frequenz r nur eine Spezies, log(n_r) = 0.

Während man bei den niedrigfrequenten Wörtern Zipf’s Law recht gut realisiert sieht, ist das bei den hochfrequenten Wörtern nicht mehr so. Das liegt daran, dass es mehr oder minder Zufall ist, ob ” ist“ gerade 2104 Mal vorkommt oder doch 2105 Mal. Wir müssten eigentlich den Beitrag von ” ist“ zu n₂₁₀₄ für etliche der benachbarten n_r ” verschmieren“, die Kurve also glätten.

1. Schritt: Glätten der beobachteten Verteilung

Wir behaupten, dass für große r die zugehörigen n_r-Werte reduziert werden müssen. Eine gute Methode dazu ist, das n_r gleichmäßig über die ” leeren“ r in der Nachbarschaft zu verteilen.

Konkret: Wir beobachten F Frequenzen r_i, i= 1,…,F. Für große r_i werden r_i-1 und r_i+1 in der Regel ziemlich weit von r_i abliegen (z.B. r= 586, daneben r= 422 und r= 768, alle mit n_r = 1 – die betreffenden Spezies sind hier ” in“, ” das“, und ” und“). Wenn wir das n₅₈₆ = 1 über die ganze Nachbarschaft jeweils bis zur Hälfte des benachbarten r verschmieren. Die Größe dieser Nachbarschaft ist l= (768 -422)∕2, statt n₅₈₆ nehmen wir also n₅₈₆ ∕l.

Allgemein glätten wir, indem wir _r = 2n_r∕(r₊ -r_-) setzen, wobei r₊ der nächsthöhere beobachtete r-Wert ist und r_- der nächstniedrigere. Bei r= 1 setzen wir r_- = 0, beim höchsten Wert für r setzen wir r₊ auf r+ (r-r_-) (wir erweitern die Nachbarschaft symmetrisch).

Das Ergebnis ist, dass sich n_r-Werte gar nicht ändern, wenn wir sowohl für r-1 als auch für r+ 1 Spezies haben, dass sie aber um so stärker reduziert werden, je weiter der Abstand zwischen zwei ” besetzten“ r wird.

Das Ergebnis sieht dann so aus:

Das ist offenbar eine erhebliche Verbesserung gegenüber den rohen Daten. Vor allem die oberste Frequenz reißt aber etwas aus. Das ist ein Artefakt des Umstandes, dass die beiden häufigsten Wörter ” die“ und ” der“ mit r= 1269 und r= 1281 eigentlich viel zu nahe beieinanderliegen – das nächsthäufige Wort bei uns ist ” und“ mit r= 768. Solche Dinge passieren, und Schätzer müssen damit fertig werden (” robust sein“).

2. Schritt: Lineare Regression

Zipf’s Law behauptet, dass wir hier eine Gerade durchlegen können. Dazu dient die lineare Regression, ein mathematisches Verfahren, das die ” beste“ Gerade ax+ b durch die beobachteten Daten (log r,log _r) findet.

Dazu minimiert man den quadratischen Fehler der geschätzten Gerade gegenüber den gegebenen Punkten,∑ _r (lognr - alogr - b) ², d.h. sorgt dafür, dass die Ableitung dieser Größe Null wird. Das Ergebnis ist ein 2 ×2-Gleichungssystem für die Steigung a und den Achsenabschnitt b und kann gelöst werden. Näheres in Press et al: Numerical Recipies.

Übrigens: Dies ist eine (bei normalverteilten Fehlern in _r) eine ML-Schätzung, die hier aber ausreichend robust ist (was nicht heißt, dass das nicht besser ginge).

Ergebnis der linearen Regression:

Zurück: Der Good-Turing-Schätzer I

Inhalt

Weiter: Der Good-Turing-Schätzer III

Index

Markus Demleitner