Abgesehen von einigem Gewackel, das bei so statistischem Kram immer da ist, dürftet ihr einerseits sehen, dass bei hohen Rängen Rr kleiner als erwartet ist. Höhe Ränge sind selten auftretende Wörter (einmal, zweimal, dreimal) – von denen gibt es also offenbar weniger, als Zipf’s Law vorhersagt. Vielleicht wäre aber eine bessere Interpretation, dass einfach ihr Rang zu niedrig ist, weil etwas häufigere Wörter fehlen, also z.B. die Häufigkeit 20 nicht besetzt ist? Ein erster Schritt zur Klärung dieser Frage wäre, nachzusehen, ob die Probleme besser oder schlechter werden, wenn man längere Texte verwendet.

Je nach Dokument seht ihr vielleicht auch bei ganz niedrigen Rängen Abweichungen. Hier fehlen bestimmt nicht Wörter bei niedrigeren Rängen (bei welchen auch?) – hier sind die häufigen Wörter also gewiss unterhäufig.