14. Vokabeln

Alphabet: Eine nicht-leere Menge von Zeichen. Hier betrachten wir nur endliche Alphabete. Σ bezeichnet im Folgenden immer ein Alphabet. Was wir dabei als Zeichen ansehen, ist eigentlich relativ egal. Wir werden der Einfachheit halber meist lateinische Groß- und Kleinbuchstaben nehmen, manchmal auch ASCII-Zeichen – aber wie schongesagt wären “Wörter” der Natursprache genauso möglich wie Morphe, Formelzeichen oder Tokens von Programmiersprachen.

Wort: Eine Folge (xi)i∈{1n} von Zeichen xi ∈Σ. Es muss betont werden, dass sich dies deutlich von fast allen Definitionen von “Wort” in der Linguistik unterscheidet, selbst wenn man als Alphabet tatsächlich ein Alphabet einer Natursprache verwendet. Allerdings wird auch und gerade Morphologie gern mit den hier besprochenen Methoden betrieben, und dann ist ein Wort auch ziemlich gut ein Wort, während ein Zeichen vielleicht ein Morph oder auch ein Buchstabe ist.

Konkatenation, auch Verkettung: Wenn w= (wi)i∈{1n} und v= (vi)i∈{1m} mit wi,vi ∈Σ, dann die Verkettung u= wv (meistens lassen wir das ∙ weg und schreiben einfach wv) definiert als u= (ui)i∈{1n+m} mit

{
u  =   wi     i ≤ n
 i     vi- n  n < i ≤ n + m

Das ist MathematikerInnensprache für “Wir schreiben die Zeichen halt hintereinander.” Wie so oft, verbirgt sich hinter komplizierten Zeichen, die einfach die Operation genau und unzweideutig definieren, ein ganz einfacher Sachverhalt. Wenn w= abc und v= cba, dann ist eben wv= abccba. Das Ganze kann man auch für Mengen machen: Wenn M1 , M2 Σ*, dann ist

M1  ∙ M2  = {w1 ∙ w2 |w1  ∈ M1  ∧ w2 ∈ M2 }.

leeres Wort: Das aus null Zeichen bestehende Wort ϵ= (ϵi)i=0..0. Es ist für alle Wörter wϵ= w. ϵ spielt also für die Verkettung in etwa die Rolle des Neutralen Elements, ganz wie die Null bei der Addition. N.B. ∅≠{ϵ}.

Länge eines Worts: Die Zahl der Zeichen in einem Wort w, in Zeichen |w|. Eine elegante rekursive Definition ist: (a) |ϵ|= 0, (b) |aw|= |wa|= 1 + |w| für ein Wort w∈Σ* und a∈Σ. Generell ist die Idee rekursiver (oder induktiver) Definitionen, eine Eigenschaft für etwas “Größeres” durch das Nächstkleinere zu bestimmen. Hier wird die Länge eines Wortes mit einem angehängten Zeichen durch die Länge des nackten Wortes bestimmt.

Sternbildung: Die Menge aller Worte über einem Alphabet Σ wird mit Σ* bezeichnet. Eine rekursive Definition ist: (a) ϵ∈Σ*, (b) w∈Σ*a∈Σ ⇒aw∈Σ*. Für ein endliches Alphabet ist Σ* abzählbar unendlich. Dies kann man zeigen durch die Angabe einer Bijektion zu den natürlichen Zahlen. Eine injektive Abbildung in die natürlichen Zahlen kann man etwa bauen, indem man die ersten n:= |Σ| Primzahlen pi mit den Elementen von Σ identifiziert und weiter q= ∏ i=1npi definiert. Die Abbildung eines Wortes w= ai1ai2aim auf ∑ j=1mpijqj ist wegen der Eindeutigkeit der Primfaktorzerlegung injektiv. Es ist etwas schwieriger zu zeigen, dass diese Abbildung auch surjektiv ist, aber das soll uns jetzt nicht kümmern.

Potenz eines Worts: ai lässt sich induktiv definieren als (a) a0 = ϵ, (b) ai = aai-1.

Formale Sprache über Σ: Eine Teilmenge von Σ*. Das ist die zentrale Definition in unserem Kurs, sie sagt nämlich, worüber wir reden wollen.

Wortproblem: Beim Wortproblem sucht man eine Funktion, die wahr zurückgibt, wenn ein Wort zu einer Sprache gehört, falsch sonst.

Berechenbarkeit: Eine Funktion, die nach endlich vielen Berechnungsschritten (wir müssen natürlich eigentlich noch erklären, was das ist, aber das muss vorerst warten) garantiert ein Ergebnis liefert, heißt berechenbar.

Entscheidbarkeit: Eine Sprache, deren Wortproblem berechenbar ist, heißt entscheidbar.

Übungen zu diesem Abschnitt

Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen

(1)

Wie würdet ihr ab2 definieren, und was ist daran überhaupt zu definieren?

(2)

Sei A= {1,2,3}. Was sind die kürzesten (sagen wir, bis Länge 2) Elemente von A*? Was ist demgegenüber ℘(A)?

(3)

Wie viele Wörter der Länge n gibt es über einem Alphabet mit N Elementen?

(4)

Wie viele Elemente mit einer Länge ≤n hat die Sternmenge einer Menge mit N Elementen? (Anmerkung: Die Summe, die hier vorkommt, heißt geometrische Reihe – ihr findet Anleitungen zu ihrer Berechnung an vielen Stellen im Netz, und natürlich auch in der Lösung)


Markus Demleitner

Copyright Notice