30. Standardmethoden von HMMs II

Leitfragen

Woher kommen die magischen Formeln aus der forward- und backward-Procedure?
Was ist die ” beste“ Zustandsfolge zur Erklärung einer Ausgabe eines HMM? Warum will man die überhaupt haben?

Backward procedure

Wir können auch umgekehrt bedingen:

$βt(t) = P (ot ⋅⋅⋅oT |Xt = i,μ ).$

Die Frage ist jetzt also: Wie groß ist die Wahrscheinlichkeit, dass wir o_t ⋅⋅⋅ o_T beobachten werden, wenn wir zum Zeitpunkt t im Zustand i sind? Im Vergleich zur ” forward procedure“ haben wir jetzt Wahrscheinlichkeiten für etwas, das wir noch beobachten werden, unter der Bedingung, dass wir jetzt in einem bestimmten Zustand sind, während wir bei den α_i die Wahrscheinlichkeit dafür berechnet haben, dass wir in einem bestimmten Zustand sind, wenn wir etwas beobachtet haben.

Diese Umkehrung hat für sich keinen wirklichen Sinn, wird uns aber beim Trainieren von HMMs sehr helfen.

Am Ende der Beobachtung ist es sicher, dass wir nichts mehr beobachten, also

$βi (T + 1) = 1 f¨ur alle i.$

Wir arbeiten uns von dort aus nach vorne durch:

$∑N βj (t) = βi(t + 1)δ(j,i)λ (j, i,ot). i=0$

Die totale Wahrscheinlichkeit ist dann β_k(1), wenn k der Index des Startzustands ist.

Wieder mag ein Bild helfen:

Nehmen wir an, dass t+ 2 der letzte Schritt ist. Dann sind alle β_i(t+ 2) = 1. Die Wahrscheinlichkeit, dass wir 0 beobachten werden, wenn wir zum Zeitpunkt t+ 1 im Zustand 2 sind, ist

$β2(t + 1) = 1 ⋅ 0 ⋅ 0 + 1 ⋅ 0.5 ⋅ 0.1 + 1 ⋅ 0.5 ⋅ 0.8 = 0.45.$

Die beste Zustandsfolge

Die zweite Frage: Was ist die beste Zustandsfolge, um eine gegebene Beobachtung zu erklären?

Naiv: Einfach zu jedem Zeitpunkt t das x_t suchen, für das P(X_t = x_t|O,μ) maximal wird.

Im Einzelfall kann das sinnvoll sein. Im Allgemeinen wollen wir aber nicht ∏ _t=0^T+1P(X_t = x_t|O,μ) maximieren, sondern P(X₁ = x₁,…X_T+1 = x_T+1 |O,μ).

Diese beiden Größen sind verschieden, weil die X_t nach Definition der Markowkette nicht unabhängig voneinander sind.

Für drei Zustände könnte das so aussehen:

$P (x1,x2,x3 ) = P (x3 |x1, x2)P (x1,x2) P (x3|x2 )P(x2 |x1 )P (x1 ).$

Dabei habe ich erstens alle ” konstanten“ Abhängigkeiten weggelassen (O und μändern sich während der Berechnung nicht) und zweitens wieder X_i = x_i als x_i abgekürzt. Solche Geschichten werden in der Literatur gern gemacht, weil sonst alle Ölquellen Saudi-Arabiens nur noch für die Produktion von Druckerschwärze sprudeln müssten.

Das ist nur dann gleich P(x₁)P(x₂)P(x₃), wenn P(x_i+1 |x_i) = P(x_i+1) ist. Das wiederum ist nur dann der Fall, wenn X_i und X_i+1 unabhängig sind, wir also gar kein Markov-Modell, sondern i.i.d. haben. Wer es nicht sieht:

$P (xi+1 |xi) = P-(xi+1,-xi)= P (xi+1 ) P (xi)$

ist äquivalent zu P(x_i+1)P(x_i) = P(x_i+1)P(x_i).

Wenn wir also die ” beste“ Zustandsfolge in einem Markov-Modell finden möchten, müssen wir einen Ausdruck mit all den bedingten Wahrscheinlichkeiten ausrechnen. Die Standardmethode wurde von Andrew Viterbi entwickelt und ist unser nächstes Thema.

Zurück: Standardmethoden von HMMs I

Inhalt

Weiter: Der Viterbi-Algorithmus

Index

Markus Demleitner