8.2.4 Kennzeichen von Information

An dieser Stelle finden Sie über den Inhalt des Buchs „Evolution - ein kritisches Lehrbuch“ hinaus einen zusätzlichen Text zum Kapitel 8.2.4 „Kennzeichen von Information“.


Shannonsche Informationstheorie

Sind die Wahrscheinlichkeiten für das Auftreten einzelner Zeichen unabhängig voneinander, kann der durchschnittliche Informationsgehalt H (von Shannon auch Entropie genannt) für ein Zeichen berechnet werden über die Formel:

und der Informationsgehalt einer gesamten Zeichenkette Iges über:

Iges = n x H.

Dabei ist p(xi) die Wahrscheinlichkeit, mit der das Zeichen xi auftritt, n die Anzahl der Zeichen in der Zeichenkette und N die Anzahl verschiedener Zeichen, die auftreten können.

Die Formel wurde von Shannon so aufgestellt, dass folgende drei Bedingungen gelten:

  1. Die Informationsgehalte mehrerer voneinander unabhängiger Zeichenketten addieren sich, d.h. es gilt eine Beziehung in der Form Iges = I1 + I2 + ... + Ik. Eigentlich erhält man die Wahrscheinlichkeit für ein gemeinsames Auftreten von voneinander unabhängigen Ereignissen durch Multiplikation der Einzelwahrscheinlichkeiten. Durch die Verwendung von Logarithmen kann die Bedingung der Additivität jedoch erfüllt werden.
  2. Der Informationsgehalt I einer Nachricht steigt mit zunehmender Unwahrscheinlichkeit, d.h. mit abnehmender Wahrscheinlichkeit pi eines auftretenden Zeichens xi. Diese Bedingung kann erfüllt werden, indem die Kehrwerte der Wahrscheinlichkeiten verwendet werden: I(xi) ~ 1/pi
  3. Im einfachsten symmetrischen Fall, wenn der Zeichenvorrat aus nur zwei Zeichen besteht, die gleich häufig auftreten (p1 = 0.5 und p2 = 0.5), soll dem Informationsgehalt I eines solchen Zeichens die Einheit 1 Bit zugeordnet werden. Diese Bedingung ist erfüllt, wenn Logarithmen zur Basis 2 verwendet werden.

Beispielrechnung: Informationsgehalt einer n-stelligen natürlichen Zahl (alle 10 Ziffern seien gleich wahrscheinlich)

  • Auftrittswahrscheinlichkeit einer Ziffer: 1/10
  • Informationsgehalt einer Ziffer: ld (1/(1/10)) = ld 10 = 3,32 (ld = log2)
  • Informationsgehalt einer n-stelligen natürlichen Zahl: n x 3,32

Der Informationsgehalt nach Shannon hat insbesondere in der Nachrichtentechnik Bedeutung. Hier geht es um die Übertragung von Information und nicht um deren Inhalt; somit macht es auch keinen Unterschied, ob eine übertragene Zeichenkette einen Sinn ergibt oder nicht. Übertragen werden die Daten nur binär, d. h. als Folgen von „Nullen“ und „Einsen“. Das bedeutet, dass man zunächst eine Codierung der Information festlegen muss, die jedes Zeichen der Originalnachricht auf eine Sequenz von „Nullen“ und „Einsen“ abbildet, z.B. A = 01000001, B = 01000010, ... Das Ziel ist, einen Code zu finden, mit dem die Zeichenkette mit so wenig Binärzeichen wie möglich übertragen werden kann. Man kann sich dabei zunutze machen, dass nicht alle Zeichen gleich häufig auftreten und man für Zeichen, die seltener auftreten, deshalb auch längere Sequenzen verwenden kann, wenn es dafür möglich ist, für ein Zeichen, das häufiger vorkommt, eine kürzere Codesequenz zu verwenden. Wenn ein Signal eine Entropie von 1,75 Bits pro Zeichen hat, so weiß man, dass man das Signal im besten Fall so in eine Folge von „Nullen“ und „Einsen“ konvertieren kann, dass im Durchschnitt 1,75 Binärzeichen für jedes Zeichen der Originalnachricht benötigt werden.

Man kann die Shannonsche Informationstheorie auch auf biologische Information in Proteinen anwenden und die Wahrscheinlichkeiten des Auftretens von funktionalen Proteinen abschätzen. Die informationstheoretischen Überlegungen von Yockey basieren beispielsweise auf der Shannonschen Theorie. Er hat durch Vergleich der verschiedenen, in der Natur vorkommenden Cytochrom c Sequenzen die Wahrscheinlichkeit der Entstehung eines Proteins mit einer Cytochrom c Funktion bestimmt, wenn man davon ausgeht, dass das Protein durch zufälliges Aneinanderfügen von Aminosäuren gebildet wurde. Dabei nimmt er an, dass die einzelnen Positionen unabhängig voneinander sind, das heißt, dass an jeder Position alle diejenigen Aminosäuren stehen können, die in irgendeinem aus der Natur bekannten Protein mit der jeweiligen Funktion bereits dort gefunden wurden. Auf diese Art und Weise lassen sich theoretisch auch Ketten bilden, die aus vielen Aminosäuren mit geringem Vorkommen bestehen und deren Entstehungswahrscheinlichkeit somit äußerst gering ist. Yockey weist darauf hin, dass solche Aminosäureketten in der Berechnung nicht berücksichtigt werden sollten. Mit Hilfe von Shannons Formel zur Berechnung des Informationsgehaltes einer Zeichenkette lässt sich diese sogenannte effektive Anzahl funktionaler Cytochrom c-Proteine bestimmen. Yockey (1992) kommt zu dem Ergebnis, dass die Wahrscheinlichkeit für das Auftreten irgendeines aktiven Cytochrom c-Proteins ausgesprochen niedrig ist und bei rund 10–44 liegt.

Literatur
Yockey H (1992)
Information theory and molecular biology. Cambridge University Press.


Studiengemeinschaft WORT und WISSEN e.V.
Letzte Änderung: 01.01.2007
Webmaster