Samstag, 6. August 2011

Informationsbegriff – die Sicht der Lebenswissenschaften

Immer wieder komme ich in Versuchung, über eines meiner Lieblingsthemen weiter zu reflektieren, nämlich den Informationsbegriff der Informatik. Einen Zwischenstand meiner Überlegungen hatte ich im Jahre 2004 in der Zeitschrift ‚Informatik – Forschung und Entwicklung‘ (heute: Computer Science Research and Development) veröffentlicht. Der Artikel hatte die Überschrift: ‚Der Informationsbegriff – eine informatikorientierte Annäherung‘ und brachte zum Ausdruck, dass allein ein semantischer Informationsbegriff Sinn mache. Damals schrieb ich: 

Die Informatik tut sich keinen Gefallen, wenn sie der Frage, was Information ist, aus dem Wege geht. Sie sollte sich nicht in Datentechnik oder Datenverarbeitung umbenennen, sondern sich sowohl in theoretischer wie in praktischer Hinsicht um die maschinelle Informationsverarbeitung kümmern, wie sie sich aus dem hier benutzten (semantischen) Informationsbegriff ergibt. … Wenn es um Informationsverarbeitung geht, sollten wir uns primär in Richtung auf den menschlichen Nutzer hin orientieren. Wenn wir Informatiker das nicht tun, wer denn sonst?

Am Ende des Beitrags über Eric Kandel vor zwei Monaten in diesem Blog hieß es: 

Auch würde es Neurobiologen sicherlich helfen, wenn jemand ihnen zu einem besseren Informationsbegriff verhelfen könnte. Wenn immer sie über Information sprechen, meinen sie meistens nichts anderes als Signale. Leider tun sich hier auch manche Informatiker noch etwas schwer.

Den ersten Teil dieser Aussage, der die Neurobiologen betrifft, möchte ich heute korrigieren. Zunächst möchte ich aber sagen, wie ich ursprünglich zu meiner Meinung gelangt bin. Es begann vor etwa 10 Jahren, als ich das Buch von Lily Kay mit dem Titel ‘Buch des Lebens‘ las. Über Hunderte von Seiten wird erläutert, wie schwer sich die Biologie und auch andere Wissenschaften in der Vergangenheit taten, um den Begriff der Information auf das Genom anzuwenden. Mal ging man von einer Offenbarung aus im Sinne des Johannes-Evangeliums (‚Im Anfang war das Wort‘), mal meinte man es handle sich um einen Geheimcode, der nur mit Methoden der Kryptoanalyse zu knacken sei. Es ist klar zu erkennen, welchen Schaden Claude Shannon anrichtete, der 1948 mit seiner mathematischen Informationstheorie den Informationsbegriff völlig umdeutete. Er verkündete, dass sowohl Semantik wie Pragmatik irrelevant seien, also Bedeutung und Empfänger. Dabei handelte er offensichtlich nach dem Motto, was nicht in mein Modell passt, darf auch in der Realität nicht vorkommen. Allein aus der Syntax der Nachrichten ließe sich deren Informationsgehalt ableiten, vorausgesetzt man definiert diesen Begriff entsprechend. 

Immer wieder bemühte man sich die gerade entdeckten DNA-Daten anhand von Bit-Statistiken zu interpretieren, einige Forscher versuchten sogar, für das Genom dessen Entropie zu berechnen. Ganz am Schluss ihres Buches verweist die Autorin auf den deutschen Nobelpreisträger Manfred Eigen, der 1973 meinte, dass man biologische Information als funktionale Information interpretieren sollte. Nicht der Code sei das Entscheidende, sondern die Funktionen oder Wirkungen, die durch ihn ausgelöst werden. Selbst das Wort Semantik war so verpönt, dass er es nicht wagte, es im Zusammenhang mit Information zu benutzen. Eigens Idee hätte sich aber nicht durchgesetzt, meint die Autorin. Zum Glück irrte sie hier.

Neben einer Reihe anderer Veröffentlichungen von Biologen war es vor allem das Buch von Edelman und Tonini - welches ich im gerade zurückliegenden Urlaub las - das mich veranlasst, meine generelle Aussage über Biologen zu revidieren. Heute weiß man nämlich längst, dass der genetische Code eine Abbildung von Syntax auf Semantik ist, wie dies in meinem Beitrag von 2004 anhand anderer Beispiele illustriert wurde. Es werden 64 Eingabewerte (Codons) auf 20 verschiedene Ausgabewerte abgebildet. In der Schreibweise meines erwähnten Beitrags ist der genetische Code eine Abbildung, und zwar

s = I(u,k) oder  I: U x K → S

Dabei ist I die Funktion, die Worte aus der Menge U (den DNA-Triplets) im Kontext K (hier nicht näher spezifiziert) nach S abbildet. Die Elemente S entstammen einem Vorrat chemischer Verbindungen, die der RNA-Kopierer erkennt. Es sind dies 20 Aminosäuren, die dafür sorgen, dass ganz bestimmte Proteine gebaut werden. Dass dadurch der Phänotyp eines Lebewesens nur teilweise bestimmt ist, ist eine neuere Erkenntnis, auf die ich hier nicht näher eingehen möchte.

Nach Edelman ist Information ein rein biologischer Begriff. Gemeint ist das natürlich in dem Sinne wie ‚Schwerkraft‘ ein physikalischer und ‚Kreislaufprobleme‘ ein medizinischer Begriff sind. Gegenüber der Umgangssprache schränkt der Fachbegriff die Bedeutung des Wortes erheblich ein. Dass die Physik den Begriff Information überhaupt benötigt, wird bezweifelt. Kristalle besäßen zwar eine Struktur, zu ihrer Erzeugung sei aber keine Information erforderlich. Das gleiche gelte für elastische Metallstäbe oder Gummibänder, die von selbst in eine Ausgangsform zurückkehren, ohne dass sie dafür ein ‚Gedächtnis‘ haben müssen. Alle drei Fälle lassen sich (vermutlich) rein energetisch erklären.

Anders ist es bei Lebewesen. Selbst die primitivsten Lebewesen, ob Bakterien, Pflanzen oder Tiere, können Erfahrung sammeln, sich etwas merken. Das gilt für die Blume, die nur bei Sonnenschein ihre Blütenblätter öffnet, oder die Seeschnecke, die nach unangenehmen Reizen ausweicht. Da sind keine Energiepotenziale mehr im Spiel. Hier wird Information gespeichert. Das gilt erst recht bei der Vererbung. Beispiele sind hier das Samenkorn, das einmal zu einer großen Pflanze wird, oder die Raupe, die sich einmal in einen Schmetterling verwandelt.

Edelman macht recht interessante Aussagen darüber, wie Information von Lebewesen erfasst und gespeichert wird. Er nennt dies zwar Hypothesen. Sie erscheinen mir jedoch sehr glaubhaft. Natürlich ist es nur eine Frage der Zeit, wann diese Hypothesen bestätigt oder widerlegt sein werden. Menschen und höhere Tiere nehmen durch ihre Sinnesorgane Unmengen von Signalen auf. Als Signale werden hier Bilder, Geräusche, Düfte oder Szenen verstanden. Bereits bei der Aufnahme werden diese Signale klassifiziert und interpretiert. Dabei wird bewertet und selektiert. Sehr überrascht war ich von seiner Annahme, dass das Gedächtnis größtenteils ein nicht-repräsentativer Speicher sei. Alle Signale würden als Signale gespeichert und nicht als Symbole. Gibt es für ein Signal eine Interpretation, so wird diese zusätzlich, aber getrennt gespeichert. Seine Begründung: Die Struktur des Gedächtnisses ist bei Menschen und höheren Tieren gleich. Nur der Mensch vollzog den Schritt für seine Begriffswelt Symbole zu verwenden, also eine Sprache zu entwickeln. Er verfügt demnach zusätzlich über einen Symbolspeicher. Dass nur der Mensch über Bewusstsein verfügt, also sich seiner selbst bewusst ist, stellt eine weitere Stufe der Entwicklung dar.

Wie andere Biologen sieht auch Edelman im Genom die älteste und am meisten verbreitete Form der Informationsverarbeitung in der Natur. Sie ist aber nicht die einzige. Das menschliche Gedächtnis ist eine andere, aber auch der Gesang der Wale und das Tanzen der Bienen. Entscheidend ist, dass durch Information etwas bewirkt wird (siehe auch Manfred Eigens oben zitierte Position), dass andere Teile des Organismus oder andere Organismen zu Reaktionen veranlasst werden.

Nach Edelman besteht Lernen darin, Prozesse zu automatisieren, die wir anfangs nur unter Einsatz des Bewusstseins und aller Teile des Gehirns durchführen können. Die entsprechenden Prozesse werden nicht nur vereinfacht, sondern aus dem Bewusstsein herausgedrängt. Das Bewusstsein und das Kurzeitgedächtnis unterliegen nämlich gravierenden Kapazitätsbeschränkungen, nicht jedoch das Langzeitgedächtnis und das Gehirn als solches. Lernen und der Aufbau von Wissen beginnen mit dem Sammeln von richtigen Aussagen. Worte kommen später, Buchstaben zu allerletzt, wenn überhaupt (siehe China). Auch die von Noam Chomsky postulierte angeborene Grammatikfähigkeit gerät bei Neurobiologen immer mehr in Zweifel. 

Welche Informationen das Lernen am besten befördern, ist in der nachfolgenden Grafik illustriert. Sie geht auf Ernst von Weizsäcker [1] zurück. Was redundant ist, hängt von der Bedeutung und dem Empfänger ab, also von Semantik und Pragmatik. Dass das Wiederholen bereits bekannten Materials die Speicherung verfestigt, d.h. die neuronale Vernetzung verstärkt, ist ein physiologischer Nebeneffekt. Ohne Grundkenntnisse von Begriffen und Beziehungen ist das Lernen schwer.



Obwohl das Verständnis für Semantik bei Autoren wie Edelman sehr gut ausgeprägt ist, scheint es bei der Frage der Pragmatik noch etwas zu hapern. Pragmatik ist die Beziehung zwischen Signal und Empfänger. Nur so ist zu verstehen, wenn er schreibt, dass die chinesischen Zeichen, die die Netzhaut ins Gehirn überträgt, ihren vollen Informationsgehalt besäßen, auch wenn der Betreffende kein Chinesisch versteht. Hier wäre es besser, von Signalen zu sprechen. Auch die Geistes­wissenschaften scheinen in dieser Hinsicht Schwierigkeiten  zu haben. Ein Beispiel dafür ist die folgende Aussage [deren Quelle ich im Moment nicht mehr weiß]: 

Ein Buch, das nicht gelesen wurde, enthält genauso viel Information wie ein Buch, das nie geschrieben wurde, nämlich keine.
Diese Aussage widerstrebt mir. Sie ist zu undifferenziert. Offensichtlich benötigt der Aspekt der Pragmatik noch intensiver Diskussionen. Vor allem muss man zwischen Semantik und Pragmatik schärfer trennen. Nur die Pragmatik sollte sich damit befassen, was ein einzelner Empfänger überhaupt versteht, sei es, dass ihm die notwendige Expertise oder Erfahrung fehlt, dass er schwerhörig ist, seine Sehkraft beeinträchtigt, oder er einfach nur übermüdet oder abgelenkt ist. Für Semantik muss ein Bezugspunkt gefunden werden, der nicht von den Besonderheiten einzelner Empfänger abhängt. In dem Punkte kann ich sogar Shannon verstehen.

Wie ich schon mehrmals bemerkte, haben die Lebenswissenschaften, also vor allem Biologie und Medizin, der Physik den Rang der Leitwissenschaft abgenommen. Nicht ohne Grund sind ja auch prominente Physiker (wie Delbrück, Szilard und Eigen) in die Biologie abgewandert. Der Horizont der Physik ist durch die unbelebte Natur begrenzt. Mit der Biologie beginnt das Leben und es setzt sich in der Medizin fort. Auch die Informatik ist dem Leben näher als der toten Natur.

Mir geht es primär darum, auf Probleme mit dem derzeitigen Informationsbegriff der Informatik hinzuweisen. Bekanntlich gibt es hier durchaus gegensätzliche Positionen, wie etwa die von Günter Hotz und Peter Rechenberg. Ob es mir gelingt, brauchbare Lösungsvorschläge zu machen, weiß ich nicht. Jedenfalls würde ich mir gerne dabei helfen lassen. Der aktuelle Wikipedia-Eintrag zum Stichwort Information ist zwar schon sehr lesenswert, gibt sich aber dennoch bescheiden: 

Da es bislang keine einheitliche Theorie der "Information" gibt, sondern lediglich unterschiedliche Modelle, steht eine eindeutige Definition des Begriffs "Information" noch nicht zur Verfügung.
 
Es besteht kein Zweifel, dass zwischen informationsverarbeitenden Organismen und informationsverarbeitenden Maschinen gewisse Parallelen bestehen. Sie jedoch gleichzusetzen, wäre leichtfertig und gefährlich. Die Angst, dass letztere die ersten ersetzen oder gar ablösen könnten, ist nicht mehr als der Tagtraum einiger Phantasten. Dennoch wäre es schön, wenn sich Informatik und Lebenswissenschaften gegenseitig etwas ‚Amtshilfe‘ leisten würden, wenn es um Fragen geht, mit denen beide ringen. Der Begriff der Information wäre ein gutes Beispiel., wenn auch wie gezeigt  mit einer schmerzlichen Erfahrung vorbelastet.

Zusätzliche Referenz:
  1.  Ernst von Weizsäcker, Erstmaligkeit und Bestätigung als Komponenten der pragmatischen Information, in: ders. (Hsg.), Offene Systeme I, Stuttgart 1974, S. 82-113

1 Kommentar:

  1. Am 7.8.2011 bat mich Hans Diel den folgenden Kommentar ins Netz zu stellen:

    Auch ich bin der Meinung, dass ein auf Shannon basierendes Verständnis und Definition des Begriffs „Information“ für fast alle Themengebiete, außer der Nachrichtentechnik zu eng und damit inadäquat ist. Ich kann noch zwei weitere, sehr unterschiedliche Beispiele beisteuern:

    (1) Gestern Abend habe ich ein Gespräch eines Musikexperten mit einem berühmten Dirigenten (Thielemann) zu Beethovens 7. Sinfonie im Fernsehen verfolgt. Ich war beeindruckt, wie durch unterschiedliche Tempi, Lautstärken, und sonstige Maßnahmen unterschiedliche Stimmungen vom Komponisten (Beethoven) über den Dirigenten und das Orchester zum Zuhörer kommuniziert werden. Das was da kommuniziert wird, muss sicher auch unter den Begriff Information fallen, kann aber nicht alleine mit Bits hinreichend erklärt werden. Außerdem, scheint auch hier sowohl die Qualität als auch die Quantität dessen was kommuniziert wird (d.h. die übertragene Information) stark vom Empfänger abzuhängen.

    (2) In der Quantenphysik wird seit einigen Jahren das Thema Information häufiger angesprochen, meistens im Kontext von Themen wie Entropie, Informationserhaltung oder -vernichtung im Schwarzen Loch, oder der (vermeintlichen) Informationserhaltung bei quantenphysikalischen Prozessen. Bekannte Anwälte dieser Themen sind beispielsweise Hawking, Penrose, t’Hooft, Zeidler. ...

    Wenn wir uns also einig sind, dass ein auf Shannon basierendes Verständnis und Definition des Begriffs „Information“ für fast alle Themengebiete, außer der Nachrichtentechnik zu eng und damit inadäquat ist, stellt sich die Frage: Was folgt daraus? Sollte man versuchen (1) den allgemeinen Begriff „Information“ interdisziplinär sauberer und passender zu definieren oder (2) für bestimmte Disziplinen (Informatik, Biologie, Soziologie, Physik) jeweils den Begriff „Information in der Disziplin X“ sauberer oder passender zu definieren?

    Ich selbst fühle mich sowohl bei (1) als auch bei (2) stark überfordert. Dies hängt auch zusammen mit zwei Behauptungen (Thesen), die bei mir nach der Beschäftigung mit dem Blog entstanden sind:

    These 1: Die Probleme, die die verschiedenen Disziplinen mit einer passenden Definition des Begriffs Information haben, kommen hauptsächlich daher, dass (1) das Thema selbst in dessen Zusammenhang man über Information redet noch nicht ausreichend verstanden ist und/oder (2) mit der Erarbeitung einer besseren Definition eine neue Theorie für ein bestimmtes Fachgebiet propagiert werden soll, welche durch die Definition unterstützt werden soll. Bei dem, was ich oben zu Information und Quantenphysik geschrieben habe, sehe ich eher Punkt (1) und ich könnte dies auch näher begründen. Bei dem was in dem Blog zu Edelmanns Theorien steht, scheint mir Punkt (2) das Problem zu sein. Im Gegensatz dazu, habe ich schon früher bei Diskussionen zur Definition des Begriffs „Information“ die Behauptung aufgestellt, dass Definitionen nicht richtig oder falsch, sondern eher mit Begriffen zweckmäßig, plausibel, widerspruchsfrei, etc. (oder dem entsprechenden Gegenteil) zu beurteilen sind. Ich halte es für bedenklich, eine Definition eines so allgemeinen Begriffs wie „Information“ mit der Diskussion bestimmter Theorien zu einem bestimmten Fachgebiet zu verknüpfen...

    These 2: Das Thema „Information“ ist extrem schlecht geeignet für eine allgemeine (=interdisziplinäre) Definition. Wenn es richtig ist, dass eine brauchbare Definition von Information die Semantik (und Pragmatik) mit einbeziehen muss, dann folgt daraus m.E., dass nur wenig Raum ist für sinnvolle disziplin-übergreifende Betrachtungen. ... Man kann sich natürlich auch damit begnügen eine verbesserte Definition nur für eine Gruppe von Fachgebieten (z.B. Biologie und Informatik) zu erstellen; insbesondere, dann wenn man meiner obigen Meinung zustimmt, dass eine Definition nur zweckmäßig zu sein braucht, aber nicht richtig ...

    AntwortenLöschen