Montag, 18. Juni 2012

Redundanz oder wenn durch Quantität die Qualität verbessert wird

‚Bitte sprechen Sie etwas lauter!‘ Wer hat dies noch nicht gehört oder selbst gesagt? Hier geht es vermutlich darum, Störgeräusche zu übertönen oder altersbedingte Hörschwächen zu kompensieren. Genauso gut kann es auch heißen: ‚Sag es bitte noch einmal!‘. Der Grund für diese Äußerung kann auch sein, dass man etwas, was man schon vor Zeiten einmal gehört hat, vergessen hat. Auch das soll bei älteren Menschen öfters vorkommen als bei jungen. Im ersten Falle geht es um die (quantitative) Verstärkung des Tonsignals, im zweiten Falle um Redundanz. In beiden Fällen geht es darum, durch Quantität die Qualität zu verbessern. Das gibt es – entgegen der oft anzutreffenden Meinung – tatsächlich, ja, sogar recht häufig. Dabei ist Signalverstärkung eine naheliegende, recht einfache Lösung. Redundanz ist das interessantere Konzept, die indirekte Lösung. Es ist ein immer wieder verwandter Trick, sowohl im Repertoire der Natur wie in dem der Technik. Es ist etwas, auf das Mathematiker und Logiker nicht von sich aus kommen, da es darum geht, Probleme der realen Welt zu lösen. Was zählt, ist die Pragmatik, die ingenieurmäßige Abwägung.

Im Maschinenbau oder Bauwesen können mehrfach vorhandene funktional gleiche Bauteile die Zuverlässigkeit oder Flexibilität erhöhen. Geodäsie und Navigation erzielen ihre Genauigkeit durch mehrfache Messung derselben Strecken und Winkel oder durch Überbestimmung, d.h. Kombination von Strecken- und Winkelmessung. In der Biologie gibt es Genredundanz, wenn mehrere Gene eines Organismus dieselbe Funktion erfüllen. Ob dies ein reines Überbleibsel aus der evolutionären Entwicklung ist, oder ein Zweck dahinter steht, sei dahingestellt. Außerdem gibt es viele Organe und Glieder in doppelter Ausführung, obwohl mit einem von ihnen schon Lebensfähigkeit gewährleistet ist. Auch in der Pädagogik spielt Wiederholung, also Redundanz, eine zentrale Rolle. Darum üben Sänger und Klavierspieler tagaus tagein. Sportler trainieren mehrere Stunden am Tag und wiederholen dabei dieselben Sprünge und Würfe.

Redundante Information

Im Folgenden will ich mich auf Information und damit auf Informatik beschränken. Laut Informatik-Duden ist Redundanz eine Bezeichnung für die Anteile einer Nachricht, die keine Information vermitteln. Für die Begriffe Nachricht und Information sei auf einen früheren Eintrag in diesem Blog verwiesen. Da die natürliche Sprache sehr viel Redundanz enthält, kann man (geschriebene) Sätze noch verstehen, wenn man alle Vokale weglässt. Umgekehrt kann man Übertragungsfehler erkennen oder korrigieren, indem man Nachrichten um redundante Anteile ergänzt. Gäbe man sich mit dieser Definition zufrieden, wäre der Rest dieses Beitrags überflüssig, d.h. redundant, da Information das sein soll, was in einer Nachricht nicht redundant ist. 

Die (nicht ganz so eng verstandene) Informatik sollte drei Stufen von Redundanz berücksichtigen, so wie dies von der Sprach- und Kommunikationswissenschaft vorgeschlagen wird. Während sich die nachrichtentechnische Redundanz (auch Redundanz erster Ordnung oder informationstheoretische Redundanz genannt) auf Zeichen oder Signale bezieht, bezieht sich die sprachwissenschaftliche (grammatische) Redundanz (Redundanz zweiter Ordnung) auf Wörter und Begriffe. Schließlich gibt es noch die kommunikationswissenschaftliche Redundanz (Redundanz dritter Ordnung), die sich auf ganze Aussagen bezieht.

Die Redundanz erster Ordnung ist bereits in der Zeit der nicht-programmierbaren Maschinen ausführlich behandelt worden. Sie ignoriert,  ̶  um zu ersten Ergebnissen zu kommen  ̶  dass es auch sprachbegabte Lebewesen gibt, die Informatiksysteme benutzen. Redundanz ergibt sich hier aus der Differenz der Anzahl der Zeichen, die Code-Positionen zugeordnet sind und der Gesamtzahl aller möglichen Zeichenkombinationen.

Zur Redundanz zweiter Ordnung gehören Synonyme, Abkürzungen und Übersetzungen. Dafür gab es früher papierne Lexika und Sprachkurse. Heute kann ein Rechner fast in Echtzeit die Äquivalenzen finden und verarbeiten. Dafür gibt es Online-Lexika und Übersetzer-Programme. Fast jedes handelsübliche Suchprogramm bietet in dieser Hinsicht erstaunliche Leistungen.

Als Beispiel aus dem klassischen Altertum (und nicht erst aus der Zeit der Euro-Krise) stammt folgendes Beispiel für Redundanz dritter Ordnung,
  • Alle Kreter lügen (auch als Paradoxon des Epimenides bekannt) oder
  • Alle Bewohner der größten griechischen Insel sagen nicht die Wahrheit
Beide Aussagen sind inhaltlich völlig gleich. Die eine ist direkter, die andere ist höflicher. Der Normalfall ist, dass Aussagen nur annähernd gleich sind. Wer auf seinem Mobiltelefon so genannte ‚Push-Meldungen‘ bekommt, weiß, wie groß diese Form von Redundanz heute ist. Ist bei der Europa-Meisterschaft gerade ein Fußballspiel zu Ende gegangen, kann die inhaltlich gleiche Nachricht 4-5 Mal erscheinen. Wenn man bereits im Bett liegt, kann das durchaus störend sein. Die Entwicklung auf diesem Gebiet ist im vollen Gange. Erste Produkte, die inhaltsgleiche Nachrichten erkennen und eliminieren, gibt es bereits. Dass es zur allgemeinen Lösung dieses Problems nie kommen wird, wird Entwickler nicht davon abhalten, immer bessere partielle Lösungen zu suchen.

Ingenieurmäßige Abwägung

Der wichtige erste Schritt besteht darin zu erkennen, wo überall es Redundanzen gibt. Meist übersieht man sie. Sie schleichen sich ein, sofern man nicht aufpasst. Redundanz bei der Übertragung von Daten tritt ein, sobald man Vorgeschichte und Vorwissen nicht berücksichtigt. Im Extremfall wiederholt man die ganze Nachricht (siehe oben). Redundanz kann sich auf die jetzige Sendung, jetzige Sitzung, alle Sitzungen der letzten Monate oder die gesamte im System erfasste Zeitperiode erstrecken. Die Redundanz bei der Speicherung von Daten kann sich beziehen auf ein Datenfeld, einen Satz, eine Stufe in der Zugriffshierarchie (Cache, Puffer), eine Datei, eine Datenbank, einen Rechnerknoten oder das gesamte Netz. Hier sind es rein technische Gründe, die das Ausmaß der sinnvollen Redundanz bestimmen.

Bei der Präsentation von Daten kann sich Redundanz ergeben aus den Beschränkungen in der Aufnahmefähigkeit des Empfängers (hohe Töne, Farbnuancen, also physiologischen Beschränkungen) gegenüber einer Datenquelle. Die dem bekannten Kodierungsverfahren MP3 zugrunde liegenden Algorithmen nutzen diese Situation aus. Redundanzen können erwünscht sein, um Empfänger-Präferenzen (Alter, Geschlecht, Hobbys) zu berücksichtigen. Im Prinzip gehört diese Form der Redundanz ‚unter die Decke, oder ‚hinter die Nutzeroberfläche‘. Das führt dann zu impliziter Redundanz. Wie in dem Beispiel am Anfang des Beitrags gezeigt, kann explizite Redundanz wichtig sein, weil unser Gedächtnis Lücken hat. Durch die Wahlmöglichkeit  zwischen Formaten erhöht sich die Wahrscheinlichkeit, dass ein Nutzer Daten überhaupt haben will.

Lange Zeit legte man in der Technik (so auch in der Informatik)  bei der Bewertung von Lösungen Kosten als den alles entscheidenden Maßstab zugrunde. Gemeint sind die Produktkosten. Daraus folgte, dass man versuchte, jedwede Redundanz zu eliminieren. Das gilt für die Erfassung, Übertragung, Speicherung und Ausgabe von Information. Die Entwicklung ganzer Zweige der Informatik erfuhr dadurch ihre Rechtfertigung. Man denke an Kompressionsverfahren und Datenbanken.

Ein ganz anderer Blickwinkel führt zu einer anderen Dimension von Redundanz. Sie  kann auftreten zwischen Mitarbeitern, Arbeitsgruppen, Abteilungen, Unternehmen, Branchen, Sprachgruppen und Ländern. Im Grunde benötigt man viele Datenbestände und Programme nur einmal pro Land, ja nur einmal auf der Welt. Hier kann die Redundanz auch nur vorgetäuscht werden, indem virtuelle Instanzen der Daten bereitgestellt werden. Man kann versuchen, alle diese Fälle von Redundanz zu quantifizieren. Man kann damit Kosten assoziieren oder entgangene Umsätze. Manchmal fällt dies aber schwer, oder erscheint etwas gekünstelt. Das ist der Grund, warum es oft übersehen, oder bewusst vernachlässigt wird.

Bei Informatiksystemen besteht grundsätzlich die Möglichkeit des Trade-offs zwischen Speichern, Übertragen und Berechnen (inkl. Suchen) von Information. Sind es rein technische Überlegungen, die zu einer Vervielfachung der Kopien führen, dann spricht man von Replikation. Bei Datenbanken haben sich entsprechende Techniken schon längst etabliert. Darauf näher einzugehen, würde zu weit führen. Es ist aber nicht nur die bessere Verfügbarkeit (engl. availabiliy) und die Schnelligkeit des Zugriffs (engl. latency), die Redundanz erstrebenswert erscheinen lassen. Selbst die technischen Gründe für Redundanzen lassen sich noch weiter differenzieren.

Schließlich müssen auch psychologische, juristische und kommerzielle Erwägungen angestellt werden. Daten und Informationen haben den Charakter eines Wirtschaftsgutes, für das gewisse Rechte gelten. Der Wunsch, die Kontrolle über Inhalte zu besitzen, das Selbstwertgefühl des Besitzes, des Eigentums, der Schutz der Privatsphäre, die Rücksicht auf Vorlieben und landestypische Gewohnheiten und Gesetze, sie alle spielen eine Rolle. Alle diese (primär nicht-technischen) Argumente kommen auch zum Tragen, wenn davon gesprochen wird, individuelle Daten einer Zentrale anzuvertrauen, auch wenn sie technisch als Wolke erscheint.

Redundantes Wissen

In der Praxis wird Information sehr oft dazu verwandt, um Wissen zu verbreiten oder zu speichern. Das Geschäft betreiben Hochschulen, Verlage sowie viele private Unternehmen und Personen. Sie benutzen zu diesem Zweck in zunehmendem Maße  Informatiksysteme. Bezogen auf einen einzelnen Anwender kann die Interpretation von Daten verschiedene Stufen erreichen:
  • Nur Rauschen, nicht als Information wahrgenommen
  • Als Information wahrgenommen, Bedeutung nicht erkannt
  • Als von Bedeutung erkannt, aber nicht vertraut
  • Vertrauter Begriff, aber unwichtiges Thema (für einen selbst, für Gruppe)
  • Wichtiges Thema, aber kein neues Wissen (inhaltlich äquivalent zu Bekanntem)
  • Neues Wissen (zusätzlich, geändert, Vorhandenes verzichtbar machen)
Nicht nur die Bedeutung von Information ist abhängig von der Umgebung und vom Empfänger. Der Wert, also die Relevanz von Wissen wird sehr stark von der Tätigkeit bestimmt, die der Empfänger ausübt. Als redundant kann man alles Wissen ansehen, das nicht für den Lebenserhalt benötigt wird und auch nicht Teil der Allgemeinbildung ist.

Um Redundanz bezogen auf das Wissen einer einzelnen Person oder einer Gruppe festzustellen, müsste periodisch das vorhandene Wissen abgeprüft und ins Verhältnis zu den anstehenden Aufgaben gesetzt werden. Eine einmalige Prüfung reicht nicht aus, da nicht benutztes Wissen verloren geht. Leichter ist es, wenn Wissen externalisiert wurde. Gemeint ist damit, dass es nicht nur in den Köpfen der betroffenen Personen ist. Es ist auf Papier gedruckt oder im Rechner gespeichert. Auch das geschieht immer mehr. Wikipedia ist nur ein Beispiel. Schon lange gibt es Bestrebungen, das Wissen zu beschreiben, bzw. zu externalisieren, das von einer bestimmten Arbeitsgruppe benötigt wird. Bei jeder Änderung der Aufgaben oder der Zusammensetzung der Gruppe müsste dieses Wissen fortgeschrieben werden (Stichwort Wissens-Management). Noch erscheinen solche Ansätze utopisch. Aber wie schnell können sich Utopien zu technischen Lösungen entwickeln.

Um bei der Replikation von Wissen eine gewisse Ökonomie zu wahren, wurden die verschiedenen Berufe erfunden. In der Medizin, wo der relevante Wissensstoff recht beachtlich ist – und täglich weiter wächst  ̶  wurde deshalb eine Wissens-Hierarchie geschaffen, bekannt als System der Fachärzte. An der Spitze (besser an der Nutzer-Schnittstelle) steht ein Generalist, der Hausarzt, der im Falle einer Erkrankung den Wissensbedarf abschätzt, und eine Überweisung an einen Spezialisten vornimmt. Andere Berufe sind weniger gut organisiert.

Die Elimination von nicht mehr relevantem Wissen geschieht in der Wirtschaft, indem Personal ersetzt wird oder vermehrt auf Externe zurückgegriffen wird. Wissen mehrfach parat zu halten, hat denselben Effekt bezüglich besserer Verfügbarkeit und der Schnelligkeit des Zugriffs, wie weiter oben erwähnt. Da Wissen immer lückenhaft ist, empfiehlt es sich, in kritischen Situationen die Meinung von zwei Experten einzuholen. Es gibt sogar Situationen, wo dies vorgeschrieben ist. Auf die Spitze getrieben wird diese Idee von den Verfechtern der ‚Schwarm-Intelligenz‘. Von ihnen wird angenommen, dass große Mengen von Individuen in der Lage sind, bessere Entscheidungen zu treffen als Einzelne.

Redundante Entwicklungsarbeit

In der bisherigen Betrachtung waren Produktkosten der zentrale Angelpunkt. Die Situation ist eine ganz andere, sobald Produktkosten vernachlässigbar sind, und nur noch die Entwicklungskosten zählen. Das ist in der Informatik in zunehmendem Maße der Fall. Sie ist in dieser Hinsicht ein Vorreiter gegenüber andern Ingenieurwissenschaften. Dort werden Entwicklungskosten noch gerne vernachlässigt. Der Begriff der Redundanz erscheint dann aus einer weiteren Perspektive. Die zentrale Frage heißt dann: Wann und warum sollte ich etwas selbst entwickeln, was schon vorhanden ist?

Das betrifft zunächst Programme und Datenbeschreibungen, Präsentations-Bildschirme und Dialoge, Layouts und Formate, aber auch Modelle, Schemata und Entwurfskonzepte. Die Diskussion wird meist unter Überschriften wie Standardisierung, Wiederverwendung oder ‚Crowd Sourcing‘ geführt. Hier geht es um die umgekehrte Frage: Was ist der Vorteil von doppelter Entwicklung oder einer nicht-zweckgebundener Entwicklung. Man wartet bis es für ein gegebenes Problem mindestens zwei Lösungen gibt, und wählt dann die bessere aus. Das klingt paradiesisch. Es setzt allerdings voraus, dass Zeit und Wettbewerb keine Rolle spielen.

Legt man dieselben Maßstäbe an wie in früheren Abschnitten, gelangt man zu der Aussage, dass alle Arbeit redundant ist, die nicht für den Erhalt des Lebens benötigt wird. Schließlich liegt in derartiger Arbeit auch der Ursprung der Kunst, ehe es Künstler gab, die von ihren Werken lebten.

Fazit

Diese kurzen Hinweise reichen aus, um klar zu machen, dass es sich hier um ein großes und weites Feld handelt, wo man nur in kleinen Schritten vorwärtskommt. Trotzdem ist es sinnvoll, das was um uns herum geschieht, in einem etwas größeren Zusammenhang zu sehen, als was Lehrbücher allgemein zu diesem Thema anzubieten haben.

Ohne je eine exakte Erfassung der entsprechenden Zahlen vorgenommen zu haben, wage ich es, eine grobe Schätzung abzugeben bezüglich des Grades der Redundanz der von mir benutzten Informatik-Systeme:
  • Auf je einem meiner fünf Rechner: 50%
  • Zwischen meinem iPad und meinen zwei iPhones: 80%
  • Zwischen meinen beiden Windows-Desktops: 95%
  • Zwischen meinen Rechnern und dem Internet: 35%
  • Zwischen allen mit dem Internet verbundenen Rechnern: 30%
Die Prozentzahl drückt aus, welcher Anteil der gespeicherten Daten auf allen Rechnern der Gruppe identisch ist. Bei den zuerst genannten Rechnern überwiegt möglicherweise die Redundanz erster Ordnung, Bei den danach gelisteten Beispielen kommt es verstärkt auf Redundanz zweiter und dritter Ordnung an. Diese Zahlen ergeben sich aus meiner Tätigkeit (als Rentner und Autor), dem Stand der Technik und der Struktur unserer Wirtschaft. Es ist keine Frage, dass es dabei einige vermeidbare Redundanzen gibt. Es wäre aber schlimm, ich müsste auf alle Redundanzen verzichten. Noch hat keine Wolke meine Daten verschlungen oder wegoptimiert.

Keine Kommentare:

Kommentar veröffentlichen