Sonntag, 6. Oktober 2013

Über die Relevanz von Daten und Prozessen in der Big-Data-Diskussion

In den Kommentaren zu dem Interview mit Hasso Plattner spielte – etwas zu meiner Überraschung  ̶  die Frage eine Rolle, ob wir statt ‚daten-getrieben‘ nicht lieber ‚prozess-getrieben‘ denken sollten. Das veranlasste mich, etwas über dieses Thema nachzudenken. Meine eigene Distanz zu heutigen Systemarchitekturen und Kundenerfordernissen verleitet mich dazu, eher grundsätzlich als technisch konkret zu argumentieren. Wie immer, sind Kommentare erwünscht. Ich behalte mir vor, spätere Ergänzungen oder Klarstellungen zu bringen.

Einige relevante Begriffe

Leider komme ich nicht umhin, mit meiner Version einiger Grundbegriffe zu beginnen. Ich will dabei kurz einige Begriffe in die Erinnerung rufen, die in der Informatik eine zentrale Rolle spielen. Dabei wird teilweise eine etwas erweiterte oder einschränkende Definition verwandt als allgemein üblich.

Daten sehe ich primär als Instanzen von Eingabewerten (Parametern) oder Ergebnissen von Prozessen. Große Mengen davon kennen wir aus Astronomie, Meteorologie, Ökonomie, Ökologie, Medizin und Soziologie. In zunehmendem Maße sind sie maschinell erfassbar. Andere Daten dienen der Beschreibung und Darstellung von Objekten und Strukturen. Beispiele sind Bilder, Zeichnungen und Töne. Ein Schema beschreibt eine Klasse oder einen Typ von Daten. Kennt man den Typ gut genug, kann man Instanzen mechanisch erzeugen oder generieren. Daten können eine inhärente Bedeutung (Semantik) haben, die sich aus der Physik oder der Natur der sie erzeugenden Prozesse ergibt. In praktischer Hinsicht ist Semantik alles das, was ein Programm mit den Daten tut. Erst ab dieser Stelle käme auch der Informationsbegriff vor, mit dem dieser Blog sich wiederholt befasste. (Diese Diskussion soll hier nicht vertieft oder wiederholt werden)

Ein Programm ist ein Plan für den Ablauf einer Veranstaltung oder eines Prozesses. Im engeren Sinne denken wir hier an Computerprogramme. Ein Prozess ist die Instanziierung oder die Inkarnation eines Programms. Ein Programm ist in gewisser Hinsicht die Abstraktion der gemeinsamen Logik einiger Prozesse. Dasselbe (Computer-) Programm kann hintereinander oder gleichzeitig (fast) beliebig viele Prozesse auslösen und steuern. In den nicht verstandenen Teilen der Natur oder der Wirtschaft gibt es Prozesse, die  ̶   so scheint es  ̶  ohne Programm ablaufen. Anders ausgedrückt, man kennt deren Programm nicht.

Relevanz ist die Wichtigkeit oder der Stellenwert eines Begriffes oder eines Objekts innerhalb einer Klasse von Begriffen oder Objekten. Sie drückt eine Halbordnung aus, bezogen auf ein Kriterium. Zwei unterschiedliche Elemente einer Klasse können eine unterschiedliche (höhere, niedrigere) oder die gleiche Relevanz besitzen. Das Adjektiv ‚relevant‘ habe sich bei uns unter dem Einfluss des Englischen entwickelt, meinen die Autoren des Wikipedia-Eintrags. Das Antonym heißt ‚irrelevant‘. Wird die Relevanz quantifiziert, sind Begriffe wie Wert und Bewertung passender.

Universum der Daten

Die Zahl der durch Informatik nutzbaren Datenelemente, also der Instanziierungen, hat die eindeutige Tendenz in astronomische Größenordnungen zu wachsen. Wir sprechen dann von Peta- (10 hoch 15) und Exabytes (10 hoch 18). Das explosionsartige Anwachsen geschieht nicht nur, weil unser Wissen immer weiter ins Weltall vordringt. Daten vervielfältigen sich auch, weil wir immer genauer hinsehen. Wir dringen in subatomare Bereiche vor. Eine weitere Dimension ist die Zeit. Je älter die Welt wird, desto mehr Daten hinterlässt sie. Schließlich erhöhen wir den Differenzierungsgrad. Wo einmal drei Abstufungen oder Dimensionen ausreichten, fügen wir immer neue Aspekte hinzu. An die Stelle von 16 treten 256 Farbnuancen. Früher bot die Kapazität unserer Geräte keine Veranlassung sich mit sehr großen Datenmengen auseinanderzusetzen. Heute treten gerätetechnische Limitierungen zunehmend in den Hintergrund.

Weniger stark als die Zahl der Datenelemente wächst die Zahl der verschiedenen Datentypen. Es ist sogar anzunehmen, dass eine Grenze sich nicht nur aus den Gesetzen der Natur ergibt, sondern auch aus der Unterscheidungsfähigkeit der Menschen. Anders ausgedrückt, wen interessieren Variationen von Datentypen, die Menschen nicht sehen, erfassen und maschinell speichern können.

Bei Daten denken viele noch an formatierte Daten. Ihre Rolle ist heute eher ein Sonderfall gegenüber den Myriaden von unformatierten Daten. Diese können sich als Texte, Bilder, Videos, Gespräche, Musik oder Lärm präsentieren. Sie können lokal an einem Ort entstehen und verwandt werden oder über das Weltall verteilt sein.

Universum der Prozesse

Die Annahme, die ich machen möchte, lautet: Es kann nur da Prozesse geben, wo Interaktion stattfindet. Die meisten physikalischen Interaktionen benötigen eine gewisse Nachbarschaft, wenn wir einmal von der Quantenverschränkung absehen. Dasselbe gilt für die Biologie, Ökonomie und Technik. Interessant ist nicht die Zahl der Prozesse, sondern die Zahl der unterschiedlichen Prozesse. Prozesse betrachte ich nur dann als unterschiedlich, wenn sie bei gleicher Eingabe-Sequenz unterschiedliche Verhaltensweisen oder unterschiedliche Ergebnisse aufweisen. Vereinfacht ausgedrückt, entspricht die Zahl unterschiedlicher Prozesse der Zahl unterschiedlicher Programme. Diese dürfte um Größenordnungen kleiner sein als die Zahl der Prozesse insgesamt.

Hier kommt nämlich wieder eine natürliche Limitierung ins Spiel, nämlich die Zahl und Leistungskraft aller Programmierer. Dabei muss man nicht nur an menschliche Programmierer denken. Auch in der Natur sind nicht alle Organismen in der Lage, sich planerisch oder kreativ formend zu betätigen.

Prozesse können in Millisekunden ablaufen oder Jahrzehnte in Anspruch nehmen. Sie können aus weniger als zehn Schritten bestehen oder deren einige Tausend umfassen. Eine besondere Form von Prozessen bilden die Transaktionen. Sie stellen gewisse in sich abgeschlossene Vorgänge dar. In der Informatik werden sie (fälschlicherweise) als Teil der Datenbanktechnik gelehrt. Sie können sich ebenso gut auf einfache Dateien beziehen. Außerdem ist es sinnvoll zu unterscheiden zwischen Daten und Prozessen, die von uns bekannten Agenten (Individuen oder Gruppen) erzeugt wurden, und solchen, die wir in Natur und Gesellschaft vorfinden, deren Erzeuger uns jedoch unbekannt ist.

Relevanz und Wert

Bei der Definition von Relevanz hatte ich hinzugefügt, dass es eines Kriteriums bedarf, um Relevanz zu bewerten. Man kommt nämlich zu ganz unterschiedlichen Ergebnissen je nachdem, ob man an ökonomisches Potential, Absicherung der wirtschaftlichen Existenz, wissenschaftliche Attraktivität, Anforderungen der Ästhetik, oder Formalisierbarkeit in einer vorgegebenen logischen Notation, oder dgl. denkt. Die Zahl unterschiedlicher, von Menschen angewandter Kriterien ist sehr hoch. Sehen wir uns unterschiedliche Relevanzkriterien an, können sich die Prioritäten verschieben. Nur ein paar Beispiele sollen dies erklären.

Im Geschäftsleben fallen Entscheidungen meist basierend auf Daten, nicht auf Prozessen. Die Intensität der Nachfrage oder die Höhe des Bestandes bestimmen, ob die Produktion hochgefahren wird. Die Produktionskosten entscheiden mit darüber, ob ein wettbewerbsfähiger Preis entsteht, usw. Die Vertriebs- und Produktionsprozesse beeinflussen, welche Interessenten man erreicht und wie schnell man liefern kann. Je nach Art eines Produkts oder eines Dienstes können 1000 Aufträge einen Erfolg darstellen, aber nur 100 ein Fiasko.

Geht es darum historisch interessante Dokumente und Belege zu sichern, haben die Daten einen hohen Wert. Die auf sie anwendbaren Prozesse sind sekundär. Die Massen von Klima-Daten der Vergangenheit haben so lange einen geringen Wert, bis wir Modelle, also Programme haben, um aus ihnen auf das Klima der Zukunft zu schließen. Manchmal erschließt sich die Relevanz gewisser Daten erst, wenn andere Daten aufgetaucht sind. In der Medizin lässt das Vorhandensein eines Symptoms auch andere relevant werden. Es bestehen Korrelationen.

In der Wissenschaft kann das Vorhandensein einer Theorie dazu führen, dass plötzlich bisher als irrelevant angesehene Daten größtes Interesse verdienen. Ein Beispiel ist eine bestimmte astronomische Beobachtung (das Michelson-Morley-Experiment), die Einsteins Relativitätstheorie bestätigte. Ein sehr irdisches Beispiel ist eine Besonderheit im Konsumverhalten, welche die Firma Walmart in den Südstaaten der USA registrierte. Sie stellte aufgrund der Analyse ihrer historischen Daten fest, dass nach einer Hurrikan-Warnung nicht nur die Nachfrage nach Äxten, Brettern und Trinkwasser nach oben schnellte, sondern auch die Nachfrage nach Dosenbier und Heidelbeerkuchen.

Es ist nicht zu übersehen, dass Hochschullehrer eher von Prozessen als von Daten fasziniert sind. In den Ingenieurwissenschaften und den konstruktiven Wirtschaftswissenschaften stehen oft Methoden im Vordergrund. Manche Lehrstühle sind dem Aufdecken schneller Algorithmen oder effektiver Messverfahren gewidmet. In diesen Fällen dienen Daten lediglich der Illustration. Wenige Beispiele reichen aus, um einen Machbarkeitsbeweis zu erbringen. Anders ist es bei Statistikern und Zahlentheoretikern.
 
Spiel der Kräfte

Dem Beispiel von Manfred Eigen folgend, kann man die Bestimmung von Relevanz und Wert auch als ein Spiel von Kräften auffassen. Das fundamentale Gesetz, das die Beziehung von Angebot und Nachfrage beschreibt, spielt hier hinein, ist aber nicht ausreichend. Um den Themenbereich zu illustrieren, will ich vorwiegend Beispiele aus der Welt der Software benutzen.

Bis etwa 1970 maß man Software überhaupt nur einen Wert zu, wenn sie half Hardware zu verkaufen. Auch heute dient sie noch (oder wieder) dazu, ein anderes Gut zu unterstützen oder für andere Geschäfte die Voraussetzungen zu schaffen. Das bekannteste Bespiel ist die Firma Google, die Software aller Art verschenkt, um Werbeumsätze zu machen. Da wo Software als solche mit Wert (und eigener Relevanz) versehen wird, hat sich der Markt sehr unterschiedlich entwickelt. Die Teile des Marktes, die eine relativ robuste Struktur aufweisen, haben eher mit der Erfassung, Speicherung und Manipulation von Daten zu tun, als mit der Unterstützung von Prozessen. Zur ersten Gruppe gehören Dateiverwaltung, Datenbanksysteme und Metrik-Tools. Zur zweiten Gruppe gehören Entwicklungs- und Prozess-Modellierungs-Werkzeuge. Ein wesentlicher Grund für diesen Unterschied scheint darin zu liegen, dass Datenmanipulation für Unternehmen essentiell ist, Prozess-Verbesserung jedoch nicht. Auch wurden viele Software-Werkzeuge zunächst für die Eigennutzung entwickelt, und erst im Nachhinein quasi beiläufig dem Markt zur Verfügung gestellt. Dass Suchmaschinen und Browser kein eigenes Geschäft darstellen, hat historische Gründe.

Generell ist der Markt das Ergebnis einer historischen Entwicklung. Der Erstanbieter eines neuen Software-Typs hat sehr viel Einfluss auf den gefühlten Wert dieses Produkts sowie seine Nutzungsregeln. Ein später in den Markt eintretender Anbieter muss die vorhandenen Bedingungen zur Kenntnis nehmen. Nur sehr selten gelingt es ihm, diese signifikant zu ändern. Im Endeffekt kann man keine (Markt-) Situation vollständig beurteilen, ohne nicht auch das Spiel der Kräfte zu beachten, die am Werke sind. Je nach vorliegender Konstellation kann dies zu Ergebnissen führen, für die man sonst nur das Prädikat überraschend oder sogar unerklärlich verwenden müsste.

Zusammenfassung

Die Frage, ob Daten oder Prozesse wichtiger sind, sollte man vernünftigerweise umformulieren. Die Frage wird etwas leichter zu beantworten, wenn wir sie auf Schemata (Typ-Beschreibungen) und Programme beziehen. Die (vorläufige) Antwort kann nur lauten: Im Allgemeinen sind beide gleich wichtig.

Programme machen keinen Sinn, wenn sie keine Daten verarbeiten. Man kann keine Daten verarbeiten, ohne deren Schemata zu kennen (von gewissen elementaren, selbstbeschreibenden Daten abgesehen). Aus praktischer Sicht werden Menschen nie in der Lage sein, für alle vorhandenen Daten Schemata und für alle denkbaren Anwendungen Programme zu entwickeln. Auch das semantische Web löst diese Probleme nicht. Dennoch ist die Versuchung groß, auch solche Daten analysieren zu wollen, für die wir (noch) keine Programme oder Schemata haben. Mich verwundert es daher nicht, dass dem Big Data Hype ein gewisser Grad von Hybris zu schaffen macht. In der Antike rief diese Form der Vermessenheit die Götter dazu auf einzuschreiten.

Kommentare:

  1. Für Theoriefreunde möchte ich ergänzen, dass in meiner oben benutzten Terminologie nicht nur ein einzelnes Programm als Ausführungsplan für parallele oder zeitlich verschobene Aufrufe des gleichen Prozesses dienen kann. Für einen gleichen Prozess kann es auch unterschiedliche Programme geben, die ihn definieren. Im einfachsten Falle ändert man nur die Variablennamen oder die Programmiersprache. Prozess-Äquivalenz ist jedoch nicht zu verwechseln mit funktionaler Äquivalenz. Zwei Programme berechnen die gleiche (mathematische) Funktion, wenn sie gleiche Ein- und Ausgabewerte haben. Die Zwischenschritte, die Reihenfolge sowie der Platz- und der Zeitbedarf der Berechnung dürfen variieren. Weitere Vertiefungen würden unnötig ablenken.

    AntwortenLöschen
  2. Auch am 7.10.2013 schrieb Hartmut Wedekind aus Darmstadt:

    Wir lassen die Stoa hinter uns und kehren zurück zu Platon (428-348 v. Chr.): In der auch heute noch gültigen Ontologie (Seinslehre) des Platon ist die Einteilung der Gegenstände (gr. onta, lat. entia, engl. entity) in Handlungen (gr. praxiz, lat. actio, engl. action) und Dinge (gr. pragma, lat. res, engl. thing) grundlegend.

    In der modernen Informatik sagt man statt Ding (thing) „Daten“ und statt Handlung (action) „Prozess“. Bemerkenswert an der platonischen Einteilung ist, dass beide, „Daten“ wie „Prozess“ zu den Gegenständen gehören. So ist es auch: Beide, „Daten“ und „Prozesse“ stehen uns entgegen, „ontologisch“ ist man versucht zu sagen, wenn das Wort „Ontolologie“ durch die Informatik nicht aus opportunistischen Gründen total versaut worden wäre. Die Schuldigen sind allseits bekannt.

    NB (Bertal Dresen): Ich wünsche mir, dass Informatiker nicht Daten und Dinge (gleichgültig ob Objekte oder Subjekte) verwechseln oder gar gleichsetzen.

    AntwortenLöschen
    Antworten
    1. Lieber Bertal,

      Daten werden immer mit einem Programm interpretiert - sonst sind es physikalische Einheiten. Im Buch mit meinen Gedanken darüber (der Verlag hat es leider etwas unpassend "Die Beschleunigung des Wissens" genannt und es erhält miserable Leserkritiken im Gegensatz zu meinen fachlichen Büchern) verwende ich die Kette als Beispiel : Bits eines Scanners - Erkennung von Buchstaben - Erkennen von Wörtern - von Kontext usw..

      Dies führt zum Begriff der Emergenz: Aus der niedrigen Stufe entsteht genau dadurch etwas neues.
      Dieser Begriff gehört nach meiner An(Ein-)sicht als dritter Begriff zu Daten und Programmen dazu und hat in diesem Sinn eine wohldefinierte Bedeutung im Gegensatz zur alltäglich-philosophischen Verwendung.

      Löschen
  3. Am 8.10.2013 fügte Hartmut Wedekind hinzu:

    Alles, was einen Eigennamen (proper name) tragen kann, ist in der logischen Welt ein Gegenstand. Lateinisch Gebildete sagen stattdessen „obiectum“ oder „object“ oder Objekt, wörtlich das Entgegengeworfene . Es wird somit nicht „gestanden“, es wird „geworfen“. Das soll ein Spaß sein. Im „Internet der Dinge“ ist ein Eigenname (proper name) eine Radio Frequency ID (RFID), die der Dingrepräsentation (Daten) zugeordnet wird.

    Gibt’s ein Internet der Gegenstände, des Entgegengeworfenen? Ja sicher, weil es ein Internet der Dinge (bald) gibt. Gibt’s es ein Internet des anderen Unterbegriffs, also ein Internet der Prozesse? Warum nicht, nur Frage, ob das Sinn macht. Schemata von Prozessen, z.B. in BPMN formuliert, können als Gegenstand ein RFID bekommen und werden wie Daten aufgefasst. So können Prozesse miteinander dialogisieren, was sie auch jetzt schon tun, bloß nicht großformatig in einem Internet.

    NB (Bertal Dresen): Auwei! Jetzt wird es verwirrend. Mit Programm-Schemata hatte ich mich schon einmal befasst. Aber Prozess-Schemata, wie soll ich mir die vorstellen???

    AntwortenLöschen
  4. Am 9.10.2013 schrieb Hartmut Wedekind:

    Ich bekomme wieder Lust auf’s Philosophieren, wahrscheinlich, weil ich gleich nach Konstanz fahre, um dort meinen anthropologischen Vortrag zu halten. Das „Ding an sich“ (engl. „thing in itself“) war mal in der Philosophie zurzeit von Kant und davor eine „big issue“. Metaphysiker und Ontologen haben großartig geredet, bis der Kant kam, und das als Unsinn bezeichnete. Heute beim Betrachten von IoT (Internet of Things) tritt der Unsinn ja besonders deutlich hervor.

    Ob die Theologie an dem Unsinn auch beteiligt war, weiß ich nicht. Die katholische Kirche jedenfalls hat den Kant nie gemocht und ihn bis Ratzinger für reinen protestantischen Theologen aus einer fremden Welt (Ostpreußen) gehalten. Wenn der ehemalige Papst den Kant zitiert (siehe z.B. die Regensburger Rede), dann auch noch falsch.

    Man kann alle Dinge ins IoT bringen, nur eines nicht, das „thing in itself“. Wegen seiner Selbstbezüglichkeit schwebt es unberührt irgendwo im All und hat keinen Eigennamen (proper name). An der Pforte zum IoT steht ein Kontrolleur, der lässt ein „Ding an sich“ nicht herein, eben weil es sich nicht mit einem Eigennamen oder RFID (Radio Frequency ID) ausweisen kann.

    Eigentlich müssten doch unsere Beruf-Ontologen in der Informatik ein großes Interesse am IoT haben. Oder suchen die immer noch nach dem „Ding an sich“? Der englische Ausdruck „thing in itself“ klingt eigentlich noch grausamer. Wie können Menschen auf solch einen Blödsinn kommen? Kaum zu glauben.

    AntwortenLöschen
  5. Am 12.10.2013 schrieb Hartmut Wedekind:

    Philosophen In Konstanz waren verblüfft. Dann sagte mir einer :“Das IoT ist das Ding an sich (D a s) und braucht deshalb kein RFID“,

    Da war ich dann platt, insbesondere über die Geschwindigkeit, mit der frühere ontologische Weltprobleme so mit einem Fingerschnippen beantwortet werden. Mir ist das natürlich egal. wie man das Ding nennt: IoT oder D a s. Nur schön, dass jemand auf so etwas kommt . Das ist aber etwas für den Journalismus.

    AntwortenLöschen