In den Kommentaren zu dem Interview mit Hasso Plattner spielte –
etwas zu meiner Überraschung ̶ die Frage eine Rolle, ob wir statt ‚daten-getrieben‘
nicht lieber ‚prozess-getrieben‘ denken sollten. Das veranlasste mich, etwas über
dieses Thema nachzudenken. Meine eigene Distanz zu
heutigen Systemarchitekturen und Kundenerfordernissen verleitet mich dazu, eher
grundsätzlich als technisch konkret zu argumentieren. Wie immer, sind
Kommentare erwünscht. Ich behalte mir vor, spätere Ergänzungen oder
Klarstellungen zu bringen.
Einige relevante Begriffe
Leider komme ich nicht umhin, mit meiner Version einiger Grundbegriffe zu beginnen. Ich will dabei kurz einige Begriffe in die
Erinnerung rufen, die in der Informatik eine zentrale Rolle spielen. Dabei wird
teilweise eine etwas erweiterte oder einschränkende Definition verwandt als
allgemein üblich.
Daten sehe ich primär als Instanzen von Eingabewerten (Parametern) oder Ergebnissen
von Prozessen. Große Mengen davon kennen wir aus Astronomie, Meteorologie,
Ökonomie, Ökologie, Medizin und Soziologie. In zunehmendem Maße sind sie maschinell
erfassbar. Andere Daten dienen der Beschreibung und Darstellung von Objekten
und Strukturen. Beispiele sind Bilder, Zeichnungen und Töne. Ein Schema beschreibt eine Klasse oder einen
Typ von Daten. Kennt man den Typ gut genug, kann man Instanzen mechanisch erzeugen
oder generieren. Daten können eine inhärente Bedeutung (Semantik) haben, die
sich aus der Physik oder der Natur der sie erzeugenden Prozesse ergibt. In
praktischer Hinsicht ist Semantik alles das, was ein Programm mit den Daten
tut. Erst ab dieser Stelle käme auch der Informationsbegriff vor, mit dem
dieser Blog sich wiederholt befasste. (Diese Diskussion soll hier nicht
vertieft oder wiederholt werden)
Ein Programm
ist ein Plan für den Ablauf einer Veranstaltung oder eines Prozesses. Im engeren
Sinne denken wir hier an Computerprogramme. Ein Prozess ist die Instanziierung oder die Inkarnation eines Programms.
Ein Programm ist in gewisser Hinsicht die Abstraktion der gemeinsamen Logik
einiger Prozesse. Dasselbe (Computer-) Programm kann hintereinander oder
gleichzeitig (fast) beliebig viele Prozesse auslösen und steuern. In den nicht
verstandenen Teilen der Natur oder der Wirtschaft gibt es Prozesse, die ̶ so
scheint es ̶ ohne Programm ablaufen. Anders ausgedrückt,
man kennt deren Programm nicht.
Relevanz ist die Wichtigkeit oder der Stellenwert eines Begriffes oder eines
Objekts innerhalb einer Klasse von Begriffen oder Objekten. Sie drückt eine
Halbordnung aus, bezogen auf ein Kriterium. Zwei unterschiedliche Elemente
einer Klasse können eine unterschiedliche (höhere, niedrigere) oder die gleiche
Relevanz besitzen. Das Adjektiv ‚relevant‘ habe sich bei uns unter dem Einfluss
des Englischen entwickelt, meinen die Autoren des Wikipedia-Eintrags. Das Antonym heißt ‚irrelevant‘. Wird die Relevanz quantifiziert,
sind Begriffe wie Wert und Bewertung passender.
Universum der Daten
Die Zahl der durch Informatik nutzbaren Datenelemente,
also der Instanziierungen, hat die eindeutige Tendenz in astronomische
Größenordnungen zu wachsen. Wir sprechen dann von Peta- (10 hoch 15) und Exabytes
(10 hoch 18). Das explosionsartige Anwachsen geschieht nicht nur, weil unser
Wissen immer weiter ins Weltall vordringt. Daten vervielfältigen sich auch,
weil wir immer genauer hinsehen. Wir dringen in subatomare Bereiche vor. Eine
weitere Dimension ist die Zeit. Je älter die Welt wird, desto mehr Daten
hinterlässt sie. Schließlich erhöhen wir den Differenzierungsgrad. Wo einmal drei
Abstufungen oder Dimensionen ausreichten, fügen wir immer neue Aspekte hinzu.
An die Stelle von 16 treten 256 Farbnuancen. Früher bot die Kapazität unserer Geräte keine
Veranlassung sich mit sehr großen Datenmengen auseinanderzusetzen. Heute treten
gerätetechnische Limitierungen zunehmend in den Hintergrund.
Weniger stark als die Zahl der Datenelemente
wächst die Zahl der verschiedenen Datentypen. Es ist sogar anzunehmen, dass
eine Grenze sich nicht nur aus den Gesetzen der Natur ergibt, sondern auch aus
der Unterscheidungsfähigkeit der Menschen. Anders ausgedrückt, wen
interessieren Variationen von Datentypen, die Menschen nicht sehen, erfassen
und maschinell speichern können.
Bei Daten denken viele noch an formatierte Daten.
Ihre Rolle ist heute eher ein Sonderfall gegenüber den Myriaden von
unformatierten Daten. Diese können sich als Texte, Bilder, Videos, Gespräche,
Musik oder Lärm präsentieren. Sie können lokal an einem Ort entstehen und
verwandt werden oder über das Weltall verteilt sein.
Universum der Prozesse
Die Annahme, die ich machen möchte, lautet: Es
kann nur da Prozesse geben, wo Interaktion stattfindet. Die meisten
physikalischen Interaktionen benötigen eine gewisse Nachbarschaft, wenn wir
einmal von der Quantenverschränkung absehen. Dasselbe gilt für die Biologie, Ökonomie und
Technik. Interessant ist nicht die Zahl der Prozesse, sondern die Zahl der
unterschiedlichen Prozesse. Prozesse betrachte ich nur dann als
unterschiedlich, wenn sie bei gleicher Eingabe-Sequenz unterschiedliche
Verhaltensweisen oder unterschiedliche Ergebnisse aufweisen. Vereinfacht
ausgedrückt, entspricht die Zahl unterschiedlicher Prozesse der Zahl
unterschiedlicher Programme. Diese dürfte um Größenordnungen kleiner sein als
die Zahl der Prozesse insgesamt.
Hier kommt nämlich wieder eine natürliche
Limitierung ins Spiel, nämlich die Zahl und Leistungskraft aller Programmierer.
Dabei muss man nicht nur an menschliche Programmierer denken. Auch in der Natur
sind nicht alle Organismen in der Lage, sich planerisch oder kreativ formend zu
betätigen.
Prozesse können in Millisekunden ablaufen oder
Jahrzehnte in Anspruch nehmen. Sie können aus weniger als zehn Schritten
bestehen oder deren einige Tausend umfassen. Eine besondere Form von Prozessen
bilden die Transaktionen. Sie stellen gewisse in sich abgeschlossene Vorgänge
dar. In der Informatik werden sie (fälschlicherweise) als Teil der
Datenbanktechnik gelehrt. Sie können sich ebenso gut auf einfache Dateien
beziehen. Außerdem ist es sinnvoll zu unterscheiden zwischen Daten und
Prozessen, die von uns bekannten Agenten (Individuen oder Gruppen) erzeugt
wurden, und solchen, die wir in Natur und Gesellschaft vorfinden, deren
Erzeuger uns jedoch unbekannt ist.
Relevanz und Wert
Bei der Definition von Relevanz hatte ich
hinzugefügt, dass es eines Kriteriums bedarf, um Relevanz zu bewerten. Man
kommt nämlich zu ganz unterschiedlichen Ergebnissen je nachdem, ob man an
ökonomisches Potential, Absicherung der wirtschaftlichen Existenz,
wissenschaftliche Attraktivität, Anforderungen der Ästhetik, oder
Formalisierbarkeit in einer vorgegebenen logischen Notation, oder dgl. denkt.
Die Zahl unterschiedlicher, von Menschen angewandter Kriterien ist sehr hoch. Sehen
wir uns unterschiedliche Relevanzkriterien an, können sich die Prioritäten
verschieben. Nur ein paar Beispiele sollen dies erklären.
Im Geschäftsleben fallen Entscheidungen meist basierend
auf Daten, nicht auf Prozessen. Die Intensität der Nachfrage oder die Höhe des
Bestandes bestimmen, ob die Produktion hochgefahren wird. Die Produktionskosten
entscheiden mit darüber, ob ein wettbewerbsfähiger Preis entsteht, usw. Die
Vertriebs- und Produktionsprozesse beeinflussen, welche Interessenten man
erreicht und wie schnell man liefern kann. Je nach Art eines Produkts oder eines
Dienstes können 1000 Aufträge einen Erfolg darstellen, aber nur 100 ein Fiasko.
Geht es darum historisch interessante
Dokumente und Belege zu sichern, haben die Daten einen hohen Wert. Die auf sie
anwendbaren Prozesse sind sekundär. Die Massen von Klima-Daten der
Vergangenheit haben so lange einen geringen Wert, bis wir Modelle, also Programme
haben, um aus ihnen auf das Klima der Zukunft zu schließen. Manchmal erschließt
sich die Relevanz gewisser Daten erst, wenn andere Daten aufgetaucht sind. In der
Medizin lässt das Vorhandensein eines Symptoms auch andere relevant werden. Es
bestehen Korrelationen.
In der Wissenschaft kann das Vorhandensein
einer Theorie dazu führen, dass plötzlich bisher als irrelevant angesehene
Daten größtes Interesse verdienen. Ein Beispiel ist eine bestimmte
astronomische Beobachtung (das Michelson-Morley-Experiment), die
Einsteins Relativitätstheorie bestätigte. Ein sehr irdisches Beispiel ist eine Besonderheit im
Konsumverhalten, welche die Firma Walmart in den Südstaaten der USA
registrierte. Sie stellte aufgrund der Analyse ihrer historischen Daten fest,
dass nach einer Hurrikan-Warnung nicht nur die Nachfrage nach Äxten, Brettern
und Trinkwasser nach oben schnellte, sondern auch die Nachfrage nach Dosenbier
und Heidelbeerkuchen.
Es ist nicht zu übersehen, dass Hochschullehrer
eher von Prozessen als von Daten fasziniert sind. In den
Ingenieurwissenschaften und den konstruktiven Wirtschaftswissenschaften stehen
oft Methoden im Vordergrund. Manche Lehrstühle sind dem Aufdecken schneller
Algorithmen oder effektiver Messverfahren gewidmet. In diesen Fällen dienen
Daten lediglich der Illustration. Wenige Beispiele reichen aus, um einen Machbarkeitsbeweis
zu erbringen. Anders ist es bei Statistikern und Zahlentheoretikern.
Spiel der Kräfte
Dem Beispiel von Manfred Eigen folgend, kann man die
Bestimmung von Relevanz und Wert auch als ein Spiel von Kräften auffassen. Das fundamentale
Gesetz, das die Beziehung von Angebot und Nachfrage beschreibt, spielt hier
hinein, ist aber nicht ausreichend. Um den Themenbereich zu illustrieren, will
ich vorwiegend Beispiele aus der Welt der Software benutzen.
Bis etwa 1970 maß man Software überhaupt nur
einen Wert zu, wenn sie half Hardware zu verkaufen. Auch heute dient sie noch
(oder wieder) dazu, ein anderes Gut zu unterstützen oder für andere Geschäfte
die Voraussetzungen zu schaffen. Das bekannteste Bespiel ist die Firma Google,
die Software aller Art verschenkt, um Werbeumsätze zu machen. Da wo Software
als solche mit Wert (und eigener Relevanz) versehen wird, hat sich der Markt sehr
unterschiedlich entwickelt. Die Teile des Marktes, die eine relativ robuste
Struktur aufweisen, haben eher mit der Erfassung, Speicherung und Manipulation
von Daten zu tun, als mit der Unterstützung von Prozessen. Zur ersten Gruppe
gehören Dateiverwaltung, Datenbanksysteme und Metrik-Tools. Zur zweiten Gruppe
gehören Entwicklungs- und Prozess-Modellierungs-Werkzeuge. Ein wesentlicher
Grund für diesen Unterschied scheint darin zu liegen, dass Datenmanipulation
für Unternehmen essentiell ist, Prozess-Verbesserung jedoch nicht. Auch wurden
viele Software-Werkzeuge zunächst für die Eigennutzung entwickelt, und erst im
Nachhinein quasi beiläufig dem Markt zur Verfügung gestellt. Dass Suchmaschinen
und Browser kein eigenes Geschäft darstellen, hat historische Gründe.
Generell ist der Markt das Ergebnis einer historischen
Entwicklung. Der Erstanbieter eines neuen Software-Typs hat sehr viel Einfluss
auf den gefühlten Wert dieses Produkts sowie seine Nutzungsregeln. Ein später
in den Markt eintretender Anbieter muss die vorhandenen Bedingungen zur
Kenntnis nehmen. Nur sehr selten gelingt es ihm, diese signifikant zu ändern. Im
Endeffekt kann man keine (Markt-) Situation vollständig beurteilen, ohne nicht
auch das Spiel der Kräfte zu beachten, die am Werke sind. Je nach vorliegender
Konstellation kann dies zu Ergebnissen führen, für die man sonst nur das Prädikat
überraschend oder sogar unerklärlich verwenden müsste.
Zusammenfassung
Die Frage, ob Daten oder Prozesse wichtiger
sind, sollte man vernünftigerweise umformulieren. Die Frage wird etwas leichter
zu beantworten, wenn wir sie auf Schemata (Typ-Beschreibungen) und Programme
beziehen. Die (vorläufige) Antwort kann nur lauten: Im Allgemeinen sind beide
gleich wichtig.
Programme machen keinen Sinn, wenn sie keine
Daten verarbeiten. Man kann keine Daten verarbeiten, ohne deren Schemata zu
kennen (von gewissen elementaren, selbstbeschreibenden Daten abgesehen). Aus
praktischer Sicht werden Menschen nie in der Lage sein, für alle vorhandenen
Daten Schemata und für alle denkbaren Anwendungen Programme zu entwickeln. Auch
das semantische Web löst diese Probleme nicht. Dennoch ist die Versuchung groß,
auch solche Daten analysieren zu wollen, für die wir (noch) keine Programme oder
Schemata haben. Mich verwundert es daher nicht, dass dem Big Data Hype ein
gewisser Grad von Hybris zu schaffen macht. In der Antike rief diese Form der Vermessenheit die Götter dazu auf einzuschreiten.
Für Theoriefreunde möchte ich ergänzen, dass in meiner oben benutzten Terminologie nicht nur ein einzelnes Programm als Ausführungsplan für parallele oder zeitlich verschobene Aufrufe des gleichen Prozesses dienen kann. Für einen gleichen Prozess kann es auch unterschiedliche Programme geben, die ihn definieren. Im einfachsten Falle ändert man nur die Variablennamen oder die Programmiersprache. Prozess-Äquivalenz ist jedoch nicht zu verwechseln mit funktionaler Äquivalenz. Zwei Programme berechnen die gleiche (mathematische) Funktion, wenn sie gleiche Ein- und Ausgabewerte haben. Die Zwischenschritte, die Reihenfolge sowie der Platz- und der Zeitbedarf der Berechnung dürfen variieren. Weitere Vertiefungen würden unnötig ablenken.
AntwortenLöschenAuch am 7.10.2013 schrieb Hartmut Wedekind aus Darmstadt:
AntwortenLöschenWir lassen die Stoa hinter uns und kehren zurück zu Platon (428-348 v. Chr.): In der auch heute noch gültigen Ontologie (Seinslehre) des Platon ist die Einteilung der Gegenstände (gr. onta, lat. entia, engl. entity) in Handlungen (gr. praxiz, lat. actio, engl. action) und Dinge (gr. pragma, lat. res, engl. thing) grundlegend.
In der modernen Informatik sagt man statt Ding (thing) „Daten“ und statt Handlung (action) „Prozess“. Bemerkenswert an der platonischen Einteilung ist, dass beide, „Daten“ wie „Prozess“ zu den Gegenständen gehören. So ist es auch: Beide, „Daten“ und „Prozesse“ stehen uns entgegen, „ontologisch“ ist man versucht zu sagen, wenn das Wort „Ontolologie“ durch die Informatik nicht aus opportunistischen Gründen total versaut worden wäre. Die Schuldigen sind allseits bekannt.
NB (Bertal Dresen): Ich wünsche mir, dass Informatiker nicht Daten und Dinge (gleichgültig ob Objekte oder Subjekte) verwechseln oder gar gleichsetzen.
Lieber Bertal,
LöschenDaten werden immer mit einem Programm interpretiert - sonst sind es physikalische Einheiten. Im Buch mit meinen Gedanken darüber (der Verlag hat es leider etwas unpassend "Die Beschleunigung des Wissens" genannt und es erhält miserable Leserkritiken im Gegensatz zu meinen fachlichen Büchern) verwende ich die Kette als Beispiel : Bits eines Scanners - Erkennung von Buchstaben - Erkennen von Wörtern - von Kontext usw..
Dies führt zum Begriff der Emergenz: Aus der niedrigen Stufe entsteht genau dadurch etwas neues.
Dieser Begriff gehört nach meiner An(Ein-)sicht als dritter Begriff zu Daten und Programmen dazu und hat in diesem Sinn eine wohldefinierte Bedeutung im Gegensatz zur alltäglich-philosophischen Verwendung.
Am 8.10.2013 fügte Hartmut Wedekind hinzu:
AntwortenLöschenAlles, was einen Eigennamen (proper name) tragen kann, ist in der logischen Welt ein Gegenstand. Lateinisch Gebildete sagen stattdessen „obiectum“ oder „object“ oder Objekt, wörtlich das Entgegengeworfene . Es wird somit nicht „gestanden“, es wird „geworfen“. Das soll ein Spaß sein. Im „Internet der Dinge“ ist ein Eigenname (proper name) eine Radio Frequency ID (RFID), die der Dingrepräsentation (Daten) zugeordnet wird.
Gibt’s ein Internet der Gegenstände, des Entgegengeworfenen? Ja sicher, weil es ein Internet der Dinge (bald) gibt. Gibt’s es ein Internet des anderen Unterbegriffs, also ein Internet der Prozesse? Warum nicht, nur Frage, ob das Sinn macht. Schemata von Prozessen, z.B. in BPMN formuliert, können als Gegenstand ein RFID bekommen und werden wie Daten aufgefasst. So können Prozesse miteinander dialogisieren, was sie auch jetzt schon tun, bloß nicht großformatig in einem Internet.
NB (Bertal Dresen): Auwei! Jetzt wird es verwirrend. Mit Programm-Schemata hatte ich mich schon einmal befasst. Aber Prozess-Schemata, wie soll ich mir die vorstellen???
Am 9.10.2013 schrieb Hartmut Wedekind:
AntwortenLöschenIch bekomme wieder Lust auf’s Philosophieren, wahrscheinlich, weil ich gleich nach Konstanz fahre, um dort meinen anthropologischen Vortrag zu halten. Das „Ding an sich“ (engl. „thing in itself“) war mal in der Philosophie zurzeit von Kant und davor eine „big issue“. Metaphysiker und Ontologen haben großartig geredet, bis der Kant kam, und das als Unsinn bezeichnete. Heute beim Betrachten von IoT (Internet of Things) tritt der Unsinn ja besonders deutlich hervor.
Ob die Theologie an dem Unsinn auch beteiligt war, weiß ich nicht. Die katholische Kirche jedenfalls hat den Kant nie gemocht und ihn bis Ratzinger für reinen protestantischen Theologen aus einer fremden Welt (Ostpreußen) gehalten. Wenn der ehemalige Papst den Kant zitiert (siehe z.B. die Regensburger Rede), dann auch noch falsch.
Man kann alle Dinge ins IoT bringen, nur eines nicht, das „thing in itself“. Wegen seiner Selbstbezüglichkeit schwebt es unberührt irgendwo im All und hat keinen Eigennamen (proper name). An der Pforte zum IoT steht ein Kontrolleur, der lässt ein „Ding an sich“ nicht herein, eben weil es sich nicht mit einem Eigennamen oder RFID (Radio Frequency ID) ausweisen kann.
Eigentlich müssten doch unsere Beruf-Ontologen in der Informatik ein großes Interesse am IoT haben. Oder suchen die immer noch nach dem „Ding an sich“? Der englische Ausdruck „thing in itself“ klingt eigentlich noch grausamer. Wie können Menschen auf solch einen Blödsinn kommen? Kaum zu glauben.
Am 12.10.2013 schrieb Hartmut Wedekind:
AntwortenLöschenPhilosophen In Konstanz waren verblüfft. Dann sagte mir einer :“Das IoT ist das Ding an sich (D a s) und braucht deshalb kein RFID“,
Da war ich dann platt, insbesondere über die Geschwindigkeit, mit der frühere ontologische Weltprobleme so mit einem Fingerschnippen beantwortet werden. Mir ist das natürlich egal. wie man das Ding nennt: IoT oder D a s. Nur schön, dass jemand auf so etwas kommt . Das ist aber etwas für den Journalismus.