Wie von kaum einer anderen Branche, so werden von der Informatik immer
wieder ‚neue Säue durch das Dorf getrieben‘. In diesem Falle ist der deutsche
Ausdruck sogar derber als der englische. Die Informatik wird dabei nur von ihrer
Schwester, der Wirtschaftsinformatik, übertroffen. Die technische Seite der
Informatik, auch Kerninformatik genannt, ist meistens etwas langsamer. Bei
‚Cloud‘ und ‚Big data‘ ist die Zeitdifferenz des Interesses jedoch relativ
gering. Nur noch so viel: Würde ich von Wolken und großen Daten reden, würde
niemand zuhören. Mit Hilfe von Anglizismen erweitern wir laufend unsere
Sprache. Während bei uns Wolken noch primär aus Wasserdampf bestehen, bestehen
‚clouds‘ nur noch aus Bits und Bytes.
Mein Ex-Kollege Irv
Wladawsky-Berger, auf dessen Blog ich vor kurzem hinwies, ist um Klassen besser
als ich, wenn es darum geht, aktuelle Themen in Wirtschaft und Gesellschaft
anzusprechen. Bei dem Thema ‚Big data‘ will er gleich unsere ganze Gesellschaft
neu erfinden (Reinventing
Society in the Wake of Big Data). Er lässt sich dabei von dem MIT-Professor
Alexander Pentland hinreißen, der an Prometheus erinnert, den Helden aus
der griechischen Mythologie, der den Menschen das Feuer brachte.
“To
be able to see the details of variations in the market and the beginnings of
political revolutions, to predict them, and even control them, is definitely a
case of Promethean fire. . . We’re going to reinvent what it means to have a
human society.”
Was ist passiert?
Seit das Internet auch auf kommerzielles Interesse gestoßen ist,
sammeln sich in ihm Daten in bisher nie gekanntem Umfang. Von Jahr zu Jahr
werden die Schätzungen nach oben revidiert, will man den Umfang an kommerziell
verwertbaren Daten beschreiben, der über das Internet zur Verfügung steht. Man
unterscheidet eventuell noch, ob man die Daten meint, die sich direkt auf
Internet-Knoten befinden, und solchen, die über Internet-Knoten erreichbar
sind. Zum Glück liefert das griechische Alphabet noch Namen für die zugehörigen
Zehnerpotenzen. Im Moment ist Exabytes (1018 Bytes) die gängige
Maßzahl. Demnächst werden es Zetabytes (1021 Bytes) sein. Solche
Datenmengen sind nicht nur interessant für das halbe Dutzend Informatik-Riesen
(Amazon, Apple, Facebook, Google, Oracle und SAP), sondern auch für viele
Regierungen oder nicht-staatliche Organisationen.
Wenn Firmen um Kunden wetteifern, deren Anzahl in die Milliarden geht, ist es kein Wunder, dass ihre Datenbestände ebenfalls in entsprechende Größenordnungen anwachsen. Wie viele Rechner Unternehmen wie Amazon, Google und Facebook betreiben, ist zwar offiziell nicht bekannt. Jedermann weiß jedoch, dass es etliche Hunderttausende sind. Zählt man nur die Server, sind es einige Hunderttausend weniger, aber immer noch Hunderttausende. Dabei können als technische Lösung eine Vielzahl der Server auch auf einem Großrechner untergebracht (‚gehostet‘) sein.
Wenn Firmen um Kunden wetteifern, deren Anzahl in die Milliarden geht, ist es kein Wunder, dass ihre Datenbestände ebenfalls in entsprechende Größenordnungen anwachsen. Wie viele Rechner Unternehmen wie Amazon, Google und Facebook betreiben, ist zwar offiziell nicht bekannt. Jedermann weiß jedoch, dass es etliche Hunderttausende sind. Zählt man nur die Server, sind es einige Hunderttausend weniger, aber immer noch Hunderttausende. Dabei können als technische Lösung eine Vielzahl der Server auch auf einem Großrechner untergebracht (‚gehostet‘) sein.
Zwei Software-Produkte sind schon länger in aller Munde, nämlich MapReduce und Hadoop. Ersteres stammt
von Google, das zweite von der Apache-Stiftung. Beide erlauben das Verarbeiten
von großen Datenmengen im Petabyte-Bereich (1015 Bytes), die auf
unterschiedlichen Knoten gespeichert sind. Diese Produkte gelten als die
wichtigsten Neuerungen im Bereich der Datenorganisation in den letzten zehn
Jahren.
Einige essentielle
Besonderheiten
Aus der Vielzahl der Fragestellungen, die sich um ‚Big data‘ ranken,
will ich fünf Besonderheiten herausgreifen. Sie scheinen grundsätzlicher Natur
zu sein, also essentiell und nicht akzidentiell.
(1) Unkontrolliertes Wachstum:
Übergroße Datenbestände haben gewisse Ähnlichkeiten mit den Software-Systemen,
die Broy und Endres [1] unter der Bezeichnung Übergroße Systeme (engl.
Ultra-large-scale systems) diskutierten.
Es sind dies riesige Software-Systeme, die ungeplant und unkontrolliert wachsen als Systeme von Systemen. Sie sind
Welt umfassend und stellen wichtige Infrastrukturen dar, so für den Handel, die
Gesundheit und den Verkehr. Vom Code-Umfang her stoßen sie in den Bereich von
Milliarden Programmzeilen (GLOC) vor. … Sie setzen langfristig gültige
Strukturen und Schnittstellen voraus. Sie wachsen über Jahrzehnte hinweg und
sind empfindlich sowohl gegen Naturkatastrophen wie gegen Terroranschläge. Das
Internet selbst ist das beste Beispiel. Auch die Systeme von Amazon und Google
sowie die Buchungssysteme von Reisebüros und Fluggesellschaften gehören dazu.
‚Big data‘ sind quasi das
Gegenstück. Gemeinsam ist vor allem das unkontrollierte Wachsen. Noch weniger
wie Facebook die Anzahl seiner Nutzer vorhersagen kann, kann man abschätzen,
welche Datenmengen und Datenarten sie der von Facebook bereitgestellten
Software zur Verfügung stellen werden. Auch können die Datenmengen sehr
schwanken. Amazon muss seine Kapazitäten (Menschen und Geräte) auf das
Weihnachtsgeschäft ausrichten. Kommt es hier zu Engpässen, ist die Firma
ruiniert. Für den Rest des Jahres kann man zwar den Mitarbeiterstab
verkleinern, nicht jedoch die Informatik-Systeme.
(2) Nur lesende, extensive
Nutzung: Zu den Daten, die mit dem Schlagwort ‚Big data‘ klassifiziert
werden, gehören nicht die operationellen Daten, die das Tagesgeschäft
ermöglichen. Es geht primär um eine nur lesende Zweitnutzung bereits
angefallener Daten. In einem früheren
Eintrag dieses Blogs wurde diese Art der Datennutzung als ‚Data Warehousing‘ bereits
erläutert. Im Grunde geht es bei ‚Big data‘ um dasselbe, nur eine Zehnerpotenz
größer und über das ganze Internet verteilt. Entscheidend ist, dass die Daten nur
passiv und selektiv genutzt werden. Die Organisation der Daten ist vorgegeben.
Sie ändern zu wollen, macht keinen Sinn. In der Landwirtschaft kennt man auch
den Begriff der extensiven Nutzung, etwa bei Bergwiesen oder bei Latifundien.
Wegen der anhaltenden Agrarüberflüsse wird diese Form in Europa derzeit gefördert.
Ihr Gegenteil sind die Reisterrassen in Asien. Gewisse Analogien zur Datenverwaltung
drängen sich auf.
(3) Detailtreue trotz Masse:
Es ist ein Widerspruch zu lösen, den nur die Informatik lösen kann. Wenn die
Zahl der Objekte auch noch so groß ist, so behalten sie doch ihr Recht auf
Eigentümlichkeit, auf Diversität. Sie widersetzen sich der Abstraktion, da
diese das Wesentliche entfernen würde. Sie würde die wertvollen Nuancen übertünchen, in
denen die eigentliche Information steckt. Nur vollständige Diskretisierung und
brutale Treue zum Detail ist Gebot.
(4) Balance-Akt bezüglich
Privatsphäre: Der Erfolg jeder extensiven Datennutzung hängt sehr
entscheidend davon ab, wo die Trennungslinie zwischen öffentlichen und privaten
Daten gezogen wird. Nur nach einer sehr starken Anonymisierung darf mein
medizinisches Schicksal oder mein Einkaufsverhalten im Weihnachtsgeschäft für
wissenschaftliche oder wirtschaftliche Untersuchungen genutzt werden. Hier
besteht ein sensibles Problem. Da ich weiß, wer die Daten erfasst, weiß ich,
auf wessen Zuverlässigkeit ich angewiesen bin. Das ist auch der Grund, warum
ich in fünf so genannten sozialen Netzen nur ein einziges Mal mit Klarnamen
auftauche. Besonders vorsichtig bin ich bei Unternehmen, deren Geschäftsmodell
davon abhängig ist, dass sie private Daten über mich erfahren.
(5) Dauerhaftigkeit des Problems:
Manche Leute wünschen sich, dass die augenblickliche Umfangsexplosion der Datenbestände
nur vorrübergehenden (ephemeren) Charakter habe. Dafür besteht wenig Hoffnung.
Die bisher genannten Beispiele bezogen sich zwar alle auf private Unternehmen.
Dieser Teil des Problems ist relativ neu und daher überraschend. Viele
staatliche und überstaatliche Organisationen sehen ihren Daseinszweck im
Sammeln von Daten. Das kann sich auf die Bevölkerungsentwicklung beziehen, oder
auf das Ernährungs- oder Gesundheitswesen. Die Daten, die über Rohstoffe, Umwelt
und Klima anfallen, stehen dem nicht nach. Besonders ergiebig sind die
Projekte, die sich den extraterrestrischen Phänomenen widmen, wie z.B. dem
Energiehaushalt der Sonne oder der Hintergrundstrahlung im Weltall.
Sicht der Wissenschaft
Nachdem die Praxis mit dem Problem bereits Jahre,
wenn nicht Jahrzehnte lang gerungen hat, ist es inzwischen auch von den Hochschulen
entdeckt worden. Eine deutsche Fachtagung, die diesen Monat in Magdeburg stattfand, hatte unter anderem zwei amerikanische Referenten eingeladen, einen von einer
Hochschule, einen von einem Informatik-Hersteller, um über Teilaspekte des
Themas vorzutragen.
Der anwesende Vertreter eines Herstellers
vertrat die Meinung, dass ein völliges Neuschreiben bisheriger Systeme nicht
möglich sei. Die Systeme könnten sich nur graduell weiterentwickeln. Der
Hochschulvertreter stellte fest, dass bisherige Lösungen noch Schwächen besäßen,
da sie meist graduell gewachsen seien. Er schlug einen Entwurf mit neuen und
einheitlichen Konzepten vor. Unter anderem hat er die Notwendigkeit gesehen,
selbstlernende Verfahren zur Anwendung zu bringen. Ohne die Details des
Vorschlags zu kennen, kann ich mir vorstellen, dass das maschinelle Lernen sich
bestenfalls nur auf lokale Optimierungen bezieht. Das Sammeln von grundsätzlichen
Erfahrungen und ihre Kondensierung in Entwurfsentscheidungen kann nach meinem
Dafürhalten nur ein menschlicher Experte leisten. Aufgaben, die für Menschen zu schwierig sind, an Computer zu
übertragen, ist eine Illusion, der nur Fachfremde verfallen.
Ein deutscher Kollege wies daraufhin, wie
nützlich Visualisierungen sein könnten. Bekanntlich sind Visualisierungen eine
sehr effektive Methode, um große Mengen an Daten zu komprimieren bzw. zu
kondensieren. Es kommt dann die menschliche Fähigkeit zum Tragen, selbst Abweichungen
geringsten Ausmaßes optisch oder haptisch leicht zu erkennen. Dieses Argument
habe ich früher selbst benutzt.
Anstatt einer Zusammenfassung
Wie sagte doch Kollege Ludewig in
diesem Blog: ‘…nicht jede Sau, die durch das Dorf läuft, verdient es, bejubelt
zu werden.‘ Das Thema ‚Big data‘ sollte allerdings nach meiner Meinung die allergrößte
Aufmerksamkeit erfahren. Das gilt für die Praxis genauso wie für die
Wissenschaft. Es geht dabei nicht um Probleme, die wir uns erst ausdenken oder definieren
müssen. Es betrifft die Realität von heute.
Wie das Thema in zukünftigen Produktstrukturen
seinen Niederschlag finden wird, wage ich nicht zu beurteilen. Die Frage ist
eigentlich sekundär. In mancher Hinsicht erinnert Einiges mich an die
objekt-orientierten Datenbanken. Eine Weile sah es so aus, als ob es unmöglich
sei, die vorhandenen relationalen Datenbanksysteme entsprechend zu erweitern. Speziallösungen
überschwemmten den Markt. Die Platzhirsche, die relationalen Datenbanken, haben
es schließlich doch geschafft, nicht in Normalform gespeicherte Daten angemessen
zu verarbeiten.
Ob ‚Big data‘ die Menschheit in dem Maße
weiterbringen wird, wie dies die oben zitierten amerikanischen Kollegen erhoffen, sei
dahingestellt. Wichtig ist, dass hier die Informatik enorm gefordert ist. Sie
hat die Chance, ihre einzigartige Bedeutung für die Menschheit erneut unter
Beweis zu stellen. Nur sie besitzt Lösungskompetenz im praktischen Umgang mit
großer Vielfalt und Massenhaftigkeit.
Zusätzliche Referenz
- Broy,M., Endres,A.: Informatik überall, jederzeit und für alle. Informatik-Spektrum 32,2 (2009), 153-162
Nachtrag am 27.3.2013: Auszeichnung für MapReduce
ACM in New York und die Infosys Foundation in Bangalore gaben
gestern gemeinsam bekannt, dass Jeffrey Dean und Sanjay Ghemawat den ACM-Infosys Foundation Award in Informatik für
2012 erhalten haben.
Dean und Ghemawat hatten im Jahre 2004 in einer Forschungsarbeit
MapReduce vorgestellt. Es gestattet
die vereinfachte Datenverarbeitung auf großen Clustern. Sie lösten damit ein
Kern-Problem für den Google-Suchdienst. Sie hatten festgestellt, dass sie nicht
schnell genug Maschinen bereitstellen konnten, um die beispiellosen Mengen an
Daten zu verarbeiten, die von dem immer beliebter werdenden Google-Dienst benötigt
wurden. Sie verfolgten eine Software-Lösung für etwas, was wie ein Hardware-Problem
aussah. Diese Technologie wird inzwischen von nahezu allen großen
Internet-Unternehmen in der Welt eingesetzt. Die von Dean und Ghemawat geschaffene
skalierbare Infrastruktur ist entscheidend für das aufstrebende Gebiet des
Cloud Computing, die Ressourcen über das ganze Internet verteilt bereitstellt.
ACM Präsident Vint Cerf sagte die Beiträge von Dean und
Ghemawat haben die Informatik des 21. Jahrhundert verändert. "Sie schufen
die technologischen Grundlagen einer unverzichtbaren Information Retrieval
Ressource. Als Folge davon können sich Millionen von Ingenieuren,
Wissenschaftlern und Gelehrten sowie normale Nutzer auf diese verteilten Software-Systeme
verlassen, die die Kapazität von Zehntausenden von Computern ausnutzen."
Der Preis ist mit 175.000 US$ dotiert.
Am 25.3.2013 schrieb Otto Buchegger aus Tübingen:
AntwortenLöschenHeute ist alles ein Hype, was anderes wird von den Medien ja ignoriert ...
Heute machte der Heidelberger Springer-Verlag folgende Ankündigung:
AntwortenLöschenWe are currently working with Springer on a new peer-reviewed, open access journal, the Journal of Big Data, and we would like to invite you to submit your next manuscript.
The Journal of Big Data has its own dedicated website on the SpringerOpen platform where all articles published in the journal will be freely and permanently available.
Publishing in an open access journal such as the Journal of Big Data increases the visibility and impact of your research. All manuscripts are subject to rigorous peer review, guaranteeing the quality and reliability of the work.
You retain the copyright and because all articles are published under the liberal Creative Commons Attribution (CC BY) license you can be certain of complying with open access mandates.
Borko Furht and Taghi Khoshgoftaar, Editors-in-Chief, Journal of Big Data