Montag, 25. März 2013

‚Big Data‘ – nach der ‚Cloud‘ schon wieder ein Hype?

Wie von kaum einer anderen Branche, so werden von der Informatik immer wieder ‚neue Säue durch das Dorf getrieben‘. In diesem Falle ist der deutsche Ausdruck sogar derber als der englische. Die Informatik wird dabei nur von ihrer Schwester, der Wirtschaftsinformatik, übertroffen. Die technische Seite der Informatik, auch Kerninformatik genannt, ist meistens etwas langsamer. Bei ‚Cloud‘ und ‚Big data‘ ist die Zeitdifferenz des Interesses jedoch relativ gering. Nur noch so viel: Würde ich von Wolken und großen Daten reden, würde niemand zuhören. Mit Hilfe von Anglizismen erweitern wir laufend unsere Sprache. Während bei uns Wolken noch primär aus Wasserdampf bestehen, bestehen ‚clouds‘ nur noch aus Bits und Bytes.

Mein Ex-Kollege Irv Wladawsky-Berger, auf dessen Blog ich vor kurzem hinwies, ist um Klassen besser als ich, wenn es darum geht, aktuelle Themen in Wirtschaft und Gesellschaft anzusprechen. Bei dem Thema ‚Big data‘ will er gleich unsere ganze Gesellschaft neu erfinden (Reinventing Society in the Wake of Big Data). Er lässt sich dabei von dem MIT-Professor Alexander Pentland hinreißen, der an Prometheus erinnert, den Helden aus der griechischen Mythologie, der den Menschen das Feuer brachte.

“To be able to see the details of variations in the market and the beginnings of political revolutions, to predict them, and even control them, is definitely a case of Promethean fire. . . We’re going to reinvent what it means to have a human society.”

Was ist passiert?

Seit das Internet auch auf kommerzielles Interesse gestoßen ist, sammeln sich in ihm Daten in bisher nie gekanntem Umfang. Von Jahr zu Jahr werden die Schätzungen nach oben revidiert, will man den Umfang an kommerziell verwertbaren Daten beschreiben, der über das Internet zur Verfügung steht. Man unterscheidet eventuell noch, ob man die Daten meint, die sich direkt auf Internet-Knoten befinden, und solchen, die über Internet-Knoten erreichbar sind. Zum Glück liefert das griechische Alphabet noch Namen für die zugehörigen Zehnerpotenzen. Im Moment ist Exabytes (1018 Bytes) die gängige Maßzahl. Demnächst werden es Zetabytes (1021 Bytes) sein. Solche Datenmengen sind nicht nur interessant für das halbe Dutzend Informatik-Riesen (Amazon, Apple, Facebook, Google, Oracle und SAP), sondern auch für viele Regierungen oder nicht-staatliche Organisationen. 

Wenn Firmen um Kunden wetteifern, deren Anzahl in die Milliarden geht, ist es kein Wunder, dass ihre Datenbestände ebenfalls in entsprechende Größenordnungen anwachsen. Wie viele Rechner Unternehmen wie Amazon, Google und Facebook betreiben, ist zwar offiziell nicht bekannt. Jedermann weiß jedoch, dass es etliche Hunderttausende sind. Zählt man nur die Server, sind es einige Hunderttausend weniger, aber immer noch Hunderttausende. Dabei können als technische Lösung eine Vielzahl der Server auch auf einem Großrechner untergebracht (‚gehostet‘) sein.

Zwei Software-Produkte sind schon länger in aller Munde, nämlich MapReduce und Hadoop. Ersteres stammt von Google, das zweite von der Apache-Stiftung. Beide erlauben das Verarbeiten von großen Datenmengen im Petabyte-Bereich (1015 Bytes), die auf unterschiedlichen Knoten gespeichert sind. Diese Produkte gelten als die wichtigsten Neuerungen im Bereich der Datenorganisation in den letzten zehn Jahren.

Einige essentielle Besonderheiten

Aus der Vielzahl der Fragestellungen, die sich um ‚Big data‘ ranken, will ich fünf Besonderheiten herausgreifen. Sie scheinen grundsätzlicher Natur zu sein, also essentiell und nicht akzidentiell.

(1) Unkontrolliertes Wachstum: Übergroße Datenbestände haben gewisse Ähnlichkeiten mit den Software-Systemen, die Broy und Endres [1] unter der Bezeichnung Übergroße Systeme (engl. Ultra-large-scale systems) diskutierten.

Es sind dies riesige Software-Systeme, die ungeplant und unkontrolliert wachsen als Systeme von Systemen. Sie sind Welt umfassend und stellen wichtige Infrastrukturen dar, so für den Handel, die Gesundheit und den Verkehr. Vom Code-Umfang her stoßen sie in den Bereich von Milliarden Programmzeilen (GLOC) vor. … Sie setzen langfristig gültige Strukturen und Schnittstellen voraus. Sie wachsen über Jahrzehnte hinweg und sind empfindlich sowohl gegen Naturkatastrophen wie gegen Terroranschläge. Das Internet selbst ist das beste Beispiel. Auch die Systeme von Amazon und Google sowie die Buchungssysteme von Reisebüros und Fluggesellschaften gehören dazu.

‚Big data‘ sind quasi das Gegenstück. Gemeinsam ist vor allem das unkontrollierte Wachsen. Noch weniger wie Facebook die Anzahl seiner Nutzer vorhersagen kann, kann man abschätzen, welche Datenmengen und Datenarten sie der von Facebook bereitgestellten Software zur Verfügung stellen werden. Auch können die Datenmengen sehr schwanken. Amazon muss seine Kapazitäten (Menschen und Geräte) auf das Weihnachtsgeschäft ausrichten. Kommt es hier zu Engpässen, ist die Firma ruiniert. Für den Rest des Jahres kann man zwar den Mitarbeiterstab verkleinern, nicht jedoch die Informatik-Systeme.

(2) Nur lesende, extensive Nutzung: Zu den Daten, die mit dem Schlagwort ‚Big data‘ klassifiziert werden, gehören nicht die operationellen Daten, die das Tagesgeschäft ermöglichen. Es geht primär um eine nur lesende Zweitnutzung bereits angefallener Daten. In einem früheren Eintrag dieses Blogs wurde diese Art der Datennutzung als ‚Data Warehousing‘ bereits erläutert. Im Grunde geht es bei ‚Big data‘ um dasselbe, nur eine Zehnerpotenz größer und über das ganze Internet verteilt. Entscheidend ist, dass die Daten nur passiv und selektiv genutzt werden. Die Organisation der Daten ist vorgegeben. Sie ändern zu wollen, macht keinen Sinn. In der Landwirtschaft kennt man auch den Begriff der extensiven Nutzung, etwa bei Bergwiesen oder bei Latifundien. Wegen der anhaltenden Agrarüberflüsse wird diese Form in Europa derzeit gefördert. Ihr Gegenteil sind die Reisterrassen in Asien. Gewisse Analogien zur Datenverwaltung drängen sich auf.

(3) Detailtreue trotz Masse: Es ist ein Widerspruch zu lösen, den nur die Informatik lösen kann. Wenn die Zahl der Objekte auch noch so groß ist, so behalten sie doch ihr Recht auf Eigentümlichkeit, auf Diversität. Sie widersetzen sich der Abstraktion, da diese das Wesentliche entfernen würde. Sie würde die wertvollen Nuancen übertünchen, in denen die eigentliche Information steckt. Nur vollständige Diskretisierung und brutale Treue zum Detail ist Gebot.

(4) Balance-Akt bezüglich Privatsphäre: Der Erfolg jeder extensiven Datennutzung hängt sehr entscheidend davon ab, wo die Trennungslinie zwischen öffentlichen und privaten Daten gezogen wird. Nur nach einer sehr starken Anonymisierung darf mein medizinisches Schicksal oder mein Einkaufsverhalten im Weihnachtsgeschäft für wissenschaftliche oder wirtschaftliche Untersuchungen genutzt werden. Hier besteht ein sensibles Problem. Da ich weiß, wer die Daten erfasst, weiß ich, auf wessen Zuverlässigkeit ich angewiesen bin. Das ist auch der Grund, warum ich in fünf so genannten sozialen Netzen nur ein einziges Mal mit Klarnamen auftauche. Besonders vorsichtig bin ich bei Unternehmen, deren Geschäftsmodell davon abhängig ist, dass sie private Daten über mich erfahren.

(5) Dauerhaftigkeit des Problems: Manche Leute wünschen sich, dass die augenblickliche Umfangsexplosion der Datenbestände nur vorrübergehenden (ephemeren) Charakter habe. Dafür besteht wenig Hoffnung. Die bisher genannten Beispiele bezogen sich zwar alle auf private Unternehmen. Dieser Teil des Problems ist relativ neu und daher überraschend. Viele staatliche und überstaatliche Organisationen sehen ihren Daseinszweck im Sammeln von Daten. Das kann sich auf die Bevölkerungsentwicklung beziehen, oder auf das Ernährungs- oder Gesundheitswesen. Die Daten, die über Rohstoffe, Umwelt und Klima anfallen, stehen dem nicht nach. Besonders ergiebig sind die Projekte, die sich den extraterrestrischen Phänomenen widmen, wie z.B. dem Energiehaushalt der Sonne oder der Hintergrundstrahlung im Weltall.

Sicht der Wissenschaft

Nachdem die Praxis mit dem Problem bereits Jahre, wenn nicht Jahrzehnte lang gerungen hat, ist es inzwischen auch von den Hochschulen entdeckt worden. Eine deutsche Fachtagung, die diesen Monat in Magdeburg stattfand, hatte unter anderem zwei amerikanische Referenten eingeladen, einen von einer Hochschule, einen von einem Informatik-Hersteller, um über Teilaspekte des Themas vorzutragen.

Der anwesende Vertreter eines Herstellers vertrat die Meinung, dass ein völliges Neuschreiben bisheriger Systeme nicht möglich sei. Die Systeme könnten sich nur graduell weiterentwickeln. Der Hochschulvertreter stellte fest, dass bisherige Lösungen noch Schwächen besäßen, da sie meist graduell gewachsen seien. Er schlug einen Entwurf mit neuen und einheitlichen Konzepten vor. Unter anderem hat er die Notwendigkeit gesehen, selbstlernende Verfahren zur Anwendung zu bringen. Ohne die Details des Vorschlags zu kennen, kann ich mir vorstellen, dass das maschinelle Lernen sich bestenfalls nur auf lokale Optimierungen bezieht. Das Sammeln von grundsätzlichen Erfahrungen und ihre Kondensierung in Entwurfsentscheidungen kann nach meinem Dafürhalten nur ein menschlicher Experte leisten. Aufgaben, die für  Menschen zu schwierig sind, an Computer zu übertragen, ist eine Illusion, der nur Fachfremde verfallen.

Ein deutscher Kollege wies daraufhin, wie nützlich Visualisierungen sein könnten. Bekanntlich sind Visualisierungen eine sehr effektive Methode, um große Mengen an Daten zu komprimieren bzw. zu kondensieren. Es kommt dann die menschliche Fähigkeit zum Tragen, selbst Abweichungen geringsten Ausmaßes optisch oder haptisch leicht zu erkennen. Dieses Argument habe ich früher selbst benutzt.

Anstatt einer Zusammenfassung

Wie sagte doch Kollege Ludewig in diesem Blog: ‘…nicht jede Sau, die durch das Dorf läuft, verdient es, bejubelt zu werden.‘ Das Thema ‚Big data‘ sollte allerdings nach meiner Meinung die allergrößte Aufmerksamkeit erfahren. Das gilt für die Praxis genauso wie für die Wissenschaft. Es geht dabei nicht um Probleme, die wir uns erst ausdenken oder definieren müssen. Es betrifft die Realität von heute.

Wie das Thema in zukünftigen Produktstrukturen seinen Niederschlag finden wird, wage ich nicht zu beurteilen. Die Frage ist eigentlich sekundär. In mancher Hinsicht erinnert Einiges mich an die objekt-orientierten Datenbanken. Eine Weile sah es so aus, als ob es unmöglich sei, die vorhandenen relationalen Datenbanksysteme entsprechend zu erweitern. Speziallösungen überschwemmten den Markt. Die Platzhirsche, die relationalen Datenbanken, haben es schließlich doch geschafft, nicht in Normalform gespeicherte Daten angemessen zu verarbeiten.

Ob ‚Big data‘ die Menschheit in dem Maße weiterbringen wird, wie dies die oben zitierten amerikanischen Kollegen erhoffen, sei dahingestellt. Wichtig ist, dass hier die Informatik enorm gefordert ist. Sie hat die Chance, ihre einzigartige Bedeutung für die Menschheit erneut unter Beweis zu stellen. Nur sie besitzt Lösungskompetenz im praktischen Umgang mit großer Vielfalt und Massenhaftigkeit.

Zusätzliche Referenz
  1. Broy,M., Endres,A.: Informatik überall, jederzeit und für alle. Informatik-Spektrum 32,2 (2009), 153-162

Nachtrag am 27.3.2013: Auszeichnung für MapReduce

ACM in New York und die Infosys Foundation in Bangalore gaben gestern gemeinsam bekannt, dass Jeffrey Dean und Sanjay Ghemawat den  ACM-Infosys Foundation Award in Informatik für 2012 erhalten haben.

Dean und Ghemawat hatten im Jahre 2004 in einer Forschungsarbeit MapReduce vorgestellt. Es gestattet die vereinfachte Datenverarbeitung auf großen Clustern. Sie lösten damit ein Kern-Problem für den Google-Suchdienst. Sie hatten festgestellt, dass sie nicht schnell genug Maschinen bereitstellen konnten, um die beispiellosen Mengen an Daten zu verarbeiten, die von dem immer beliebter werdenden Google-Dienst benötigt wurden. Sie verfolgten eine Software-Lösung für etwas, was wie ein Hardware-Problem aussah. Diese Technologie wird inzwischen von nahezu allen großen Internet-Unternehmen in der Welt eingesetzt. Die von Dean und Ghemawat geschaffene skalierbare Infrastruktur ist entscheidend für das aufstrebende Gebiet des Cloud Computing, die Ressourcen über das ganze Internet verteilt bereitstellt.

ACM Präsident Vint Cerf sagte die Beiträge von Dean und Ghemawat haben die Informatik des 21. Jahrhundert verändert. "Sie schufen die technologischen Grundlagen einer unverzichtbaren Information Retrieval Ressource. Als Folge davon können sich Millionen von Ingenieuren, Wissenschaftlern und Gelehrten sowie normale Nutzer auf diese verteilten Software-Systeme verlassen, die die Kapazität von Zehntausenden von Computern ausnutzen." Der Preis ist mit 175.000 US$ dotiert.

Kommentare:

  1. Am 25.3.2013 schrieb Otto Buchegger aus Tübingen:

    Heute ist alles ein Hype, was anderes wird von den Medien ja ignoriert ...

    AntwortenLöschen
  2. Heute machte der Heidelberger Springer-Verlag folgende Ankündigung:

    We are currently working with Springer on a new peer-reviewed, open access journal, the Journal of Big Data, and we would like to invite you to submit your next manuscript.

    The Journal of Big Data has its own dedicated website on the SpringerOpen platform where all articles published in the journal will be freely and permanently available.

    Publishing in an open access journal such as the Journal of Big Data increases the visibility and impact of your research. All manuscripts are subject to rigorous peer review, guaranteeing the quality and reliability of the work.

    You retain the copyright and because all articles are published under the liberal Creative Commons Attribution (CC BY) license you can be certain of complying with open access mandates.

    Borko Furht and Taghi Khoshgoftaar, Editors-in-Chief, Journal of Big Data

    AntwortenLöschen