Donnerstag, 8. Januar 2015

Rudolf Bayer über Datenbanken und andere Software-Themen

Rudolf Bayer (Jahrgang 1939) ist emeritierter Professor für Informatik der TU München. Er hatte dort seit 1972 den Lehrstuhl für Datenbanksysteme und Wissensbasen inne. Seit 2003 ist er im Ruhestand. Bayer entwickelte zusammen mit E.M. McCreight die Datenstruktur des B-Baumes. Weiterentwickelte Versionen, sowie der B+-Baum und der Präfix-B+-Baum werden in allen heute gängigen Datenbanksystemen sowie in vielen moderneren Dateisystemen eingesetzt. Bayer hat den B-Baum zusammen mit Volker Markl zum UB-Baum, weiterentwickelt. der patentrechtlich geschützt ist. Bayer ist Mitbegründer und Aufsichtsratsvorsitzender der Firma Transaction Software mit Sitz in München.  

Bayer war unter anderem für IBM, Siemens, Amdahl, DEC sowie die Deutsche Telekom als Berater tätig und arbeitete als Gast-Professor bei IBM, im Palo Alto Research Center und an verschiedenen Universitäten in Japan, Australien, den USA und Singapur.  Er wurde mit dem Bundesverdienstkreuz ausgezeichnet und erhielt 2001 den SIGMOD Innovations Award der ACM. Außerdem ist er seit 2005 Fellow der Gesellschaft für Informatik (GI). Bayer studierte Mathematik in München und an der University of Illinois, wo er im Jahr 1966 den Titel Ph. D. erhielt.  

 

Bertal Dresen (BD): Viele junge Informatiker erfahren zum ersten Mal, dass Informatik ein technisches Fach ist, wenn sie lernen wie man baumartige Strukturen auf eine Speicherhierarchie abbildet. Ich selbst lernte B-Bäume kennen, als wir 1970-1973 die  Dateiorganisation VSAM (Virtual Storage Access Method) für DOS/VS Release 29 implementierten. Wieso kamen Sie ausgerechnet bei Boeing zu dieser epochalen Erfindung? Welche frühen Kontakte hatten Sie zu IBM oder andern Firmen der Branche? 

Rudolf Bayer (RB): In den späten 1960er Jahren wurden Großflugzeuge (747, C5A) entwickelt, deren gesamter Produktionsprozeß akribisch dokumentiert werden musste. Für die damaligen Rechner war das eine große Herausforderung: Die IBM 360/44 hatte maximal 256 KB (Kilobyte) Hauptspeicher und 7,5 MB (Megabyte) Festplattenspeicher. Der B-Baum als Index-Struktur mit seinen hervorragenden Eigenschaften ist bis heute die Antwort, sogar noch bei der Indexierung des Internets. 

Ich machte schon 1962 als beginnender Student ein Praktikum bei der IBM in Stuttgart und programmierte die legendäre IBM 650 mit einem Trommelhauptspeicher - man konnte an der Schaltkonsole noch die Schleifendurchgänge mitzählen. Bei der Erfindung das B-Baumes gab es aber keine Kontakte zur IBM oder anderen Firmen. 

BD: Ich lernte Sie persönlich kennen, kurz nachdem Sie 1972 den Ruf nach München angenommen hatten. Sie vertraten das Gebiet der Daten- und Wissensbasen in Lehre und Forschung. Bekanntlich erhielt die Datenbankforschung durch Codds Relationales Modell enormen Auftrieb, insbesondere in Deutschland. Welche Ergebnisse aus dieser universitären Forschung haben sich im Markt ausgewirkt? Ist meine Vermutung richtig, dass die vielgepriesenen Objektorientierten Datenbanken es nicht schaffen werden, sich einen signifikanten Marktanteil zu erwerben? Welche Erweiterungen von Codds Modell haben nach Ihrer Ansicht längerfristig Potenzial?  

RB: Codds Relationales Modell bot wegen seiner Einfachheit und seiner extremen Abstraktion hervorragende Möglichkeiten für die akademische Forschung, z.B. bei der Normalisierungstheorie, die durch immer neue Spielarten von „Normalformen“ zum Exzeß getrieben wurde, aber oft an der Praxis vorbei forschte. Die wirklichen Probleme für die praktische Umsetzung – für die sich Codd nach meiner Beobachtung kaum interessierte – wurden am legendären IBM Labor in San Jose im Rahmen des Forschungsprototyps System R gelöst: 

  1. SEQUEL (später SQL genannt) als deklarative Programmiersprache und Alternative zur relationalen Algebra (Don Chamberlin)
  2. Algorithmische Optimierung des deklarativen SEQUEL (Pat Selinger)
  3. Transaktionskonzept (Jim Gray)
  4. Parallelverarbeitung auf B-Bäumen (Bayer/Schkolnick)  

Die Lösungen dieser vier Probleme waren die Eckpfeiler für die praktische Implementierbarkeit und den kommerziellen Erfolg des relationalen Ansatzes, jedes einzelne wäre bei Schwierigkeiten ein KO-Kriterium für das relationale Modell gewesen. Die größte Auswirkung auf die universitäre Forschung und Ausbildung in Deutschland ergab sich einfach dadurch, daß fast alle heutigen Datenbank-Professoren nach mir eine Zeit lang Gäste bei der IBM in San Jose und später in Santa Theresa waren, dort hervorragende Kollegen trafen und mit der nichtakademischen Realität konfrontiert wurden. 

Die „Erweiterungen“ des Coddschen Modells sehe ich als wichtige Anwendungen, die nur auf den ersten Blick nicht-relational aussehen: Volltext-Suche, digitale Bibliotheken, komplexe geographische oder CAD-Objekte, Bilder, Column Stores, Main-Memory-Datenbanken, Data Mining. Es ist erstaunlich, dass sie sich alle sehr gut auf relationalen Systemen modellieren und mit hinreichender Performanz implementieren lassen und dass deshalb Speziallösungen sich nur selten und kurzfristig halten können. 

BD: Im Moment – so erscheint es mir – muss das ganze Thema Datenorganisation und Datenbanken neu durchdacht werden. Das Problem der Speicherhierarchie stellt sich heute anders. Die Kluft zwischen permanenten und schnellen Speichern entfällt. In-Memory-Datenbanken wie SAPs HANA und dgl. machen von sich reden. Worin sehen Sie die neuen Herausforderungen, sowohl wissenschaftlich wie technisch? 

RB: Das Thema muss neu durchdacht werden, aber nicht weil die Kluft zwischen permanenten und schnellen Speichern entfallen wäre, sondern weil die Speicherhierarchie viel komplexer geworden ist, und es heute nicht eine, sondern viele Klüfte gibt. Früher gab es nur zwei Speicherebenen, Hauptspeicher und Festplatte. Alle Daten, die eine Firma oder Organisation hatte, lagen auf der Festplatte, die durch ein Bandarchiv abgesichert war.  

Heute gibt es viele Ebenen: mehrere Ebenen von Caches, den virtualisierten Hauptspeicher, Festplatten, die Cloud, und vor allem das Internet. Ich betrachte das Internet/WWW ganz einfach als einen riesigen und langsamen Hintergrund-Speicher mit einer sehr hohen Latenzzeit beim Zugriff. Firmen, Organisationen und Privatpersonen nutzen heute viel mehr Daten, als sie auf ihrer Festplatte vorhalten könnten. Das Ganze funktioniert nur, weil Google den Index für den Hintergrundspeicher WWW bereithält, und dieser Index funktioniert nach Aussagen von Google auf einer B-Baum-Variante im Google File System. 

In diesem Szenario bedienen Hauptspeicher-Datenbanken wie HANA und Column Stores nur den kleinen Nischenmarkt von Buchhaltungs- und Data Warehouse-Systemen für die Daten einer einzigen Firma, wobei sie bei höheren Transaktionsraten schon Probleme bekommen. Schon das Modethema Big Data über Firmen hinweg sprengt diesen Rahmen. 

BD: Die Wissensverarbeitung erschien vielen Kollegen lange Zeit als die natürliche Weiterentwicklung der Datenbanktechnik. Bei FORWISS, dem Bayrischen Forschungsverbund für wissensbasierte Systeme, waren Sie persönlich engagiert. Wie sehen Sie heute die Ziele und Ergebnisse dieses Forschungsgebiets? Lösen die semantische Beschreibung und das logische Schließen wirklich die größten Probleme, die Nutzer haben? Ist das Semantic Web einmal in der Lage, Anwendungen anzubieten, ‚die den Mensch in all seinen Lebensbereichen umfassend unterstützen‘ (wie es in Wikipedia steht)? Ich habe die Zahlen gerade nicht parat. Irgendjemand sagte, dass nicht-formatierte Daten heute bereits im Netz überwiegen und dass sie schneller anwachsen als formatierte Daten. Wenn das stimmt, was folgt daraus für die Wissenschaft und Technik? 

RB: Ich habe bei FORWISS von vorneherein versucht, die Brücke zwischen Wissensverarbeitung und Datenbanken zu schlagen, indem ich meine Forschungsgruppe „Wissensbasen“ nannte und ähnlich auch einen entsprechenden DFG-Schwerpunkt „Objektbanken für Experten“ gemeinsam mit mehreren Datenbank-Kollegen organisierte.  

Das Forschungsgebiet „wissensbasierte Systeme“ war ein Hype ähnlich wie die objektorientierten Datenbanken mit hohem Anspruch, der sich aber nicht erfüllte. Es gab die Ära der Expertensysteme, Logikprogrammierung, Regelverarbeitung (1985-1995), die sich hervorragend für akademische Forschungspapiere mit isolierten Ergebnissen eignete. Daraus erwuchsen auch reichlich Professoren, aber auf den Mainstream von Computing hatte diese aufregende Ära rückblickend wenig Einfluss 

Das WWW hat diese Ära völlig verdrängt und da spielen semantische Beschreibungen und logisches Schließen kaum eine Rolle. Das WWW lebt von den wenigen Begriffen in den Meta-tags „keywords“ und „description“, die von den Webcrawlern im Kopf von Webseiten extrahiert und indexiert werden. Hinzu kommen Bigramme und Trigramme, die bei den Suchanfragen gesammelt, nach Häufigkeit sortiert und den Nutzern als Vorschläge präsentiert werden. Selbst der zentrale Ranking-Algorithmus von Google hat mit Semantik wenig zu tun, sondern zählt nur die Weblinks von und zu Seiten sowie die Klicks der Nutzer. Es ist zwar richtig, dass die nicht-formatierten Daten im Netz überwiegen, aber ihr semantischer Inhalt wird mit einfachen syntaktischen Methoden zu erschließen versucht, mit Semantik und logischem Schließen hat das kaum etwas zu tun. 

Ob sich Semantik, Logik und Wissensverarbeitung etablieren können, bleibt abzuwarten. Natürlich werden bei den unformatierten Daten im Netz spezielle Algorithmen vorgeschaltet, z.B. zum Erkennen von Gesichts- oder Fingerabdrücken, aber sie dienen nur dazu, wenige charakterisierende formale Merkmale zu extrahieren und dann in Indexen für den Vergleich und das schnelle Retrieval zu organisieren. 

BD: Sie sind Mitbegründer und Aufsichtsratsvorsitzender der Firma Transaction Software. Sie gelten auch heute noch als einer ihrer Impulsgeber. Was hat Sie dazu bewogen, sich so zu sagen ein zweites Standbein zu verschaffen? Ich nehme an, dass es Ihnen auch darum ging den Technologietransfer zu ermöglichen oder zu erleichtern. Haben sich Ihre Erwartungen in dieser Hinsicht erfüllt? Welche Ratschläge können Sie Kollegen geben aufgrund der Lehren, die Sie zogen? 

RB: Für mich ging es nicht um ein zweites Standbein, sondern um zwei Punkte: 
  1. Die Transaction Software GmbH wurde 1987 gegründet. Damals dachte in Deutschland kaum jemand an kommerzielle Ausgründungen aus einer Universität heraus. Ich wollte zeigen, dass das Sinn macht und funktioniert, ähnlich wie in den USA.
  2. Wir hatten damals mit dem Vorläufer des heutigen Transbase weltweit das erste verteilte DBMS mit verteilten Transaktionen über mehrere Rechner hinweg. Ich wollte das als visionäres Produkt umsetzen. Bei der Finanzierung setzte ich auf einen amerikanischen und einen schweizerischer Investor. Das war richtig. Bei der technischen Umsetzung vom Prototyp zum Produkt setzte ich auf eine deutsche Großfirma ohne Vision und Comitment. Das war ein großer Fehler. 
Gelernt habe ich daraus vor allem, dass deutschen Investoren und Anwendern die Risikobereitschaft und deutschen IT-Firmen die Visionen für neue Produkte fehlen. 

BD: Engeren Kontakt bekamen wir während meiner Münchner Jahre von 1993 bis 1997. An den damaligen Diskussionen über die Patentierung software-basierter Erfindungen nahmen wir beide auch öffentlich teil. Die Erfindung des B-Baums hatten Sie in den 1970er Jahren der Öffentlichkeit frei zur Verfügung gestellt. Beim UB-Baum entschieden Sie sich dazu, einen patentrechtlichen Schutz anzustreben. Was waren die Gründe? Was waren Ihre Erfahrungen? Halten Sie diesen Schritt nachträglich für richtig und warum? Was empfehlen Sie Kollegen in einer ähnlichen Situation, vor allem an Hochschulen? 

RB: In den 1970er Jahren (der B-Baum wurde im Herbst 1969 erfunden) wurde Software als Zuckerl zur Hardware verschenkt. Niemand glaubte, dass man Software patentieren oder gar verkaufen kann. Das Unbundling kam erst später. Als der UB-Baum 1996 erfunden wurde, hatte sich die Situation total umgedreht. Es war kein Problem, den UB-Baum weltweit zu patentieren, allerdings zu hohen Kosten, die für Privatleute meistens prohibitiv sind. Mein Ziel war hauptsächlich, der Transaction Software GmbH, die Partner in einem EU-Projekt war, einen kompetitiven Vorsprung zu verschaffen. Der Streit mit der TU München über eine einvernehmliche Gestaltung der Verwertungsrechte am Projekt war allerdings ein zeitraubendes Trauerspiel. 

Trotzdem ist meine Meinung zur Software-Patentierung nach wie vor: An kreativen Ideen sollten auch die Erfinder fair beteiligt werden und nicht nur diejenigen, die die Ideen anderer verpacken, vermarkten und Beratungshonorare einstreichen wie im Open-Source-Bereich. Dafür ist Software-Patentierung ein Weg. Allerdings sollten die Hürden für ein Software-Patent ähnlich hoch wie in Europa sein (Erfindungshöhe als wesentliches Kriterium) und nicht so niedrig wie in den USA, wo Patente zu oft nur als strategische Waffe gegen kleinere Firmen eingesetzt werden. 

BD: Durch die Enthüllungen Edward Snowdens kam Mitte 2013 eine Diskussion in Gang, ob westliche Staaten noch den richtigen Trade-off machen zwischen Sicherheit und Freiheit. Sie plädierten dafür, dass es Bürgern erleichtert wird, ihre elektronische Korrespondenz zu verschlüsseln. Unter anderem forderten Sie eine verbesserte Public-Key-Infrastruktur (PKI). Ich glaube, Sie waren mit der Resonanz Ihrer Vorschläge nicht ganz zufrieden. Wie sehen Sie das heute?  

RB: Ich war von den Reaktionen der Politik, der Wirtschaft, der Öffentlichkeit, vor allem aber der Informatik-Fachwelt extrem enttäuscht. Das Problem wird trotz der Aufregung in den Medien allgemein bagatellisiert, vielleicht weil sich kaum jemand wirklich klar macht, wie detailliert die Profile sind, die Geheimdienste und Firmen wie Google, Facebook, Apple und Amazon über uns schon erstellt haben und weiter detaillieren. Sie wissen über viele Bürger wesentlich mehr, als diese selbst über sich sogar mit Hilfe ihres Tagebuches rekonstruieren können, z.B. wann, wo und mit wem sie Nachrichten ausgetauscht haben, mit welchen Inhalten, und sogar welche Kleidung sie bei diesen Gelegenheiten trugen.  

Ein kleiner Schritt zur Wahrung unserer Privatsphäre ist die Verschlüsselung von E-Mails. Aber die dafür erforderliche PKI ist momentan unbrauchbar, und wir Informatiker haben es bisher versäumt, dagegen etwas zu tun, und die oben erwähnten Firmen werden sich dagegen stemmen, weil es gegen ihre Geschäftsinteressen ist. 

BD: In letzter Zeit sind einige Entwicklungen im Software-Umfeld eingetreten, die ich als richtungsweisend ansehe. Die Firma Apple hat es geschafft, für das schier unlösbare Problem der Verbreitung von Spam und Schad-Software eine Lösung zu finden. Es ist die Rückkehr zu geschlossenen Systemen. Der Firma Google ist es gelungen, durch eine sehr effektive Erschließung des Werbemarkts einen Einnahmestrom zu generieren, der es ihr erlaubt, allen anderen Software-Firmen ihr Geschäftsmodell zu zerstören. Dass Google dies auch bei Zeitungen tut, erweckte große Beachtung, insbesondere in der Politik. Über den Effekt auf die Software-Branche redet niemand. Was ist Ihre Meinung hierzu? 

RB: Der Kampf zwischen diesen zwei Giganten der offenen und der geschlossenen Systeme ist schon deshalb interessant, weil beide Modelle wirtschaftlich sehr erfolgreich sind. Eine Rückkehr zu den geschlossenen Systemen sehe ich schon deshalb nicht, weil ihr Marktanteil stark schrumpft. Die Hauptgefahr für die Software-Branche sehe ich darin, dass die Standard-Software eines einzigen Herstellers, nicht nur dominiert – das war auch bisher schon so – sondern durch Werbung und den Null-Grenzkosten-Effekt so billig wird, dass nur noch kleine Nischenmärkte übrig bleiben. Gegen diesen Trend ist die Kreativität der Informatiker gefordert. 

BD: Herr Bayer, vielen Dank für das sehr interessante Interview, das voller überraschender Gedanken ist. Ich freue mich stets, wenn meine Interview-Partner etwas unerwartete Ansichten und Einsichten vertreten, da diese eigenes Denken und eigenes Erleben verraten.

Kommentare:

  1. Der obige Beitrag gab Veranlassung zu einem Dialog zwischen zwei Lesern dieses Blogs:

    Leser A: Wenn ich die Funktionalität von ERP-Anwendungen sehe, das ist schon eine ganze Menge Holz, auch in Zeiten der Main Memory und komplizierten Speicherhierarchien, das ich nicht einfach in eine Nische bekomme, lokal wie global verteilt. Das ist in Wirtschaftsunternehmen die halbe Miete. Wenn dann noch CIM und CAM und Design dazu kommen, ist der Sack prallvoll. Es wird heute tüchtig „outgesourced“ und es geht transaktional über diverse Firmen hinweg. Die GfK ist z.B. ein einziges europaweites Warehouse-System. Wer das als Nische bezeichnet, ich glaube, der irrt sich in seinem Urteil. Gefragt wird, wo sind bei ERP-Systemen die komplizierten Algorithmen? Business Komplexität ist ganz etwas anderes als Algorithmen-Komplexität. Die Komplexität der Business-Operationen liegt im dauernden Vor und Zurück und dann noch permanent interaktiv.

    Leser B: Das ist schon richtig – aber Bayer bezieht sich ja hier auf die unterschiedlichsten Speicherhierarchie-Ebenen mit dem Internet als den ultimativen, globalen, über Google indizierten unternehmensübergreifenden Hintergrundspeicher. Im Vergleich dazu adressiert HANA lediglich das vergleichsweise geringe Datenvolumen eines einzelnen Unternehmens. Es geht hier also lediglich um das schiere Volumen, um die Dimensionsunterschiede, um lokal vs. global sowie um die Technologie, die dahintersteht, um das alles möglich zu machen (nämlich B-Bäume), und weniger um die Bedeutung der Anwendung an sich. Im Prinzip sagt er: Was interessieren mich die Sandkastenspielchen einer In-Memory-DB mit Column-Store für Unternehmen, wenn die Welt über B-Bäume indiziert wird? Welches ist also das wirklich überlegene System? Zumindest ist das meine Interpretation.

    AntwortenLöschen
    Antworten
    1. Soeben schrieb Rudolf Bayer aus München:

      Ich wollte die ERP-Systeme natürlich nicht bagatellisieren, aber Leser B hat die Situation sehr gut erfasst und beschrieben.

      Löschen