Rudolf Bayer (Jahrgang 1939) ist emeritierter Professor für Informatik der TU
München. Er hatte dort seit 1972 den Lehrstuhl für Datenbanksysteme und
Wissensbasen inne. Seit 2003 ist er im Ruhestand. Bayer entwickelte zusammen
mit E.M. McCreight die Datenstruktur des B-Baumes. Weiterentwickelte
Versionen, sowie der B+-Baum und der Präfix-B+-Baum werden in allen heute gängigen Datenbanksystemen
sowie in vielen moderneren Dateisystemen eingesetzt. Bayer hat den B-Baum zusammen
mit Volker Markl zum UB-Baum, weiterentwickelt.
der patentrechtlich geschützt ist. Bayer ist Mitbegründer und Aufsichtsratsvorsitzender
der Firma Transaction Software mit Sitz in München.
Bayer war unter anderem für IBM,
Siemens, Amdahl, DEC sowie die Deutsche Telekom als Berater tätig und arbeitete
als Gast-Professor bei IBM, im Palo Alto Research Center und an verschiedenen
Universitäten in Japan, Australien, den USA und Singapur. Er wurde mit dem Bundesverdienstkreuz
ausgezeichnet und erhielt 2001 den SIGMOD Innovations Award der ACM. Außerdem
ist er seit 2005 Fellow der Gesellschaft für Informatik (GI). Bayer studierte
Mathematik in München und an der University of Illinois, wo er im Jahr 1966 den
Titel Ph. D. erhielt.
Bertal Dresen (BD): Viele junge Informatiker erfahren zum ersten Mal, dass
Informatik ein technisches Fach ist, wenn sie lernen wie man baumartige Strukturen
auf eine Speicherhierarchie abbildet. Ich selbst lernte B-Bäume kennen, als wir
1970-1973 die Dateiorganisation VSAM (Virtual
Storage Access Method) für DOS/VS Release 29 implementierten. Wieso kamen Sie
ausgerechnet bei Boeing zu dieser epochalen Erfindung? Welche frühen Kontakte
hatten Sie zu IBM oder andern Firmen der Branche?
Rudolf Bayer (RB): In den späten 1960er Jahren wurden Großflugzeuge (747,
C5A) entwickelt, deren gesamter Produktionsprozeß akribisch dokumentiert werden
musste. Für die damaligen Rechner war das eine große Herausforderung: Die IBM
360/44 hatte maximal 256 KB (Kilobyte) Hauptspeicher und 7,5 MB (Megabyte)
Festplattenspeicher. Der B-Baum als Index-Struktur mit seinen hervorragenden
Eigenschaften ist bis heute die Antwort, sogar noch bei der Indexierung des
Internets.
Ich machte schon 1962 als beginnender
Student ein Praktikum bei der IBM in Stuttgart und programmierte die legendäre
IBM 650 mit einem Trommelhauptspeicher - man konnte an der Schaltkonsole noch
die Schleifendurchgänge mitzählen. Bei der Erfindung das B-Baumes gab es aber
keine Kontakte zur IBM oder anderen Firmen.
BD: Ich lernte Sie persönlich kennen, kurz nachdem Sie 1972 den Ruf nach München
angenommen hatten. Sie vertraten das Gebiet der Daten- und Wissensbasen in
Lehre und Forschung. Bekanntlich erhielt die Datenbankforschung durch Codds Relationales
Modell enormen Auftrieb, insbesondere in Deutschland. Welche Ergebnisse aus dieser
universitären Forschung haben sich im Markt ausgewirkt? Ist meine Vermutung
richtig, dass die vielgepriesenen Objektorientierten Datenbanken es nicht
schaffen werden, sich einen signifikanten Marktanteil zu erwerben? Welche
Erweiterungen von Codds Modell haben nach Ihrer Ansicht längerfristig
Potenzial?
RB: Codds Relationales Modell bot wegen seiner Einfachheit und seiner
extremen Abstraktion hervorragende Möglichkeiten für die akademische Forschung,
z.B. bei der Normalisierungstheorie, die durch immer neue Spielarten von
„Normalformen“ zum Exzeß getrieben wurde, aber oft an der Praxis vorbei
forschte. Die wirklichen Probleme für die praktische Umsetzung – für die sich
Codd nach meiner Beobachtung kaum interessierte – wurden am legendären IBM
Labor in San Jose im Rahmen des Forschungsprototyps System R gelöst:
- SEQUEL (später SQL genannt) als deklarative Programmiersprache und Alternative zur relationalen Algebra (Don Chamberlin)
- Algorithmische Optimierung des deklarativen SEQUEL (Pat Selinger)
- Transaktionskonzept (Jim Gray)
- Parallelverarbeitung auf B-Bäumen (Bayer/Schkolnick)
Die Lösungen dieser vier Probleme waren
die Eckpfeiler für die praktische Implementierbarkeit und den kommerziellen
Erfolg des relationalen Ansatzes, jedes einzelne wäre bei Schwierigkeiten ein
KO-Kriterium für das relationale Modell gewesen. Die größte Auswirkung auf die
universitäre Forschung und Ausbildung in Deutschland ergab sich einfach
dadurch, daß fast alle heutigen Datenbank-Professoren nach mir eine Zeit lang
Gäste bei der IBM in San Jose und später in Santa Theresa waren, dort
hervorragende Kollegen trafen und mit der nichtakademischen Realität konfrontiert
wurden.
Die „Erweiterungen“ des Coddschen
Modells sehe ich als wichtige Anwendungen, die nur auf den ersten Blick
nicht-relational aussehen: Volltext-Suche, digitale Bibliotheken, komplexe
geographische oder CAD-Objekte, Bilder, Column Stores, Main-Memory-Datenbanken,
Data Mining. Es ist erstaunlich, dass sie sich alle sehr gut auf relationalen
Systemen modellieren und mit hinreichender Performanz implementieren lassen und
dass deshalb Speziallösungen sich nur selten und kurzfristig halten können.
BD: Im Moment – so erscheint es mir – muss das ganze Thema
Datenorganisation und Datenbanken neu durchdacht werden. Das Problem der
Speicherhierarchie stellt sich heute anders. Die Kluft zwischen permanenten und
schnellen Speichern entfällt. In-Memory-Datenbanken wie
SAPs HANA und dgl. machen von sich reden. Worin sehen Sie die neuen
Herausforderungen, sowohl wissenschaftlich wie technisch?
RB: Das Thema muss neu durchdacht werden, aber nicht weil
die Kluft zwischen permanenten und schnellen Speichern entfallen wäre, sondern
weil die Speicherhierarchie viel komplexer geworden ist, und es heute nicht
eine, sondern viele Klüfte gibt. Früher gab es nur zwei Speicherebenen,
Hauptspeicher und Festplatte. Alle Daten, die eine Firma oder Organisation
hatte, lagen auf der Festplatte, die durch ein Bandarchiv abgesichert war.
Heute gibt es viele Ebenen: mehrere
Ebenen von Caches, den virtualisierten Hauptspeicher, Festplatten, die Cloud,
und vor allem das Internet. Ich betrachte das Internet/WWW ganz einfach als
einen riesigen und langsamen Hintergrund-Speicher mit einer sehr hohen
Latenzzeit beim Zugriff. Firmen, Organisationen und Privatpersonen nutzen heute
viel mehr Daten, als sie auf ihrer Festplatte vorhalten könnten. Das Ganze
funktioniert nur, weil Google den Index für den Hintergrundspeicher WWW
bereithält, und dieser Index funktioniert nach Aussagen von Google auf einer
B-Baum-Variante im Google File System.
In diesem Szenario bedienen Hauptspeicher-Datenbanken
wie HANA und Column Stores nur den kleinen Nischenmarkt von Buchhaltungs- und Data
Warehouse-Systemen für die Daten einer einzigen Firma, wobei sie bei höheren
Transaktionsraten schon Probleme bekommen. Schon das Modethema Big Data über
Firmen hinweg sprengt diesen Rahmen.
BD: Die Wissensverarbeitung erschien vielen Kollegen lange
Zeit als die natürliche Weiterentwicklung der Datenbanktechnik. Bei FORWISS, dem
Bayrischen Forschungsverbund für wissensbasierte Systeme, waren Sie persönlich
engagiert. Wie sehen Sie heute die Ziele und Ergebnisse dieses
Forschungsgebiets? Lösen die semantische Beschreibung und das logische Schließen
wirklich die größten Probleme, die Nutzer haben? Ist das Semantic Web einmal in
der Lage, Anwendungen anzubieten, ‚die
den Mensch in all seinen Lebensbereichen umfassend unterstützen‘ (wie es in
Wikipedia steht)? Ich habe die Zahlen gerade nicht parat. Irgendjemand sagte,
dass nicht-formatierte Daten heute bereits im Netz überwiegen und dass sie
schneller anwachsen als formatierte Daten.
Wenn das stimmt, was folgt daraus für die Wissenschaft und Technik?
RB: Ich habe bei FORWISS von vorneherein versucht, die Brücke zwischen Wissensverarbeitung
und Datenbanken zu schlagen, indem ich meine Forschungsgruppe „Wissensbasen“
nannte und ähnlich auch einen entsprechenden DFG-Schwerpunkt „Objektbanken für
Experten“ gemeinsam mit mehreren Datenbank-Kollegen organisierte.
Das Forschungsgebiet „wissensbasierte
Systeme“ war ein Hype ähnlich wie die objektorientierten Datenbanken mit hohem
Anspruch, der sich aber nicht erfüllte. Es gab die Ära der Expertensysteme,
Logikprogrammierung, Regelverarbeitung (1985-1995), die sich hervorragend für
akademische Forschungspapiere mit isolierten Ergebnissen eignete. Daraus
erwuchsen auch reichlich Professoren, aber auf den Mainstream von Computing
hatte diese aufregende Ära rückblickend wenig Einfluss
Das WWW hat diese Ära völlig verdrängt
und da spielen semantische Beschreibungen und logisches Schließen kaum eine
Rolle. Das WWW lebt von den wenigen Begriffen in den Meta-tags „keywords“ und
„description“, die von den Webcrawlern im Kopf von Webseiten extrahiert und
indexiert werden. Hinzu kommen Bigramme und Trigramme, die bei den Suchanfragen
gesammelt, nach Häufigkeit sortiert und den Nutzern als Vorschläge präsentiert
werden. Selbst der zentrale Ranking-Algorithmus von Google hat mit Semantik
wenig zu tun, sondern zählt nur die Weblinks von und zu Seiten sowie die Klicks
der Nutzer. Es ist zwar richtig, dass die nicht-formatierten Daten im Netz
überwiegen, aber ihr semantischer Inhalt wird mit einfachen syntaktischen
Methoden zu erschließen versucht, mit Semantik und logischem Schließen hat das
kaum etwas zu tun.
Ob sich Semantik, Logik und
Wissensverarbeitung etablieren können, bleibt abzuwarten. Natürlich werden bei
den unformatierten Daten im Netz spezielle Algorithmen vorgeschaltet, z.B. zum
Erkennen von Gesichts- oder Fingerabdrücken, aber sie dienen nur dazu, wenige
charakterisierende formale Merkmale zu extrahieren und dann in Indexen für den
Vergleich und das schnelle Retrieval zu organisieren.
BD: Sie sind Mitbegründer und Aufsichtsratsvorsitzender
der Firma Transaction Software. Sie gelten auch heute noch als einer ihrer
Impulsgeber. Was hat Sie dazu bewogen, sich so zu sagen ein zweites Standbein
zu verschaffen? Ich nehme an, dass es Ihnen auch darum ging den Technologietransfer
zu ermöglichen oder zu erleichtern. Haben sich Ihre Erwartungen in dieser
Hinsicht erfüllt? Welche Ratschläge können Sie Kollegen geben aufgrund der
Lehren, die Sie zogen?
RB: Für mich ging es nicht um ein zweites Standbein, sondern um zwei
Punkte:
- Die Transaction Software GmbH wurde 1987 gegründet. Damals dachte in Deutschland kaum jemand an kommerzielle Ausgründungen aus einer Universität heraus. Ich wollte zeigen, dass das Sinn macht und funktioniert, ähnlich wie in den USA.
- Wir hatten damals mit dem Vorläufer des heutigen Transbase weltweit das erste verteilte DBMS mit verteilten Transaktionen über mehrere Rechner hinweg. Ich wollte das als visionäres Produkt umsetzen. Bei der Finanzierung setzte ich auf einen amerikanischen und einen schweizerischer Investor. Das war richtig. Bei der technischen Umsetzung vom Prototyp zum Produkt setzte ich auf eine deutsche Großfirma ohne Vision und Comitment. Das war ein großer Fehler.
Gelernt habe ich daraus vor allem, dass
deutschen Investoren und Anwendern die Risikobereitschaft und deutschen
IT-Firmen die Visionen für neue Produkte fehlen.
BD: Engeren Kontakt bekamen wir während meiner Münchner
Jahre von 1993 bis 1997. An den damaligen Diskussionen über die Patentierung
software-basierter Erfindungen nahmen wir beide auch öffentlich teil. Die
Erfindung des B-Baums hatten Sie in den 1970er Jahren der Öffentlichkeit frei
zur Verfügung gestellt. Beim UB-Baum entschieden Sie sich dazu, einen patentrechtlichen
Schutz anzustreben. Was waren die Gründe? Was waren Ihre Erfahrungen? Halten
Sie diesen Schritt nachträglich für richtig und warum? Was empfehlen Sie
Kollegen in einer ähnlichen Situation, vor allem an Hochschulen?
RB: In den 1970er Jahren (der B-Baum wurde im Herbst 1969
erfunden) wurde Software als Zuckerl zur Hardware verschenkt. Niemand glaubte,
dass man Software patentieren oder gar verkaufen kann. Das Unbundling kam erst
später. Als der UB-Baum 1996 erfunden wurde, hatte sich die Situation total
umgedreht. Es war kein Problem, den UB-Baum weltweit zu patentieren, allerdings
zu hohen Kosten, die für Privatleute meistens prohibitiv sind. Mein Ziel war
hauptsächlich, der Transaction Software GmbH, die Partner in einem EU-Projekt
war, einen kompetitiven Vorsprung zu verschaffen. Der Streit mit der TU München
über eine einvernehmliche Gestaltung der Verwertungsrechte am Projekt war allerdings
ein zeitraubendes Trauerspiel.
Trotzdem ist meine Meinung zur Software-Patentierung
nach wie vor: An kreativen Ideen sollten auch die Erfinder fair beteiligt
werden und nicht nur diejenigen, die die Ideen anderer verpacken, vermarkten
und Beratungshonorare einstreichen wie im Open-Source-Bereich. Dafür ist Software-Patentierung
ein Weg. Allerdings sollten die Hürden für ein Software-Patent ähnlich hoch wie
in Europa sein (Erfindungshöhe als wesentliches Kriterium) und nicht so niedrig
wie in den USA, wo Patente zu oft nur als strategische Waffe gegen kleinere
Firmen eingesetzt werden.
BD: Durch die Enthüllungen Edward Snowdens kam Mitte 2013
eine Diskussion in Gang, ob westliche Staaten noch den richtigen Trade-off
machen zwischen Sicherheit und Freiheit. Sie plädierten dafür, dass es Bürgern
erleichtert wird, ihre elektronische Korrespondenz zu verschlüsseln. Unter
anderem forderten Sie eine verbesserte Public-Key-Infrastruktur (PKI). Ich
glaube, Sie waren mit der Resonanz Ihrer Vorschläge nicht ganz zufrieden. Wie
sehen Sie das heute?
RB: Ich war von den Reaktionen der Politik, der Wirtschaft, der
Öffentlichkeit, vor allem aber der Informatik-Fachwelt extrem enttäuscht. Das
Problem wird trotz der Aufregung in den Medien allgemein bagatellisiert,
vielleicht weil sich kaum jemand wirklich klar macht, wie detailliert die
Profile sind, die Geheimdienste und Firmen wie Google, Facebook, Apple und
Amazon über uns schon erstellt haben und weiter detaillieren. Sie wissen über
viele Bürger wesentlich mehr, als diese selbst über sich sogar mit Hilfe ihres
Tagebuches rekonstruieren können, z.B. wann, wo und mit wem sie Nachrichten
ausgetauscht haben, mit welchen Inhalten, und sogar welche Kleidung sie bei
diesen Gelegenheiten trugen.
Ein kleiner Schritt zur
Wahrung unserer Privatsphäre ist die Verschlüsselung von E-Mails. Aber die
dafür erforderliche PKI ist momentan unbrauchbar, und wir Informatiker haben es
bisher versäumt, dagegen etwas zu tun, und die oben erwähnten Firmen werden
sich dagegen stemmen, weil es gegen ihre Geschäftsinteressen ist.
BD: In letzter Zeit sind einige Entwicklungen im Software-Umfeld eingetreten,
die ich als richtungsweisend ansehe. Die Firma Apple hat es geschafft, für das schier
unlösbare Problem der Verbreitung von Spam und Schad-Software eine Lösung zu
finden. Es ist die Rückkehr zu geschlossenen Systemen. Der Firma Google ist es
gelungen, durch eine sehr effektive Erschließung des Werbemarkts einen
Einnahmestrom zu generieren, der es ihr erlaubt, allen anderen Software-Firmen
ihr Geschäftsmodell zu zerstören. Dass Google dies auch bei Zeitungen tut,
erweckte große Beachtung, insbesondere in der Politik. Über den Effekt auf die
Software-Branche redet niemand. Was ist Ihre Meinung hierzu?
RB: Der Kampf zwischen diesen zwei Giganten der offenen
und der geschlossenen Systeme ist schon deshalb interessant, weil beide Modelle
wirtschaftlich sehr erfolgreich sind. Eine Rückkehr zu den geschlossenen
Systemen sehe ich schon deshalb nicht, weil ihr Marktanteil stark schrumpft.
Die Hauptgefahr für die Software-Branche sehe ich darin, dass die Standard-Software
eines einzigen Herstellers, nicht nur dominiert – das war auch bisher schon so
– sondern durch Werbung und den Null-Grenzkosten-Effekt so billig wird, dass nur
noch kleine Nischenmärkte übrig bleiben. Gegen diesen Trend ist die Kreativität
der Informatiker gefordert.
BD: Herr Bayer, vielen Dank für das sehr interessante Interview, das
voller überraschender Gedanken ist. Ich freue mich stets, wenn meine
Interview-Partner etwas unerwartete Ansichten und Einsichten vertreten, da
diese eigenes Denken und eigenes Erleben verraten.
Der obige Beitrag gab Veranlassung zu einem Dialog zwischen zwei Lesern dieses Blogs:
AntwortenLöschenLeser A: Wenn ich die Funktionalität von ERP-Anwendungen sehe, das ist schon eine ganze Menge Holz, auch in Zeiten der Main Memory und komplizierten Speicherhierarchien, das ich nicht einfach in eine Nische bekomme, lokal wie global verteilt. Das ist in Wirtschaftsunternehmen die halbe Miete. Wenn dann noch CIM und CAM und Design dazu kommen, ist der Sack prallvoll. Es wird heute tüchtig „outgesourced“ und es geht transaktional über diverse Firmen hinweg. Die GfK ist z.B. ein einziges europaweites Warehouse-System. Wer das als Nische bezeichnet, ich glaube, der irrt sich in seinem Urteil. Gefragt wird, wo sind bei ERP-Systemen die komplizierten Algorithmen? Business Komplexität ist ganz etwas anderes als Algorithmen-Komplexität. Die Komplexität der Business-Operationen liegt im dauernden Vor und Zurück und dann noch permanent interaktiv.
Leser B: Das ist schon richtig – aber Bayer bezieht sich ja hier auf die unterschiedlichsten Speicherhierarchie-Ebenen mit dem Internet als den ultimativen, globalen, über Google indizierten unternehmensübergreifenden Hintergrundspeicher. Im Vergleich dazu adressiert HANA lediglich das vergleichsweise geringe Datenvolumen eines einzelnen Unternehmens. Es geht hier also lediglich um das schiere Volumen, um die Dimensionsunterschiede, um lokal vs. global sowie um die Technologie, die dahintersteht, um das alles möglich zu machen (nämlich B-Bäume), und weniger um die Bedeutung der Anwendung an sich. Im Prinzip sagt er: Was interessieren mich die Sandkastenspielchen einer In-Memory-DB mit Column-Store für Unternehmen, wenn die Welt über B-Bäume indiziert wird? Welches ist also das wirklich überlegene System? Zumindest ist das meine Interpretation.
Soeben schrieb Rudolf Bayer aus München:
LöschenIch wollte die ERP-Systeme natürlich nicht bagatellisieren, aber Leser B hat die Situation sehr gut erfasst und beschrieben.