Bertals Blog: Otthein Herzog über Computerlinguistik, Bremer Universitäten und acatech

Otthein Herzog (Jahrgang 1944) ist seit 2010 Professor of Visual Information Technologies an der Jacobs University Bremen. Von 1993-2009 war er Professor für Künstliche Intelligenz an der Universität Bremen, seit 2009 hat er dort eine Forschungsprofessur inne. Er war Sprecher des TZI - Technologie-Zentrums Informatik und Informationstechnik, des SFB 637 “Selbststeuerung logistischer Prozesse” und des “Mobile Research Center”. Seit 1998 ist er Affiliate Professor am Machine Learning and Inference Laboratory, George Mason University, Fairfax, VA, USA.

Nach dem Studium in Tübingen, Stuttgart, Karlsruhe und Bonn wurde er 1976 in Informatik an der Universität Dortmund promoviert. Von 1977 bis 1993 war er Mitarbeiter der IBM Deutschland in der Software-Entwicklung und Forschung; 1989 auch Gründungsmitglied des SFB “Grundlagen der Computerlinguistik” der Universitäten Stuttgart, Tübingen und der IBM. Seine Forschungsinteressen sind: semantische Analyse von Bildern und Videos, mobile Anwendungen in der Arbeitswelt, und Multi-Agenten-Systeme für die Produktion und Logistik. Er ist gewähltes Mitglied der nationalen Deutschen Akademie der Technikwissenschaften, Fellow der Gesellschaft für Informatik, wissenschaftlicher Beirat in mehreren Institutionen und hat mehr als 240 referierte wissenschaftliche Arbeiten publiziert.

Bertal Dresen (BD): In diesem Interview möchte ich am Anfang kurz in Ihre berufliche Vergangenheit zurückgehen. Sie haben später andern Themen Ihre Aufmerksamkeit gewidmet. Ich werde auf sie zurückkommen. Beginnen möchte ich mit einer Definition für Computerlinguistik (CL): Sie erforscht die maschinelle Verarbeitung natürlicher Sprachen. Sie erarbeitet die theoretischen Grundlagen der Darstellung, Erkennung und Erzeugung gesprochener und geschriebener Sprache durch Maschinen. Was sind heute die markantesten und erfolgreichsten Anwendungen? Ich meine im täglichen Leben, nicht im Labor. Worin sehen Sie heute die wichtigsten und schwierigsten Fragestellungen?

Otthein Herzog (OH): Ohne Zweifel hat die Spracherkennung mit der anschließenden semantischen Interpretation des Inputs (z. B. Siri auf dem iPhone), aber mit eingeschränktem Vokabular im Auto einen entscheidenden Durchbruch erzielt. Die Ergebnisse der Computerlinguistik (einschließlich Semantik-Methoden) sind entscheidend für die Interpretation der „unstrukturierten Daten“, also der Texte im Internet, um z. B. die Suche effizient und effektiv zu machen. Ohne Computerlinguistik ist das „Knowledge Mining“ im Internet nicht möglich. Dennoch: die wichtigsten und schwierigsten Fragestellungen sind m. E. heute immer noch, Texte, Bilder und Videos im Zusammenhang semantisch im richtigen Kontext zu interpretieren.

BD: Hat nicht die Leistungssteigerung von Rechnern das Gebiet in letzter Zeit enorm angetrieben? Ein Lexikon speichern kann heute jedes Mobiltelefon, sogar in mehreren Sprachen gleichzeitig. Welcher Teil der Problemlösung ist nur eine Frage der Speicher- oder Rechnerkapazität? Wo kommt es auf neue Algorithmen oder Erfindungen an? Wie sehen Sie die ‚Arbeitsteilung‘ zwischen Linguisten und Informatikern?

OH: Problemlösungen für Sprachverarbeitung (und Bilder/Videos) werden immer eine große Speicher- und Rechenkapazität benötigen – und je mehr, desto besser. Für die semantische Analyse in einem richtigen Kontext werden auch neue Algorithmen für die Analyse von Korpora und für das maschinelle Lernen benötigt, für die InformatikerInnen wesentliche Beiträge leisten können: es werden effiziente und effektive Algorithmen benötigt!

BD: Die IBM Deutschland war in der Zeit, als Sie dort tätig waren, sehr aktiv auf dem CL-Gebiet, zuerst in Heidelberg und später in Stuttgart. Das Projekt LILOG verbinde nicht nur ich mit Ihrem Namen. Es gibt eine ausgezeichnete Dokumentation über das Projekt. Dass ein Dutzend Mitarbeiter anschließend eine Hochschul-Karriere machten ist bekannt. Würden Sie – trotzdem ̶ für unsere Leser die Hauptziele des Projekts umreißen. Wieweit wurden diese Ziele erreicht?

OH: Im Wissenschaftlichen Zentrum der IBM in Heidelberg (WZH) hatte die Computerlinguistik schon sehr früh einen herausragenden wissenschaftlichen Schwerpunkt, der allerdings bei dem groß angelegten Projekt „Operationalisierung des Fahrerfluchtparagraphen“ auf seine Grenzen stieß. Es zeigte sich, dass die semantische Komponente für die Auslegung der Gesetzestexte und der zahlreichen Urteile der schwierigste Teil des Projektes war.

Das LILOG-Projekt (LILOG war die Kurzform für „Linguistic and Logical Methods and Tools for the Computational Understanding of German“) beruht auf einem Vorschlag, der 1985 vom Albrecht Blaser, dem damaligen Leiter des WZH, an Karl Ganzhorn, seinen Bereichsleiter bei IBM, herangetragen worden war. Er sollte diese Lücke schließen. Ich zitiere aus einer meiner ersten LILOG-Folien, die der Unternehmensleitung der IBM Deutschland präsentiert wurde. Folgende technologische Ziele wurden gesehen:

Teil 1: Entwicklung einer vollständigen Datenbank für linguistisches Wissen über die deutsche Sprache mit (linguistischem) Wörterbuch, Thesaurus (Wortbedeutungen), Grammatik mit Funktionen und Algorithmen für Update, Abfragen und automatische Manipulation

Teil 2: Vorantreiben der Theorie, um Algorithmen zur Dialog-Analyse und zur Deduktion entwickeln zu können, die für die Gewinnung von Wissen und für logisches Schließen in realistisch großen Anwendungen brauchbar sind.

Zur Zielerreichung des LILOG-Projekts: Für den Teil 1 ist festzuhalten: Es wurden sogar zwei Grammatiken zusammen mit den entsprechenden Wörterbüchern und einem Lexikon für das Deutsche entwickelt, je eine für die Analyse und die Generierung von deutschen Sätzen, die für „normale“, also nicht-künstlerische Texte aus zwei Anwendungsgebieten („Wanderung“ und „Stadtinformationssystem Düsseldorf“) ziemlich brauchbar waren.

Für den Teil 2 gilt, dass er noch mehr als Teil 1 von der verfügbaren Computertechnologie abhing. Aber auch hier (LILOG wurde in Prolog geschrieben!) wurden wesentliche Fortschritte in Theorie und praktischen Anwendungen erreicht: Beweiser für die Prädikatenlogik erster Stufe, Wissensrepräsentation mittels Ontologien-Technologie mit getypten Verarbeitungsmechanismen, Objekt-orientierte Datenbank. Darüber hinaus wurden in dieser Präsentation auch strategische Ziele benannt:

Das Projekt ist ein erster Schritt in eine strategische Richtung: Aufbau von Erfahrung; Neue SW-Technologie wird vorangetrieben und in der IBM Deutschland verfügbar

Kurzfristige Auswirkungen/Nutzen: Das Marktpotential mehr traditioneller Anwendungen wird vergrößert: Textverarbeitung (Büro-Anwendungen); Natürliche Sprachen als Schnittstellen (z.B. zu Datenbanken); Dokumentation; Beschleunigte Marktdurchdringung für Expertensysteme (zusätzlicher HW-Umsatz)

Die akademische/wissenschaftliche Welt wird schneller erschlossen

Die genannten kurzfristigen Ziele konnten nur zum Teil erfüllt werden, auch weil sich die Strategie der IBM änderte. So wurde z. B. die Textverarbeitung aufgegeben. Was aber die langfristigen Ziele betrifft, war das Projekt sehr erfolgreich: LILOG war die Grundlage für viele Projekte mit wissensbasierten Komponenten im WZH, die zusammen mit Kunden durchgeführt wurden. Dadurch konnte die IBM Deutschland auch ihren Ruf als innovative Firma in Industrie und Wissenschaft verbessern.

Nach der Auflösung des WZH wechselte der IBM-Kern des LILOG-Teams fast geschlossen in das Böblinger Labor, wo ich 1993 gerade noch vor meinem Ruf an die Universität Bremen ein „Data Mining“ Projekt in den USA akquiriert hatte, das den Amerikanern zu risikoreich war. Das seitdem in Böblingen entwickelte und außerordentlich erfolgreiche IBM Data Mining-Produkt wäre ohne die in LILOG gewonnenen Erfahrungen nicht denkbar und noch weniger implementierbar gewesen.

BD: Wie sehen sie heute die technische und kommerzielle Langzeitwirkung dieses Projekts in Deutschland? Hat es Deutschland im Weltmarkt (inklusive der Wissenschaft) nach vorne gebracht? Welche Ergebnisse (Erfindungen, Algorithmen, Prototypen) aus LILOG bilden die Grundlage heutiger Produkte, sei es bei IBM oder anderswo?

OH: Das LILOG-Projekt hat die Operationalisierung der Analyse und Generierung natürlicher Sprache weltweit in den Blickpunkt gerückt (leider nicht bei der IBM, obwohl schon 1993 das semantische Information Retrieval mit dem IBM Search und Thesaurus Manager von mir in Sindelfingen entwickelt und in den Markt gebracht worden war). Microsoft hatte das erkannt und die Computerlinguistik-Forscher aus dem IBM Labor in Yorktown Heights abgeworben, die dann mit der Überprüfung von Grammatik und der Wortkorrektur in Word und auch mit der Volltextsuche in Windows erfolgreich waren. In Deutschland selbst hat das (damalige) BMBF einige sehr große Projekte auf diesem Gebiet gefördert, die mit mäßigen Erfolgen abschlossen, sicherlich aber auch zur Gründung einiger Firmen geführt haben, die sich mit der Verarbeitung natürlicher Sprache befassten (z. T. durch ehemalige LILOG-Mitarbeiter wie Hans Uszkoreit).

Die entscheidende Wirkung von LILOG dürfte darin bestanden haben, dass durch die LILOG-Prototypen gezeigt wurde, dass solche Systeme mit natürlich-sprachlichen Schnittstellen und einer ausgefeilten Wissensrepräsentation auf interdisziplinärer Grundlage überhaupt möglich waren. Es wäre sicherlich zu viel behauptet, LILOG als „Urvater“ der modernen Internet-Suche oder des semantischen Information Retrieval zu bezeichnen, aber mindestens hat LILOG diese Systeme denkbar gemacht. Darüber hinaus stellten Teile der erarbeiteten LILOG-Technologien wertvolle Grundlagen für kommerzielle Produkte dar (z. B. IBM Search und Thesaurus Manager, IBM Data Mining).

BD: Mehrere Kollegen von uns bei IBM, besonders diejenigen mit einer Hardware-Vergangenheit, hatten Schwierigkeiten den Sinn von LILOG und ähnlichen CL-Projekten des WZH einzusehen. Sie stellten nicht nur deren Wissenschaftlichkeit in Frage, sondern auch ihre wirtschaftliche Relevanz. Einige hielten die natürlichsprachige Datenbankabfrage für Spielerei. Können Sie das nachvollziehen? Ist Ihnen diese Einstellung auch außerhalb IBMs begegnet? Hat sich in den letzten Jahrzehnten eine Veränderung der Einstellungen eingestellt?

OH: Aus meinen Bemerkungen in den vorherigen Abschnitten wird deutlich, dass ich die Software-Aspekte von LILOG als Grundlage für die weitere Entwicklung noch heute für besonders wichtig halte. Ich halte es immer noch für sehr bedauerlich, dass die IBM Deutschland dieses ganze Gebiet trotz des immensen Vorsprungs vor den Mitbewerbern sehr schnell wieder aufgegeben hat. Schon mit dem Aufkommen des „World Wide Web“ 1995 hätte IBM eine gute Suchfunktion auf der eigenen Technologiebasis entwickeln können (die ich damals nachweislich empfohlen hatte)!

BD: Wie Sie wissen, hat die Bundesregierung sehr viel Geld auf diesem Gebiet ausgegeben. Stichwort Verbmobil. Wie sehen Sie den Ertrag dieser Investition? Hat die Industrie es versäumt, das Marktpotential zu nutzen?

OH: Diese vom BMBF geförderten Großprojekte hatten sicherlich als Ergebnis, dass das DFKI wuchs und gedieh und auch noch heute sehr erfolgreich ist. Kommerziell litten sie (wie viele BMBF-Projekte) unter der mangelnden Bereitschaft der großen Firmen, die erarbeiteten Ergebnisse in Produkte umzusetzen: der Schritt von der Invention zur Innovation wurde nicht oder viel zu selten unternommen.

BD: Die CL galt früher als Teilgebiet oder aber nahe verwandt mit der Künstlichen Intelligenz (abgekürzt KI). Nach einem fulminanten Start am MIT (McCarthy, Minsky) und bei IBM (Rochester, Samuel) brach in den USA der so genannte KI-Winter aus. Gemeint ist, dass sowohl das industrielle Interesse als auch die öffentlich Förderung wegfielen. Auf fast wundersame Weise blieb dieser KI-Winter Deutschland erspart. Können Sie das erklären? Hat Deutschland Vorteile daraus gewonnen, jetzt wo das Wort KI wieder in aller Munde ist?

OH: Dieser KI-Winter blieb Deutschland erspart, weil sich die deutsche KI seit Anfang der 90er Jahre stark auf Anwendungen von wissensbasierten, also KI-Technologien konzentriert hatte. Dadurch wurde der potenzielle Nutzen nie wirklich in Frage gestellt. Und vielleicht hat die deutsche KI auch nicht solche vollmundigen Versprechen gemacht wie die amerikanischen Forscher…

BD: Manche Leute betrachten den Ausdruck KI als ein Sammelname für riskante Forschung. Bricht ein Gebiet aus, wie z.B. die Robotik, lässt die das Prädikat KI fallen. Ist dies das generelle Schicksal der KI? Ist der Name nicht auch dadurch belastet, dass natürliche Intelligenz schwer zu definieren ist?

OH: Alle Forschung ist riskant, nicht nur die KI-Forschung, sonst wäre es keine Forschung. Sicher war aber die KI-Forschung manchmal sehr riskant, weil man sich Ziele setzte, die schon aufgrund der verfügbaren Hard- und Software kaum erreichbar waren. Andererseits: wenn man heute Artikel in den frühen Ausgaben des IBM System Journals aus den 50er Jahren des letzten Jahrhunderts liest, drängt sich schnell auf, dass große Versprechen nicht nur von der KI gemacht wurden. Möglicherweise ist das eine Falle, in die jede neue Wissenschaft leicht gehen kann.

BD: Sie haben bzw. hatten einen Lehrstuhl für Künstliche Intelligenz inne. Für welches Ihrer vielen Projekte hatten Sie den Eindruck, dass hier die Analogie zum menschlichen Verstand nicht nur hilfreich, sondern bestimmend war?

OH: In keinem meiner vielen Projekte habe ich je eine Analogie zum menschlichen Verstand auch nur am Rande erwähnt. Jedem, der sich ernsthaft mit der Materie befasst, wird schnell klar, dass die Lücke zwischen mit vertretbarem Aufwand maschinell erreichbaren Zielen und dem „Computer zwischen den Ohren“ für universelle Anwendungen immer noch riesig ist, auch wenn man das sehr fortgeschrittene IBM System „Watson“ mit in das Kalkül einbezieht.

BD: Ohne jetzt zu tief einsteigen zu wollen: die Frage, wie verhält sich Wissen und Sprache ist für mich sehr interessant. Wie sehen Sie das?

OH: Man muss hier sicherlich zwei Dinge unterscheiden: man benötigt erworbenes Wissen, um Sprache zu beherrschen, und viele Wissensgebiete sind nur aufgrund von Sprache (von natürlicher Sprache bis hin zu Programmiersprachen) kommunizierbar. Überspitzt könnte man sagen: Ohne Sprache kein bewusstes Wissen, und kein bewusstes Wissen ohne Sprache.

BD: Lange Jahre waren Sie an der Universität Bremen. Sie gilt als etwas links-lastige Massenuniversität. Jetzt gehören Sie zur Jacobs Universität, einer kleinen privaten Hochschule. Können Sie die Unterschiede kurz beschreiben, und zwar sowohl aus Sicht der Professoren als auch aus Sicht der Studenten.

OH: Leider ist das Vorurteil über die Universität Bremen als „rote Kaderschmiede“ kaum auszurotten. Mit ihren 20.000 Studierenden, starken Ingenieur-, Meeres- und Sozialwissenschaften gehört sie inzwischen zu den elf deutschen Exzellenz-Universitäten, leidet aber zur Zeit deutlich unter den Sparmaßnahmen des Landes Bremen. Die „private“ Jacobs University Bremen hat im Gegensatz zur Universität Bremen die Möglichkeit, sich ihre 1.400 Studierenden selbst auszuwählen.

Aus der Sicht eines Professors an der Jacobs University ist es eine besondere Herausforderung, die multikulturellen und intellektuellen Herausforderungen der Studierenden aus mehr als 110 Ländern aufzunehmen und einen Großteil der Arbeitszeit der interdisziplinären Lehre zu widmen. Der Erfolg wird klar gekennzeichnet dadurch, dass die Studierenden wesentlich besser motiviert sind für Studienleistungen, und dass 95% der Studierenden eines Jahrgangs nach drei Jahren den Bachelor-Abschluss erwerben! Aus der Sicht der Studierenden, die bis zum Bachelor-Abschluss auf dem Campus wohnen und (fast ausschließlich) leben, ist die hohe Arbeitsbelastung, auch durch die Interdisziplinarität des Lehrangebots sicherlich eine Herausforderung neben dem Lernen über andere Kulturen im täglichen Miteinander und dem akademischen Konkurrenzkampf.

BD: Sie haben das TZI an der Universität Bremen gegründet und über lange Jahre geleitet. Warum, und was wurde erreicht?

OH: Zusammen mit einigen KollegInnen habe ich das TZI – Technologie-Zentrum Informatik als ein ‚In-Institut‘ der Universität Bremen im Mai 1995 gegründet, knapp zwei Jahre nach dem Antritt meiner KI-Professur in Bremen. Es wuchs sehr schnell und hatte im Jahr 2009, als ich es an meinen Nachfolger übergab, 160 MitarbeiterInnen und einen Etat von über 7 Mio. €, davon 80% Drittmittel. Wir gründeten das TZI aus der Einsicht heraus, dass

neben Forschung und Lehre der Technologie-Transfer auch zu den Aufgaben einer Universität gehört,
die Industrie durch den Einsatz von mehr und besserer Software bessere Produkte anbieten kann,
einzelne Arbeitsgruppen keine Gesamtlösungen anbieten können und deshalb eine institutionelle Integration mit einem „lean management“ sinnvoll ist,
die Forschung durch das Aufgreifen von Problemen aus der Praxis nur gewinnen kann

Diese Strategie führte zu einem erfolgreichen Aufbau und nachhaltigen Wirken des TZI über nun fast zwanzig Jahre hin, eine Zeitraum, in dem sich das Institut einige Male „neu erfand“ auf dem Hintergrund von neu verfügbaren Technologien. Weder hat die Forschung in dieser Zeit unter dem Transfer-Gedanken gelitten, noch hat der Transfer mit der Notwendigkeit von Akquisition die Forschung in den Hintergrund gedrängt..

BD: Sie sind in den letzten Jahren bei der acatech engagiert, der Akademie der Technikwissenschaften. Was kann oder wird sich aufgrund ihrer Tätigkeit in Deutschland ändern als Standort für Forschung, Wirtschaft und Berufe mit technischer Ausrichtung?

OH: acatech als Akademie der Technikwissenschaften ist im Unterschied zu anderen wissenschaftlichen Akademien über den acatech-Senat stark mit der Industrie in Deutschland verbunden. In der relativ kurzen Zeit ihres Bestehens ist es acatech aufgrund der besonderen Mitgliederstruktur gelungen, für alle denkbaren Technik-Themen interdisziplinäre Kompetenzen einzusetzen und fundierte Empfehlungen auf den verschiedensten Technik-Gebieten an die Regierung auszusprechen. So wird z.B. der Innovationsdialog der Kanzlerin mit Wirtschaft und Wissenschaft von einem der beiden acatech-Präsidenten, Henning Kagermann organisiert. acatech hat z.B. schon sehr früh Empfehlungen für die Energiewende erarbeitet und war maßgeblich zusammen mit der Forschungsunion beteiligt an der Entwicklung der Programme des BMBF und des BMWi zu „Industrie 4.0“ und „Smart Service Welt“ – beides wegweisende Strategien für die deutsche Industrie. Insofern leistet acatech wertvolle Beiträge, um dazu beizutragen, dass aus Ideen Innovationen und aus Innovationen Chancen auf Wohlstand in Deutschland erwachsen.

BD: Herr Herzog, haben Sie vielen Dank für dieses ausführliche und interessante Interview. Es ist nicht anzunehmen, dass es in Ihrem Ruhestand an Aufgaben mangelt.

Bertals Blog

Dienstag, 30. Dezember 2014

Otthein Herzog über Computerlinguistik, Bremer Universitäten und acatech

Keine Kommentare:

Kommentar veröffentlichen