Die Erfahrung automatisieren

Durch die Auswertung von grossen Datenmengen lassen sich heute Fragen untersuchen, für die es bis vor Kurzem noch keine brauchbaren Theorien gab. Die beiden ETH-Informatikprofessoren Joachim M. Buhmann und Donald Kossmann erklären, was sich dadurch für die Gesellschaft ändert.

Cover Globe 2/Juni 2014

Dieser Artikel erschien in Globe, Ausgabe
2/Juni 2014:

Lesen Sie das Magazin online oder abonnieren Sie die Printausgabe.

«Big Data» ist in aller Munde, doch nicht alle verstehen das Gleiche darunter. Was bedeutet dieser Begriff für Sie?

Donald Kossmann: Meine Lieblingsdefinition von Big Data ist «Automatisierung der Erfahrung». Im Grunde genommen heisst das: Man lernt aus der Vergangenheit für die Zukunft und macht nicht denselben Fehler zweimal.

Vergrösserte Ansicht: Donald Kossmann und Joachim Buhmann
Donald Kossmann (l.) und Joachim M. Buhmann plädieren dafür, dass wir neue Modelle entwickeln, wie wir als Gesellschaft mit sensiblen Daten umgehen. (Foto: Tom Kawara)

Und warum braucht es dazu grosse Datenmengen?

Kossmann: Die grossen Datenmengen helfen, weil Erfahrungen vielfältig sind. Mit grossen Datenmengen kann man nicht nur das Offensichtliche abbilden, das immer wieder passiert, sondern auch die seltenen Phänomene. Deshalb gilt: Je mehr Daten, desto besser.

Joachim Buhmann: In der künstlichen Intelligenz gibt es die Strategie des «case-based reasoning». Das Konzept kommt aus der Justiz. Wenn man einen Fall beurteilen muss, orientiert man sich an Präzedenzfällen. Das ist eine gute Herangehensweise, weil es in der Regel einfach ist zu erkennen, ob ein Fall ähnlich ist. Wissenschaftliche Theorien dienen normalerweise dazu, Phänomene global zu beschreiben. Das funktioniert nicht in allen Gebieten.

In welchen Gebieten zum Beispiel?

Buhmann: Zum Beispiel in der Medizin oder in der Soziologie. Die Menschheit arbeitet zwar seit ihrer Genese daran, hier brauchbare Theorien zu entwickeln. Aber diese haben in der Praxis einen verschwindend geringen prädiktiven Wert. Das Beste, was wir in dieser Situation machen können, ist zu sagen: Wir haben keine globale Theorie, deshalb merken wir uns die Einzelfälle. Und je mehr Einzelfälle wir zu Rate ziehen, desto besser wird das Bild.

Können Sie das an einem konkreten Beispiel erläutern?

Kossmann: Es gibt ein sehr anschauliches Beispiel: Google Translate. Dieser Übersetzungsdienst basiert darauf, dass man sehr viele Beispiele aus übersetzten Texten zusammengetragen hat. Niemand kann eine Sprache abschliessend beschreiben. Aber man kann erstaunliche Ergebnisse erzielen, wenn man einzelne bekannte Satzbausteine nimmt und sie wieder neu zusammensetzt.

Buhmann: Denjenigen Teil der Sprache zu formalisieren, der nicht von der Grammatik abgedeckt wird, ist unglaublich kompliziert. Aber sich Beispiele zu merken und dann zu sagen, na ja, die Maschine macht halt einen Kompromiss, das ist heute möglich.

Orientiert man sich am menschlichen Lernen, wenn man solche Systeme entwickelt?

Buhmann: Das maschinelle Lernen hat viel mit menschlichem Lernen zu tun. Allerdings hat uns der evolutionäre Druck nicht dafür geschaffen, Muster möglichst wahrheitsgetreu zu erkennen, sondern möglichst schnell. Deswegen haben wir die Tendenz, in zufälligen Daten Muster zu sehen, auch wenn diese gar nicht existieren. Mit Big Data können wir Phänomene untersuchen, die so komplex sind, dass wir sie nicht mehr begreifen, weil die Korrelationen in den Datenbanken verborgen sind. Eigentlich passen sie schon in unseren Kopf, aber eben nicht in den rationalen Bereich unseres Gehirns. Wir urteilen ja oft aufgrund von Erfahrung und subrationalem Denken. Deshalb arbeitet ein regelbasiertes System zur Diagnose von Krankheiten, das sich auf die Erklärungen der Ärzte stützt, schlechter als ein System, bei dem man die Ärzte arbeiten lässt und sie dann nachahmt. Die Kunst besteht darin, möglichst viele Ärzte nachzuahmen.

Kossmann: Es gibt auch ungeeignete Anwendungen. Big Data versucht, aus der Vergangenheit in die Zukunft zu blicken. Dort, wo das nicht sinnvoll ist, sollte man dies nicht anwenden. Finanzmärkte sind ein Beispiel. Wenn wir aus der Vergangenheit lernen wollen, wie die Zukunft sein wird, verändern wir automatisch das Verhalten der Menschen – und dann kann man die Zukunft eben nicht mehr voraussagen. Big Data ist also keine Formel, um an den Börsen reich zu werden – zumindest nicht auf Dauer.

Nun gibt es ja ganz unterschiedliche Arten von Daten. Wie lassen sich diese optimal kombinieren?

Buhmann: Datenfusion – das ist ein grosses Thema. Eine der wichtigsten Fragen in der Mathematik ist: Was sind Objekte und wie werden sie verglichen? Typischerweise beginnt man mit einer Definition: A ist gleich B. Der nächste Schritt besteht darin zu fragen: Was ist ähn­lich? Mit dieser Frage kann ich Klassen von äquivalenten Objekten aufbauen und zu diesen Klassen Theorien entwickeln. Dazu braucht es allerdings einen enorm komplexen mathematischen Apparat.

Müssen die Daten immer noch in standardisierter Form vorliegen oder ist man da ein Schritt weiter?

Kossmann: Es ist leider immer noch so, dass 70 Prozent der Arbeit darin besteht, die Daten zu säubern und aufzubereiten. Wenn man zum Beispiel herausfinden möchte, ob Joachim Buhmann ein guter Forscher ist, dann stellt sich das Problem, dass er manchmal als Joachim Buhmann, manchmal aber auch nur als J. Buhmann publiziert. Es ist also gar nicht so einfach zu erkennen, welche Publikationen von ihm stammen. Eine andere Schwierigkeit ist, dass Daten in unterschiedlicher Präzision und Auflösung erfasst werden. Der eine misst das Fieber mit einem elektronischen Thermometer jede Stunde, der andere mit der Hand einmal pro Tag. Diese unterschiedlichen Daten zusammenzuführen, erfordert immer noch viel Aufwand.

Buhmann: Aber letztlich ist das ein technisches und kein konzeptionelles Problem. Wenn ich aber ganz unterschiedliche Gesundheitsdaten miteinander verrechnen muss, dann wird es natürlich schon schwierig.

Genau darauf zielt ja die Initiative «e-Health» ab, welche die Patientendatenerfassung vereinheitlichen will.

Buhmann: Diese Initiative ist notwendig, denn nur so bekommen wir genügend hohe Fallzahlen, um seltene Krankheiten zu untersuchen. Mit Klaas Enno Stephan haben wir gerade eine Studie über Schizophrenie abgeschlossen. Von aussen gesehen sind die Symptome der Patienten ähnlich. Doch weil Schizophrenie eine Spektrumskrankheit ist, wirken im Gehirn verschiedener Patienten unterschiedliche Mechanismen. Wenn es uns gelingt, eine solche Krankheit in Subtypen aufzuteilen, dann ist das ein Fortschritt. Darum geht es bei Big Data: Genügend hohe Fallzahlen zu bekommen, damit man für die selteneren Subtypen ausreichende Informationen hat.

Und wenn Patienten aus Datenschutzgründen Bedenken haben?

Buhmann: Die Datensicherheit muss natürlich gewährleistet sein. Ich bin überzeugt: Wir brauchen einen neuen Gesellschaftsvertrag. Ich stelle als Gesunder meine Daten für die Forschung zur Verfügung und profitiere als Kranker von den Erkenntnissen. Doch dazu haben wir noch nicht einmal die ethischen Voraussetzungen geschaffen. Wie begegne ich jemandem, der als Gesunder mit seiner Datenspende nicht vorgesorgt hat? Will ich diesem Menschen das Wissen vorenthalten, wenn er krank wird? Bei der Lebensversicherung halten wir es so: Wenn ich als Gesunder keine Versicherung abschliesse, bekomme ich als Kranker keine Unterstützung.

Herr Kossmann, teilen Sie diese Forderung?

Kossmann: Jein. Hier geht es um eine typische Frage aus dem Bereich Gemeinwohl gegen Persönlichkeitsrecht. Ich bin der Meinung, dass Daten grundsätzlich den Personen gehören. Deswegen sehe ich auch die Analogie zu den Steuern: Das Geld gehört mir, aber ich akzeptiere, dass ich für das Gemeinwohl einen Teil davon abgeben muss. Das gilt entsprechend auch für Daten. Wir haben derzeit einfach noch nicht die richtigen Instrumente.

Wie kann ich denn als Einzelner verhindern, dass diese Daten später gegen mich verwendet werden?

Kossmann: Man muss sicherstellen, dass die Daten nicht zweckentfremdet genutzt werden. Das ist nicht so einfach zu definieren. Was ist der Zweck im Gesundheitswesen? Wo ist der Zweck noch erfüllt? Und wo geht man über den Zweck hinaus? Das alles muss geregelt werden. Auch ohne grosse Vorschriften und ohne Steuermodell lässt sich bereits viel erreichen. Viele Menschen sind bereit, ihre Daten zur Verfügung zu stellen, wenn sie der entsprechenden Institution vertrauen. Eine Idee ist zum Beispiel, dass die Leute als Eigentümer einer Genossenschaft ihre Daten einbringen und somit selber kontrollieren, wie ihre Daten genutzt werden. Das ist vielleicht das bessere Modell als das angesprochene Steuermodell.

Trotzdem: Als User von Facebook werde ich beispielsweise immer wieder mit neuen Geschäftsbedingungen konfrontiert, die ich kaum durchschaue. Wie soll da Vertrauen entstehen?

Kossmann: Facebook ist ein extremes Modell: Ich stelle einen Dienst zur Verfügung, den du nutzen kannst, dafür kann ich mit deinen Daten machen, was ich will. Das staatliche Steuermodell ist auch ein Extrembeispiel: Ich sage dir, welche Daten du mir geben musst. In beiden Fällen verliert der Mensch die Kontrolle über seine Daten. Wenn wir das Vertrauen der Leute gewinnen wollen, müssen wir es den Menschen wieder erlauben zu kontrollieren, wie ihre Daten genutzt werden, und neue Angebote schaffen, wie die Menschen von der Verwertung ihrer Daten profitieren können.

Buhmann: Und wir sollten mehr Gelassenheit an den Tag legen. Steuern wurden Tausende von Jahren eingezogen, doch eine wohl begründete Steuerpolitik gibt es erst seit der Aufklärung. Bis ein Gesellschaftsvertrag ausgehandelt ist, dauert es einfach lange.

Es geht also um eine grundsätzliche gesellschaftliche Debatte: Wie gehen wir mit unseren Daten um?

Buhmann: Wir Menschen sind keine solitären Egomanen, sondern der Wert unseres Lebens besteht zu einem grossen Teil aus Gemeinschaft, also Interaktion. Und da ist überhaupt nicht mehr klar, wem die Daten gehören. Wem gehören die Daten, die ich auf Facebook mit anderen teile? Dem Kollektiv, mit dem ich interagiere? Oder nur mir persönlich? Das sind Dinge, die müssen wir klären. Wir können nicht einfach unsere alten Wertvorstellungen, die wir für eine rudimentäre Technologie entwickelt haben, auf eine neue Hochtechnologie mit bisher ungekannten Möglichkeiten übertragen.

Kossmann: Wir müssen wie gesagt neue Angebote schaffen und diese ausprobieren. Was macht uns Spass? Was funktioniert? Das, was uns gefällt, wird sich durchsetzen. Ich bin optimistisch, dass die Menschheit einen positiven Umgang mit dieser Frage finden wird.

Gesprächsteilnehmer:

Joachim M. Buhmann ist Professor für Informatik und Leiter des Machine Learning Laboratory. In seiner Forschung befasst er sich mit dem Bereich Mustererkennung und Datenanalyse, wobei methodische Fragen des maschinellen Lernens, der statistischen Lerntheorie und der angewandten Statistik im Vordergrund stehen.

Donald Kossmann ist Professor für Informatik am Institut für Informationssysteme der ETH Zürich. In seiner Forschungsarbeit beschäftigt er sich mit der Optimierung und Skalierbarkeit von Datenbank- und Informationssystemen.

JavaScript wurde auf Ihrem Browser deaktiviert