ISSN: 2376-130X
Jon Ander Gómez Adrián
Die meisten Techniken der künstlichen Intelligenz, insbesondere die des maschinellen Lernens, benötigen so viele Daten wie möglich, um robustere und genauere Modelle zu erhalten, die mithilfe von Algorithmen trainiert werden, die Datenproben verwenden, um die Modellparameter anzupassen. Ein Modell, das auf tiefen neuronalen Netzwerken basiert, hat beispielsweise Millionen von Parametern (als Gewichte bezeichnet), deren Werte schrittweise durch den Error-Backpropagation-Algorithmus aktualisiert werden, der iterativ alle Proben des Trainingsdatensatzes besucht. Herr Cukier erklärte, dass die Forscher der Stanford University Tausende von Proben von krebsartigen Brustzellen und die Überlebensraten der Patienten verwendeten, um ein maschinelles Lernmodell zu trainieren, und die Zielfunktion des Lernalgorithmus definierten, um Muster in den Attributen der Eingabedaten zu identifizieren, die am besten mit dem Ziel korrelieren, vorherzusagen, ob eine bestimmte Biopsie schwer krebsartig sein wird. Das erhaltene maschinelle Lernmodell identifizierte elf Attribute, die am besten vorhersagen, dass eine Biopsie hochgradig krebsartig ist. Was die Forscher überraschte, war, dass nur acht der elf Attribute den Ärzten zuvor bekannt waren und in der medizinischen Literatur untersucht wurden. Da die Stanford-Forscher alle Attribute der Eingabedaten in das Experiment einbezogen, ohne dem Lernalgorithmus mitzuteilen, welche er verwenden soll, kam es dazu, dass drei der vom maschinellen Lernalgorithmus gefundenen Attribute (oder Indikatoren) von der medizinischen Gemeinschaft als nicht relevant angesehen wurden; Pathologen richteten ihre Aufmerksamkeit nie auf solche Indikatoren. Wie Herr Cuckier bemerkte, funktioniert maschinelles Lernen, weil der Lernalgorithmus mit einer Menge Daten gefüttert wird – viel mehr Informationen, als ein Mensch in seinem Leben verarbeiten und in jedem Moment verarbeiten könnte.