Angesichts stetig wachsender Datenmengen gewinnen intelligente Verfahren zur induktiven Datenanalyse stark an Bedeutung. Der Wissenserwerb (also das eigentliche Lernen) kann dabei aufunterschiedlichste Weise erfolgen. So kann ein System Nutzen aus bereits gemachten Erfahrungen ziehen, es kann trainiert werden, oder es zieht Schlüsse aus umfangreichem Hintergrundwissen.
Auf dem Gebiet des maschinellen Lernens werden bei uns verschiedene Techniken eingesetzt. Im Falle einer bekannten Etikettierung der Daten werden überwachte Lernverfahren eingesetz, die je nach Größe der Lernstichprobe parametrisch oder nicht parametrisch sein können. Bei nichtparametrischen Verfahren werden dabei keine Annahmen zu der der Lernstichprobe innewohnenden Information getroffen, zur Entscheidungsfindung wird praktisch immer die gesamte Stichprobe herangezogen. Im Gegensatz dazu wird bei parametrischen Verfahren die Lernstichprobe auf in geeigneter Form abgespeicherte, automatisch gewonnene Informationen reduziert. Je nach Form dieser Information werden statistische und verteilungsfreie Verfahren unterschieden. Im Falle statistischer Verfahren besteht die extrahierte Information im wesentlichen aus Aussagen über Verteilungsdichten und deren Verhältnis zueinander. Hierbei kommen unter anderem Verfahren zur Idendifikation von Mischverteilungen zum Einsatz.

Zu den verteilungsfreien Verfahren gehören beispielsweise Support Vector Maschinen, die sich bei einigen Projekten als besonders leistungsfähig erwiesen. Ein Nachteil bei deren Anwendung besteht aber darin, daß die Parametrisierung der nichtlinearen Kernel-Funktionen und des Trainingsverfahrens ein erhebliches Maß an Intuition bzw. Erfahrung erfordert. Ein systematischer Klassifikatorentwurf stellt aber eine wichtige Voraussetzung für die generelle Anwendbarkeit des Verfahrens dar. Ausgehend von diesen Ergebnissen wurde bei der GfaI ein selbstlernendes Klassifikationverfahren (Support Vector Lernen, Cross-Validierung, populationsbasierte Parameteradaption) auf der Basis von Support Vector Maschinen entwickelt.
Sind die Klassenzugehörigkeiten der Trainingsbeispiele nicht bekannt, kommen unüberwachte Lernverfahren zum Einsatz. Das Ziel beim unüberwachten Lernen besteht darin, alleine aufgrund der Struktur der Daten Anhäufungen (Cluster) zu erkennen und diese zu beschreiben. Dabei verwenden wir zum Beispiel verschiedene Verfahren zur metrischen und statistischen Clusteranalyse.



Letztlich werden bei uns auch Verfahren zur Informationsgewinnung aus den Rohdaten untersucht, die eine Vorstufe zum eigentlichen Lernprozess darstellen. Zu nennen sind hier vor allem Verfahren zur Hauptkomponentenanalyse, die je nachdem ob eine überwachte oder unüberwachte Lernaufgabe vorliegt klassenbezogen oder nicht klassenbezogen arbeiten können.

