NVIDIA und die Rolle von synthetischen Daten in der Zukunft der KI

3 min read

Am 18. März bei der jährlichen Entwicklerkonferenz von NVIDIA sprach Mitbegründer und CEO Jensen Huang über die Herausforderungen, denen die Branche bei der Skalierung von KI-Unternehmen begegnet. Er hob hervor, dass es drei zentrale Probleme gibt: die Generierung von Daten für das Training von KI, die Gestaltung von Modellarchitekturen und die Prinzipien für eine erfolgreiche Skalierung. Huang erläuterte auch, wie das Unternehmen synthetische Daten in seiner Robotik-Plattform nutzt.
Ergänzung der Datenmenge und Schutz der Privatsphäre
Ana-Maria Cretu, Doktorandin an der École Polytechnique Fédérale de Lausanne, erforscht den Datenschutz bei synthetischen Daten. Sie erklärt, dass synthetische Daten auf vielfältige Weise eingesetzt werden können, um Probleme des Datenmangels zu lösen und diversifizierte Datensätze zu erstellen. Ein Beispiel: Ein Krankenhaus möchte ein KI-Modell zur Überwachung einer bestimmten Krebserkrankung entwickeln, hat jedoch nur begrenzte Daten von 1.000 Patienten. Synthetische Daten könnten hier den Datensatz erweitern, Verzerrungen eliminieren und die Privatsphäre der Patienten wahren, selbst wenn die Originaldaten nicht an Dritte weitergegeben werden können.
Im Bereich der großen Sprachmodelle (LLM) beschreibt Cretu synthetische Daten als umfassende Lösung zur Bewältigung der Herausforderung, die Datenmenge für LLM zu vergrößern.
Experten befürchten, dass KI-Firmen zukünftig nicht mehr auf von Menschen erstellte Internetdaten zugreifen können, um ihre Modelle zu trainieren. Ein Bericht der Data Provenance Initiative des MIT aus dem letzten Jahr weist auf zunehmende Einschränkungen bezüglich offener Webinhalte hin.
Bedenken über das Zusammenbrechen von Modellen
Theoretisch könnten synthetische Daten eine einfache Lösung bieten. In einem im Juli 2024 veröffentlichten Artikel in ‚Nature‘ wird jedoch vor einem möglichen „Zusammenbruch“ gewarnt, wenn KI-Sprachmodelle mit Daten trainiert werden, die von anderen Modellen erzeugt wurden. Dies könnte zu einer deutlichen Verschlechterung der Qualität führen, da Maschinen nur noch ihre eigenen Ausgaben konsumieren.
Alexandr Wang, CEO von Scale AI, einem Unternehmen, das menschliche Arbeitskraft für die Datenkennzeichnung nutzt, teilte die Erkenntnisse aus dem ‚Nature‘-Artikel auf X. Er schrieb, dass viele Forscher synthetische Daten als Wundermittel betrachten, aber eine perfekte Lösung gibt es nicht. Wang bekräftigte seine Überzeugung in die Nutzung hybrider Daten.
Ein Gründer von Gretel widersprach dem ‚Nature‘-Artikel und betonte in einem Blog, dass das Training rein mit synthetischen Daten ein extremes Szenario darstelle und nicht die reale Praxis der KI-Entwicklung widerspiegele.
Der Kognitionswissenschaftler Gary Marcus, bekannt für seine kritische Haltung gegenüber dem aktuellen KI-Hype, stimmte den Diagnosen von Wang zu, nicht jedoch seinen Lösungen. Laut Marcus wird die Branche durch die Entwicklung neuer Modellarchitekturen voranschreiten, ohne sich auf spezifische Datensätze zu konzentrieren. In einer E-Mail an ‚WIRED‘ äußerte Marcus, dass Systeme wie (OpenAIs) o1/o3 in spezifischen Bereichen wie Programmieren und Mathematik bei der Generierung und Validierung synthetischer Daten leistungsstark seien, aber in offenen Szenarien weniger effektiv.

+ There are no comments

Add yours