Datengeneratoren für KI: Dataset-Klassen erschließen Daten für PyTorch

Eigene Trainingsdaten fließen in ein KI-Modell, wenn die Software auf der Dataset-Klasse von PyTorch aufbaut. Wie das geht, zeigen wir an zwei Beispielen.

Artikel verschenken

(Bild: KI Midjourney | Collage c’t)

06.05.2024, 08:00 Uhr

Lesezeit: 14 Min.

c't Magazin

Von

Pina Merkert

Datengeneratoren für KI: Dataset-Klassen erschließen Daten für PyTorch
Magische Methoden
Daten laden
Daten verändern
Verwirrspiel verloren

Artikel in c't 11/2024 lesen

Beim Thema künstliche Intelligenz herrscht Goldgräberstimmung: Es gibt kaum eine Datenquelle, der Data Scientists nicht mit der einen oder anderen KI-Methode zu Leibe rücken, um ihr möglicherweise enthaltene Informationsmuster zu entlocken. Allerdings liegen die Daten nur selten in einem Format vor, das für die Weiterverarbeitung mit KI ideal geeignet ist: Exotische Dateiformate wollen auseinandergedröselt werden. Manche Datensätze sind zu groß, um sie am Stück in den Rechner- oder Grafikkartenspeicher zu laden, und müssen zunächst sinnvoll partitioniert werden. Andere Quellen liefern zu wenige Daten, um damit eine KI sinnvoll zu trainieren – hierbei helfen oft künstlich erzeugte Trainingsdaten.

In KI-Frameworks gibt es für solche und ähnliche Aufgaben sogenannte Datengeneratoren. In PyTorch, der KI-Bibliothek für Python, heißt die zuständige Klasse Dataset. Von ihr können Data Scientists eigene Klassen ableiten. Die komplexe Logik, um die Daten effizient in den richtigen Speicher zu bekommen, müssen sie dabei nicht anfassen. Der im Verlauf dieses Artikels entwickelte Code zeigt eine selbst geschriebene Dataset-Klasse, die Bilddateien von der Festplatte liest und an PyTorch weiterreicht. Nach dieser Fingerübung stellen wir Ihnen noch ein Experiment vor, das ergründet, wie robust neuronale Netze gegen mehr oder weniger verfälschte Trainingsdaten sind. Möglich macht das Experiment ebenfalls ein Datengenerator.

In der Klassenstruktur von PyTorch bilden Datasets das Bindeglied zwischen einer externen Datenquelle und der eigentlichen KI-Maschinerie. Woher die Daten kommen, ob sie am Stück oder erst einzeln bei Bedarf geladen werden und ob es sich um echte, verfälschte oder gar künstlich erzeugte Daten handelt, ist Sache des Dataset. Im einfachsten Fall liegt die richtige Menge an Daten in einem leicht verdaulichen Format auf der Festplatte. Dann muss das Dataset nicht mehr tun, als sie am Stück zu laden und auf Anforderung jeweils eine Eingabe X und die gewünschte Ausgabe y herauszurücken.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gehälter 2024: Das verdienen Admins in Deutschland

Firmen suchen händeringend nach IT-Admins. Sie sind der Grundstein für eine gute technische Infrastruktur. Wir zeigen, was Administratoren verdienen.

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Linux oder Windows – egal, Hauptsache das System erlaubt es, in Ruhe zu arbeiten? Linux Mint Cinnamon setzt auf bewährte Konzepte. Dinge funktionieren einfach.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Künstliche Intelligenz muss nicht kompliziert sein. Mit der PyTorch-Bibliothek bauen Sie Ihren eigenen KI-Bildgenerator in Python. Wir erklären, wie das geht.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gehälter 2024: Das verdienen Admins in Deutschland

Firmen suchen händeringend nach IT-Admins. Sie sind der Grundstein für eine gute technische Infrastruktur. Wir zeigen, was Administratoren verdienen.

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

Linux oder Windows – egal, Hauptsache das System erlaubt es, in Ruhe zu arbeiten? Linux Mint Cinnamon setzt auf bewährte Konzepte. Dinge funktionieren einfach.

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Künstliche Intelligenz muss nicht kompliziert sein. Mit der PyTorch-Bibliothek bauen Sie Ihren eigenen KI-Bildgenerator in Python. Wir erklären, wie das geht.

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Aus dem ollen Drahtesel wird ein modernes E-Bike: Das ist das Versprechen von Umrüst-Kits, die Fahrrad und E-Motor zusammenbringen.

Tandem auf E-Antrieb umrüsten

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Der DeskMini X600 erlaubt es, einen kompakten Rechner mit aktuellen AM5-Prozessoren zu bauen. Weil Asrock den Chipsatz weglässt, sinkt der Energiebedarf enorm.

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Die Fedora Workstation erinnert kaum an den Windows-Desktop. Im Vergleich zu anderen Distributionen schreitet Fedora vorneweg und integriert Techniken früh.

nach oben

Alle Angebote

Newsletter heise-Bot Push Push-Nachrichten

${intro} ${title}

${intro} ${title}

Datengeneratoren für KI: Dataset-Klassen erschließen Daten für PyTorch

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gehälter 2024: Das verdienen Admins in Deutschland

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Immer mehr Wissen. Das digitale Abo für IT und Technik.

Gehälter 2024: Das verdienen Admins in Deutschland

Linux-Umstieg: Mit Linux Mint Cinnamon wie gewohnt weiterarbeiten

PyTorch: Eigene Bildgenerierungs-KI mit Python bauen

Fahrrad zum E-Bike aufrüsten: Drei Nachrüstmotoren im Test

Mini-PC-Barebone für AMD Ryzen 7000/8000G im Test

Linux-Umstieg: Mit Fedora Workstation neue Wege gehen

Spiele

1 Jahr nur 1,90 € pro Woche

Das digitale Abo für IT und Technik.