Inpainting

„Inpainting“ bezeichnet eine Form der Bildrekonstruktion. Die Fähigkeit des Inpaintings, fehlende Bilddaten zu ergänzen, ist für viele Anwendungen nützlich. Dazu gehören die Restaurierung beschädigter Fotos oder auch die Bildbearbeitung (z. B. Photoshop, GIMP, …). In diesem Beispiel wurde der Campus der Universität des Saarlandes maskiert und durch einen See ersetzt, wodurch der verbleibende Wald überzeugend mit dem neuen Bildinhalt verschmilzt.

Unser Beispiel basiert auf „Stable Diffusion“ ein Verfahren, das vor allem als Vertreter der sogenannten Text-zu-Bild-Modelle bekannt ist. Diese neuronalen Netze nehmen einen Text als Eingabe und geben ein Bild aus. Ihre Rekonstruktion basiert auf einem Modell, das aus großen Mengen von Trainingsdaten und einer zusätzlichen Zufallsquelle gewonnen wird.

Für das Inpainting können diese Muster multimodal sein, d.h. ein maskiertes Eingabebild und eine Texteingabe, der sogenannte Prompt, können kombiniert werden. In diesem Fall wurde der positiver Prompt „ein schöner See im Wald“ mit dem negativen Prompt „Gebäude“ kombiniert. Interessierte Leser können dies sogar selbst online mit Webimplementierungen ausprobieren, z. B: SDXL Inpainting

Entsprechende Publikation

Originales Bild

Maskiertes Bild

blank

Inpainted Bild

blank

Inpainting aus spärlichen Daten

Mit Hilfe eines Deep-Learning-Ansatzes wurden 15% der ursprünglichen Pixel aus einem Bild ausgewählt, das den Campus der Universität des Saarlandes zeigt. Das Inpainting ermöglicht eine überzeugende Rekonstruktion aus dieser sehr spärlichen Bilddarstellung. Die Rekonstruktion benötigt kein neuronales Netz, sondern basiert auf einem von der Physik inspirierten Filter: Er basiert auf partiellen Differentialgleichungen, die z. B. Wärmeübertragung oder Konzentrationsausgleichsprozesse beschreiben. 

Das Beispiel zeigt, wie Inapinting in Kombination mit Datenselektionsstrategien zur Bildkompression verwendet werden kann:  Es werden nur ausgewählte Bilddaten gespeichert. Ähnliche Techniken werden auch bei der adaptiven Abtastung eingesetzt, z. B. zur Verbesserung destruktiver bildgebender Verfahren wie der Elektronenmikroskopie. 

Diese Beispiele wurden von Karl Schrader (Universität des Saarlandes, Arbeitsgruppe Mathematische Bildanalyse) zur Verfügung gestellt. 

Relevante Veröffentlichungen: 
Deep spatial and tonal data optimisation for homogeneous diffusion inpainting: Publikation lesen 
Efficient Neural Generation of 4K Masks for Homogeneous Diffusion Inpainting: Publikation lesen 

Originales Bild

blank

Sparse Representation

blank

Rekonstruktion

blank

DragGAN

Neues KI-Modell nutzt „Generative Adversarial Networks“ bzw. GANs und erweitert die Möglichkeiten der digitalen Bildverarbeitung.
mehr lesen

blank
blank

Lightstage

Bei der Lightstage handelt es sich um eine Vorrichtung, mit der kontrolliert verschiedene Lichtverhältnisse und Lichtszenen erzeugt und aufgezeichnet werden können. Die Saarbrücker Lightstage hat einen Durchmesser von 3,5 Metern, besteht aus rund 13.000 LEDs, die allesamt einzeln angesteuert werden können, und verfügt zudem über 40 hochauflösende 6k-Kameras in Kinoqualität. Die Max-Planck-Forscher werden die Technik dazu nutzen, um grundlegende Fragen der Rekonstruktion und Simulation fotorealistischer, digitaler Charaktere und Umgebungen zu untersuchen.

Laborleiter Dr. Marc Habermann (l.) und Prof. Christian Theobalt im Inneren von Lightstage, Hierbei handelt es sich um eine Vorrichtung, mit der kontrolliert verschiedene Lichtverhältnisse und Lichtszenen erzeugt und aufgezeichnet werden können.

mehr lesen

Laboratory manager Dr. Marc Habermann (left) and Prof. Christian Theobalt stand in the Lightstage.
blank

SAUCE Project

Bild 1: Lichtfeld-Kamera für die Aufnahme größerer (mehrere Meter Ausdehnung in alle Richtungen) Szenen.
Bild 2: Aufbau in einem der Fernsehstudios des Saarländischen Rundfunks.
Bild 3: Cellistin Isabel Gehweiler nimmt ein mehrstimmiges, von ihr komponiertes Stück auf.

Video: „Unfolding“, eine Demoproduktion für Lichtfeldaufnahme und -verarbeitung

Homepage

blank
blank
blank

Zitatgeber

Externe Sprachmodelle können zu besseren Bildunterschriften beitragen.
Quelle: Fusion Models for Improved Image Captioning

Laboratory manager Dr. Marc Habermann (left) and Prof. Christian Theobalt stand in the Lightstage.
blank