Generative gegnerische Netzwerke leicht gemacht

Würden Sie diese Person einstellen oder mit ihr ausgehen? Die Sache hat einen Haken: Sie existiert nicht! Ich habe das Bild in wenigen Sekunden mit der Software StyleGAN erstellt. Deshalb können Sie bei genauem Hinsehen einige kleine Artefakte im Bild sehen.

Mensch oder KI?

Stellen Sie sich folgendes Szenario vor: Sie sind online auf das Profil einer gut aussehenden Person gestoßen. Diese Person hat Sie möglicherweise wegen eines Jobs oder über eine Social-Media-Site kontaktiert. Vielleicht haben Sie bei Tinder sogar direkt über ihr Gesicht gewischt.

Es gibt nur ein kleines Problem. Diese Person existiert möglicherweise gar nicht. Das Bild könnte mithilfe einer maschinellen Lerntechnik namens Generative Adversarial Networks (GANs) erstellt worden sein. GANs wurden 2014 entwickelt und erfreuen sich in letzter Zeit wachsender Beliebtheit. Sie werden als eine der bahnbrechendsten Ideen des maschinellen Lernens der letzten zwei Jahrzehnte angepriesen. GANs werden in der Kunst, Astronomie und sogar in Videospielen verwendet und erobern auch die Rechts- und Medienwelt im Sturm.

Generative Adversarial Networks können aus einem Satz Trainingsdaten lernen und neue synthetische Daten mit denselben Eigenschaften wie der Trainingssatz generieren. Die bekannteste und auffälligste Anwendung ist die Bildstilübertragung, bei der GANs verwendet werden können, um das Geschlecht oder Alter eines Gesichtsfotos zu ändern oder ein Gemälde im Stil von Picasso neu zu interpretieren. GANs sind nicht nur auf Bilder beschränkt: Sie können auch synthetische Audio- und Videodaten generieren.

Können wir Generative Adversarial Networks (eine Art generative KI ) auch zur Verarbeitung natürlicher Sprache nutzen – zum Beispiel um einen Roman zu schreiben? Lesen Sie weiter und finden Sie es heraus.

Ich habe am Ende des Artikels Links eingefügt, damit Sie alle vorgestellten GANs selbst ausprobieren können.

Ein generatives kontradiktorisches Netzwerk ermöglicht es Ihnen, Parameter zu ändern und das von Ihnen generierte Gesicht anzupassen und zu steuern. Ich habe diese Reihe von Gesichtern mit StyleGAN generiert.

Erfindung generativer kontradiktorischer Netzwerke

Der Amerikaner Ian Goodfellow und seine Kollegen erfanden Generative Adversarial Networks 2014 auf der Grundlage einiger Ideen, die er während seiner Doktorarbeit an der Universität von Montreal hatte. Sie traten etwa 2016 ins Blickfeld der Öffentlichkeit, nachdem es eine Reihe hochkarätiger Geschichten über KI-Kunst und die Auswirkungen auf die Kunstwelt gab.

Ein Spiel der Wahrheit oder Lüge?

Wie funktioniert ein generatives kontradiktorisches Netzwerk? Tatsächlich ähnelt das Konzept dem Spiel „Wahrheit oder Lüge“ mit einem Freund: Sie müssen sich Geschichten ausdenken und Ihr Freund muss erraten, ob Sie die Wahrheit sagen oder nicht. Sie können das Spiel gewinnen, indem Sie sich sehr plausible Lügen ausdenken, und Ihr Freund kann gewinnen, wenn er die Lügen richtig erschnüffeln kann.

Ein Generative Adversarial Network besteht aus zwei separaten neuronalen Netzwerken:

Der Generator: Dies ist ein neuronales Netzwerk , das einige Zufallszahlen als Eingabe verwendet und versucht, realistische gefälschte Daten, beispielsweise gefälschte Bilder, zu generieren.
Der Diskriminator: Hierbei handelt es sich um ein neuronales Netzwerk mit einer einfachen Aufgabe: Es muss die Fälschungen des Diskriminators erkennen und von den echten unterscheiden.

Die beiden Netzwerke werden gemeinsam trainiert, müssen aber gegeneinander arbeiten, daher der Name „adversarial“. Wenn der Diskriminator eine Fälschung nicht als solche erkennt, verliert er einen Punkt. Ebenso verliert der Generator einen Punkt, wenn der Diskriminator die echten Bilder richtig von den gefälschten unterscheiden kann.

Ein Ausschnitt aus der britischen Panel-Show Would I Lie To You , in der ein Kandidat entweder die Wahrheit sagen oder eine plausible Lüge erfinden muss und das gegnerische Team erraten muss, welche es ist. Mit der Zeit werden die Kandidaten immer besser darin, überzeugend zu lügen und Lügen von Wahrheit zu unterscheiden. Der anfängliche Kandidat ist wie der „Generator“ in einem Generative Adversarial Network und der Gegner ist der „Diskriminator“.

Wie Generative Adversarial Networks lernen

Wie also lernt ein generatives kontradiktorisches Netzwerk, derart realistische gefälschte Inhalte zu generieren?

Wie bei allen neuronalen Netzwerken initialisieren wir den Generator und den Diskriminator mit völlig zufälligen Werten. Der Generator erzeugt also nur Rauschen und der Diskriminator hat keine Ahnung, wie er etwas unterscheiden soll.

Stellen wir uns vor, wir möchten mit einem generativen kontradiktorischen Netzwerk handgeschriebene Ziffern generieren, die etwa so aussehen:

Einige Beispiele für handgeschriebene Ziffern aus dem berühmten MNIST-Datensatz.

Wenn wir mit dem Training eines generativen kontradiktorischen Netzwerks beginnen, gibt der Generator nur reines Rauschen aus:

Das Ausgabebild eines GAN vor Trainingsbeginn

In diesem Stadium ist es für den Diskriminator sehr einfach, Rauschen von handgeschriebenen Zahlen zu unterscheiden, da sie sich überhaupt nicht ähneln. Zu Beginn des „Spiels“ gewinnt also der Diskriminator.

Nach einigen Minuten Training beginnt der Generator, Bilder auszugeben, die eher wie Ziffern aussehen:

Nach einigen Epochen beginnt ein generatives kontradiktorisches Netzwerk, realistischere Ziffern auszugeben.

Nach einer Weile ist die Ausgabe des Generators nicht mehr vom Original zu unterscheiden. Der Diskriminator kann echte Beispiele nicht mehr von Fälschungen unterscheiden.

Anwendungen

Gesichtsbilder generieren

Generative Adversarial Networks sind vor allem für ihre Fähigkeit bekannt, gefälschte Bilder, wie etwa menschliche Gesichter, zu generieren. Das Prinzip ist das gleiche wie bei handgeschriebenen Ziffern im oben gezeigten Beispiel. Der Generator lernt aus einer Reihe von Bildern, bei denen es sich normalerweise um Gesichter von Prominenten handelt, und generiert ein neues Gesicht, das den zuvor gelernten Gesichtern ähnelt.

Eine Reihe von Gesichtern, die vom generativen kontradiktorischen Netzwerk StyleGAN generiert wurden, das von NVidia entwickelt wurde.

Interessanterweise sind die generierten Gesichter in der Regel recht attraktiv. Dies liegt zum Teil daran, dass Prominente als Trainingsset verwendet werden, aber auch daran, dass das GAN eine Art Mittelungseffekt auf die Gesichter ausführt, von denen es lernt, wodurch Asymmetrien und Unregelmäßigkeiten entfernt werden.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP , ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Bildstilübertragung

Generative Adversarial Networks können nicht nur zum Generieren von zufälligen Bildern verwendet werden, sondern auch zum Morphing eines Gesichts von einem Geschlecht in ein anderes, zum Ändern einer Frisur oder zum Transformieren verschiedener Elemente eines Fotos.

Ich habe beispielsweise versucht, den Code auszuführen, um das generative kontradiktorische Netzwerk CycleGAN zu trainieren, das in der Lage ist, Pferde auf Fotos in Zebras umzuwandeln und umgekehrt. Nach etwa vier Stunden Training kann das Netzwerk ein Pferd in ein Zebra verwandeln (die Qualität ist hier nicht so toll, da ich das Training nicht sehr lange laufen ließ, aber wenn Sie CycleGAN mehrere Tage lang laufen lassen, können Sie ein sehr überzeugendes Zebra erhalten).

Musik

Es ist möglich, eine Audiodatei in ein Bild umzuwandeln, indem man sie als Spektrogramm darstellt, wobei sich auf der einen Achse die Zeit und auf der anderen die Tonhöhe befindet.

Das Spektrogramm von Beethovens Militärmarsch

Eine alternative Methode besteht darin, die Musik als MIDI-Datei zu behandeln (die Ausgabe, die Sie erhalten würden, wenn Sie sie auf einem elektronischen Keyboard spielen) und diese dann in ein Format umzuwandeln, das das GAN verarbeiten kann. Mit einfachen Transformationen wie dieser ist es möglich, mit GANs völlig neue Musikstücke im Stil eines bestimmten Komponisten zu erzeugen oder Sprache von der Stimme eines Sprechers in die eines anderen zu transformieren.

Das generative Adversarial Network GANSynth ermöglicht es uns, Eigenschaften wie beispielsweise die Klangfarbe eines Musikstücks anzupassen.

Hier ist Bachs Präludiumsuite Nr. 1 in G-Dur:

Bachs Präludiumsuite Nr. 1 in G-Dur.

Und hier ist das gleiche Musikstück mit der von GANSynth transformierten Klangfarbe:

Bachs Präludiumsuite Nr. 1 in G-Dur mit interpoliertem Timbre, generiert von GANSynth.

Generative Adversarial Networks für die Verarbeitung natürlicher Sprache?

Nachdem ich gesehen hatte, welche erstaunlichen Dinge Generative Adversarial Networks (GAN) mit Bildern, Videos und Audio erreichen können, begann ich mich zu fragen, ob ein GAN einen Roman, einen Nachrichtenartikel oder einen anderen Text schreiben könnte.

Ich habe ein wenig nachgeforscht und herausgefunden, dass Ian Goodfellow, der Erfinder der Generative Adversarial Networks, 2016 in einem Beitrag auf Reddit geschrieben hat, dass GANs nicht für die Verarbeitung natürlicher Sprache verwendet werden können, da GANs realwertige Daten erfordern.

Ein Bild besteht beispielsweise aus kontinuierlichen Werten. Sie können ein einzelnes Pixel ein wenig heller oder dunkler machen. Ein GAN kann lernen, seine Bilder durch kleine Anpassungen zu verbessern. Im Text gibt es jedoch keinen analogen kontinuierlichen Wert. Laut Goodfellow

Wenn Sie das Wort „Pinguin“ ausgeben, können Sie es im nächsten Schritt nicht in „Pinguin + .001“ ändern, da es das Wort „Pinguin + .001“ nicht gibt. Sie müssen den ganzen Weg von „Pinguin“ bis „Strauß“ gehen.

Da die gesamte NLP auf diskreten Werten wie Wörtern, Zeichen oder Bytes basiert, weiß noch niemand wirklich, wie man GANs auf NLP anwendet.

Ian Goodfellow, Beitrag auf Reddit im Jahr 2016

Seit Ian Goodfellow dieses Zitat verfasste, ist es jedoch einer Reihe von Forschern gelungen, generative adversarial networks für Texte anzupassen.

Ein chinesisches Team (Yu et al.) hat ein generatives kontradiktorisches Netzwerk entwickelt, mit dem es klassische chinesische Gedichte generierte, die aus Zeilen mit jeweils vier Zeichen bestehen. Sie stellten fest, dass unabhängige Gutachter die generierten Gedichte nicht von echten unterscheiden konnten.

Anschließend probierten sie die Methode mit den Reden Barack Obamas aus und konnten einige sehr plausibel klingende Texte generieren, wie zum Beispiel:

Vielen Dank. Bitte, nehmen Sie alle Platz. Vielen Dank. Sie sind sehr freundlich. Danke.

Ich freue mich, im Rahmen der regionalen Aktivitäten mit Ihrer eigenen Führung zu sprechen. Ich habe eine Vorgeschichte. Es ist dasselbe, was das Recht auf ein Leben auf Hochtouren unserer Wirtschaft beenden wird. Sie haben sich damit abgefunden, dass die harte Arbeit, die sie leisten können, eine Quelle des Zusammenbruchs ist. Dies ist der Grund, warum ihr Land den Aufbau ihres eigenen Landes erklären kann, um die Krise mit Möglichkeiten für Chancen und unserer Zusammenarbeit und unseren Regierungen, die dies tun, voranzutreiben. Das ist die Tatsache, dass wir nicht die Stärke des amerikanischen Volkes sein werden. Und da sie die großen Folgen Ihrer Kinder und des letzten Jahres nicht unterstützen werden. Und deshalb möchte ich Macaria danken. Amerika kann sich jetzt von der Notwendigkeit ablenken lassen, den Staat China zu überholen und genug zu haben, um seine Träume zu erfüllen, die nächste Generation von Amerikanern, die die Sicherheit unserer Versprechen haben. Und da wir nicht erkennen können, dass wir sie nehmen können.

Und wenn sie unsere Aussichten, den Status quo der internationalen Gemeinschaft beizubehalten, nicht sicherstellen können, werden wir anfangen, in viele Kampfbrigaden zu investieren. Und deshalb werden gute Arbeitsplätze und Menschen nicht immer weiter an der Seite der Nation stehen, die es uns ermöglicht, die massiven Schritte zu unternehmen, um die nächste Generation von Amerikanern zu stärken, die den Steuerzahlern zugutekommen. Das ist die wahre Zukunft der Menschheit, aber wir müssen einfach sicherstellen, dass all der Druck des Geistes, den sie verloren haben, für all die Männer und Frauen da ist, die sich niedergelassen haben, dass unsere Leute neue Chancen sehen. Und wir haben ein Interesse an der Welt.

Jetzt begrüßen wir die Kampagne als grundlegendes Training, um die Prinzipien der Gewinnmaximierung zu zerstören, und sie sahen ihre eigenen Kunden. Und deshalb werden wir nicht in der Lage sein, einen Anspruch auf ihre eigenen Arbeitsplätze zu erheben. Es wird ein Staat der Vereinigten Staaten von Amerika sein. Der Präsident wird der Partei helfen, in unserer Zeit und hier in den Vereinigten Staaten von Amerika einheitlich zu arbeiten. Aber ihre Beziehung zu den Vereinigten Staaten von Amerika wird Vertrauen beinhalten.

Vielen Dank. Gott segne Sie. Und möge Gott Sie segnen. Vielen Dank. Vielen Dank an alle. Vielen Dank. Gott segne die Vereinigten Staaten von Amerika. Gott segne Sie. Hier ist der Präsident.

Eine generierte Rede im Barack Obama-Stil, von Yu et al (2017)

Generative Adversarial Networks in der Gesellschaft

Deepfakes

GANs haben in den Mainstream-Medien aufgrund ihrer Rolle beim umstrittenen Phänomen der „Deepfakes“ große Aufmerksamkeit erhalten. Deepfakes sind realistisch wirkende synthetische Bilder oder Videos von Politikern und anderen Persönlichkeiten des öffentlichen Lebens in kompromittierenden Situationen. Böswillige Akteure haben äußerst überzeugendes Filmmaterial von Menschen erstellt, die Dinge tun oder sagen, die sie in Wirklichkeit nie getan oder gesagt haben.

Es war schon immer möglich, Prominente oder Politiker mit Photoshop in falsche Hintergründe zu bringen oder diese Menschen zu zeigen, wie sie eine Person umarmen oder ihr die Hand schütteln, die sie nie persönlich gesehen haben. Der sowjetische Apparat war dafür berüchtigt, in Ungnade gefallene Figuren aus Fotos zu retuschieren, in einem vergeblichen Versuch, die Geschichte umzuschreiben. Generative Adversarial Networks sind noch einen Schritt weiter gegangen, indem sie es möglich gemacht haben, scheinbar echtes Videomaterial zu erstellen.

Ein digital retuschiertes Foto aus der Sowjetzeit. Wer weiß, was der autoritäre Staat mit generativen konfrontativen Netzwerken hätte erreichen können? Das Bild ist gemeinfrei.

Dies stellt eine existenzielle Bedrohung für die Nachrichtenmedien dar, für die die Glaubwürdigkeit des Inhalts von entscheidender Bedeutung ist. Wie können wir wissen, ob der versteckte Kameraclip eines Whistleblowers echt ist oder ob es sich um eine aufwändige Fälschung handelt, die von einem GAN erstellt wurde, um den Ruf des Gegners zu zerstören? Deepfakes können auch verwendet werden, um gefälschten Nachrichtenartikeln Glaubwürdigkeit zu verleihen.

Die Technologie wirft düstere Probleme auf. Im Internet ist bereits Pornografie aufgetaucht, die mithilfe von GANs erstellt wurde und die Gesichter echter Prominenter enthält. Prominente sind derzeit ein leichtes Ziel, da es im Internet bereits viele Fotos von ihnen gibt, sodass es einfach ist, ein GAN zu trainieren, um ihre Gesichter zu generieren. Darüber hinaus ist das öffentliche Interesse an ihrem Privatleben bereits groß, sodass es lukrativ sein kann, gefälschte Videos oder Fotos zu veröffentlichen. Da die Technologie jedoch fortschreitet und die Größe des erforderlichen Trainingssatzes schrumpft, können Hacker Erpressungen durchführen, um gefälschte Clips mit nahezu jeder Person zu erstellen.

AI Art

Selbst der seriöse Einsatz generativer kontradiktorischer Netzwerke wirft komplizierte Rechtsfragen auf. Wem gehören beispielsweise die Rechte an einem Bild, das von einem generativen kontradiktorischen Netzwerk erstellt wurde?

Das US-amerikanische Urheberrecht verlangt, dass ein urheberrechtlich geschütztes Werk einen menschlichen Autor hat. Aber wer besitzt die Rechte an einem von einem GAN generierten Bild? Der Softwareentwickler ? Die Person, die das GAN verwendet hat? Oder der Eigentümer der Trainingsdaten?

Die Frage „Wer ist der Schöpfer?“ wurde 2018 auf eine berühmte Art und Weise auf die Probe gestellt, als das Pariser Künstlerkollektiv Obvious mithilfe eines Generative Adversarial Network ein Gemälde mit dem Titel Edmond de Belamy schuf, das später auf Leinwand gedruckt wurde. Das Kunstwerk wurde bei Christie’s in New York für 432.500 Dollar verkauft. Es stellte sich jedoch bald heraus, dass der Code zur Generierung des Gemäldes von einem anderen KI-Künstler, Robbie Barratt, geschrieben worden war, der nicht mit Obvious verbunden war. Die öffentliche Meinung war geteilt, ob die drei Künstler von Obvious zu Recht behaupten konnten, das Kunstwerk geschaffen zu haben.

Das GAN-generierte Gemälde Edmond de Belamy, auf Leinwand gedruckt, aber mithilfe eines generativen kontradiktorischen Netzwerks des Pariser Kollektivs Obvious erstellt. Das Bild ist gemeinfrei.

Zukunft generativer kontradiktorischer Netzwerke

Generative Adversarial Networks sind eine junge Technologie, die jedoch in kurzer Zeit große Auswirkungen auf die Welt des Deep Learning und auch auf die Beziehung der Gesellschaft zur KI hatte. Bislang werden die verschiedenen exotischen Anwendungen von GANs erst allmählich erforscht.

Derzeit werden Generative Adversarial Networks in der Datenwissenschaft in der Industrie noch nicht weithin eingesetzt. Wir können also davon ausgehen, dass sich GANs in naher Zukunft auch außerhalb der akademischen Welt verbreiten werden. Ich gehe davon aus, dass GANs in der Computerspiel-, Animations- und Modebranche weit verbreitet sein werden. Ein in Hongkong ansässiges Biotechnologieunternehmen namens Insilico Medicine beginnt, GANs für die Arzneimittelforschung zu untersuchen. Unternehmen wie NVidia investieren massiv in die Forschung zu GANs und auch in leistungsfähigere Hardware. Das Feld sieht also vielversprechend aus. Und natürlich können wir nach dem Einfluss von Edmond de Belamy damit rechnen, noch viel mehr über GANs und KI-Kunst zu hören.

Links zum Einstieg in Generative Adversarial Networks

Wenn Sie eines der generativen kontradiktorischen Netzwerke ausführen möchten, die ich im Artikel gezeigt habe, habe ich hier einige Links eingefügt. Nur das erste (handgeschriebene Ziffern) läuft auf einem normalen Laptop, während Sie für die anderen ein Konto bei einem Cloud-Anbieter wie AWS oder Google Colab erstellen müssen, da sie leistungsstärkere Rechenleistung benötigen.

GAN für handgeschriebene Ziffern: DCGAN (TensorFlow)
Gesichtsgenerierung: StyleGAN
Übertragung vom Pferd zum Zebra: CycleGAN
Musikstilübertragung: GANSynth
Textgenerierung : SeqGAN

Weitere Informationen zu Generative Adversarial Networks

Verweise

Yu et al., SeqGAN: Sequenzgenerative Adversarialnetze mit Policy Gradient ( 2017)
Ziegler et al., Feinabstimmung von Sprachmodellen anhand menschlicher Präferenzen (2020)
Langlois et al., Attraktive Gesichter sind nur durchschnittlich , Psychological Science (1990)
Cohn, AI Art bei Christie’s für 432.500 Dollar versteigert , New York Times, (2018)
Holz, Generative Adversarial Networks (deepai.org)
Murphy, Maschinelles Lernen – eine probabilistische Perspektive . Reihe „Adaptive Berechnung und maschinelles Lernen“ (2012)
Bishop, Christopher. Mustererkennung und maschinelles Lernen , Informationswissenschaft und Statistik, (2007)
Goodfellow et al., Generative Adversarial Networks (2014)
Brundage et al. Der böswillige Einsatz künstlicher Intelligenz: Prognose, Prävention und Eindämmung. (2018)