Generative gegnerische Netzwerke leicht gemacht

· Thomas Wood
Generative gegnerische Netzwerke leicht gemacht

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Würden Sie diese Person einstellen oder mit ihr ausgehen? Es gibt einen Haken: Sie existiert nicht! Das Bild habe ich mit der Software StyleGAN in wenigen Sekunden generiert. Deshalb kann man bei genauem Hinsehen einige kleine Artefakte im Bild erkennen.

Mensch oder KI?

Stellen Sie sich folgendes Szenario vor: Sie sind online auf das Profil einer gutaussehenden Person gestoßen. Möglicherweise haben sie Sie wegen einer Stelle oder über eine Social-Media-Seite kontaktiert. Vielleicht hast du ihnen auf Tinder sogar direkt ins Gesicht gewischt.

Es gibt nur ein kleines Problem. Diese Person existiert möglicherweise gar nicht. Das Bild könnte mithilfe einer maschinellen Lerntechnik namens Generative Adversarial Networks oder GANs generiert worden sein. GANs wurden 2014 entwickelt und erfreuen sich in letzter Zeit einer rasanten Popularität. Sie gelten als eine der bahnbrechendsten Ideen des maschinellen Lernens der letzten zwei Jahrzehnte. GANs werden in der Kunst, in der Astronomie und sogar in Videospielen eingesetzt und erobern auch die Rechts- und Medienwelt im Sturm.

Generative Adversarial Networks sind in der Lage, aus einem Satz von Trainingsdaten zu lernen und neue synthetische Daten mit denselben Eigenschaften wie der Trainingssatz zu generieren. Die bekannteste und auffälligste Anwendung ist die Bildstilübertragung, bei der GANs verwendet werden können, um das Geschlecht oder Alter eines Gesichtsfotos zu ändern oder sich ein Gemälde im Stil von Picasso neu vorzustellen. GANs beschränken sich nicht nur auf Bilder: Sie können auch synthetisches Audio und Video erzeugen.

Können wir generative kontradiktorische Netzwerke auch für die Verarbeitung natürlicher Sprache nutzen – zum Beispiel um einen Roman zu schreiben? Lesen Sie weiter und finden Sie es heraus.

Ich habe am Ende des Artikels Links eingefügt, damit Sie alle vorgestellten GANs selbst ausprobieren können.

Mit einem generativen gegnerischen Netzwerk können Sie Parameter ändern und das von Ihnen generierte Gesicht anpassen und steuern. Ich habe diese Reihe von Gesichtern mit StyleGAN generiert.

Erfindung generativer gegnerischer Netzwerke

Der Amerikaner Ian Goodfellow und seine Kollegen erfanden Generative Adversarial Networks im Jahr 2014 nach Ideen, die er während seiner Doktorarbeit an der Universität Montréal hatte. Sie gelangten etwa 2016 in den Fokus der Öffentlichkeit, nachdem sie eine Reihe hochkarätiger Geschichten über KI-Kunst und deren Auswirkungen auf die Kunstwelt veröffentlicht hatten.

Ein Spiel um Wahrheit oder Lüge?

Wie funktioniert ein generatives kontradiktorisches Netzwerk? Tatsächlich ähnelt das Konzept einem Spiel „Wahrheit oder Lüge“ mit einem Freund: Sie müssen sich Geschichten ausdenken, und Ihr Freund muss erraten, ob Sie die Wahrheit sagen oder nicht. Sie können das Spiel gewinnen, indem Sie sehr plausible Lügen erfinden, und Ihr Freund kann gewinnen, wenn er die Lügen richtig aufspüren kann.

Ein Generative Adversarial Network besteht aus zwei separaten neuronalen Netzwerken:

  • Der Generator: Dabei handelt es sich um ein neuronales Netzwerk , das einige Zufallszahlen als Eingabe verwendet und versucht, realistische Fake-Daten, wie zum Beispiel Fake-Bilder, zu generieren.
  • Der Diskriminator: Dies ist ein neuronales Netzwerk mit einer einfachen Aufgabe: Es muss die Fälschungen des Diskriminators erkennen und sie von echten unterscheiden.

Die beiden Netzwerke werden gemeinsam trainiert, müssen aber gegeneinander arbeiten, daher der Name „kontradiktorisch“. Erkennt der Diskriminator eine Fälschung nicht als solche, verliert er einen Punkt. Ebenso verliert der Generator einen Punkt, wenn der Diskriminator die echten Bilder korrekt von den gefälschten unterscheiden kann.

Ein Ausschnitt aus der britischen Panelshow „Would I Lie To You“ , in der ein Teilnehmer entweder die Wahrheit sagen oder eine plausible Lüge erfinden muss und das gegnerische Team erraten muss, um welche Lüge es sich handelt. Mit der Zeit werden die Teilnehmer besser darin, überzeugend zu lügen und Lügen von der Wahrheit zu unterscheiden. Der erste Teilnehmer ist wie der „Generator“ in einem Generative Adversarial Network, und der Gegner ist der „Diskriminator“.

Wie generative gegnerische Netzwerke lernen

Wie lernt ein generatives kontradiktorisches Netzwerk, solche realistischen Fake-Inhalte zu generieren?

Wie bei allen neuronalen Netzen initialisieren wir den Generator und den Diskriminator mit völlig zufälligen Werten. Der Generator erzeugt also nur Rauschen und der Diskriminator hat keine Ahnung, wie er irgendetwas unterscheiden soll.

Stellen wir uns vor, wir möchten, dass ein generatives kontradiktorisches Netzwerk handgeschriebene Ziffern generiert, die so aussehen:

Einige Beispiele handgeschriebener Ziffern aus dem berühmten MNIST-Datensatz.

Wenn wir mit dem Training eines generativen gegnerischen Netzwerks beginnen, gibt der Generator nur reines Rauschen aus:

At the start of training, a generative adversarial network outputs white noise.

Das Ausgabebild eines GAN vor Beginn des Trainings

In diesem Stadium ist es für den Diskriminator sehr einfach, Rauschen von handgeschriebenen Zahlen zu unterscheiden, da sie sich nicht ähneln. Zu Beginn des „Spiels“ gewinnt also der Diskriminator.

Nach ein paar Minuten Training beginnt der Generator, Bilder auszugeben, die etwas mehr wie Ziffern aussehen:

After a few epochs, a generative adversarial network starts to output more realistic digits

Nach einigen Epochen beginnt ein generatives gegnerisches Netzwerk, realistischere Ziffern auszugeben.

Nach einer Weile ist die Leistung des Generators nicht mehr von der echten zu unterscheiden. Der Diskriminator kann echte Beispiele nicht mehr von Fälschungen unterscheiden.

Anwendungen

Gesichtsbilder generieren

Generative Adversarial Networks sind vor allem für ihre Fähigkeit bekannt, gefälschte Bilder, beispielsweise menschliche Gesichter, zu generieren. Das Prinzip ist das gleiche wie bei den handgeschriebenen Ziffern im oben gezeigten Beispiel. Der Generator lernt aus einer Reihe von Bildern, bei denen es sich normalerweise um Gesichter von Prominenten handelt, und generiert ein neues Gesicht, das den zuvor gelernten Gesichtern ähnelt.

Eine Reihe von Gesichtern, die vom generativen gegnerischen Netzwerk StyleGAN generiert wurden, das von NVidia entwickelt wurde.

Interessanterweise sind die generierten Gesichter in der Regel recht attraktiv. Dies ist teilweise auf die Verwendung von Prominenten als Trainingssatz zurückzuführen, aber auch darauf, dass das GAN eine Art Mittelungseffekt auf die Gesichter ausübt, von denen es gelernt hat, wodurch Asymmetrien und Unregelmäßigkeiten beseitigt werden.

Fast Data Science - London

Need a business solution?

NLP , ML und Data Science Leader seit 2016 – kontaktieren Sie uns für eine NLP- Beratungssitzung.

Bildstilübertragung

Neben der Generierung zufälliger Bilder können generative gegnerische Netzwerke auch dazu verwendet werden, ein Gesicht von einem Geschlecht in ein anderes zu verwandeln, die Frisur einer Person zu ändern oder verschiedene Elemente eines Fotos zu transformieren.

Ich habe zum Beispiel versucht, den Code auszuführen, um das generative gegnerische Netzwerk CycleGAN zu trainieren, das Pferde auf Fotos in Zebras umwandeln kann und umgekehrt. Nach etwa vier Stunden Training beginnt das Netzwerk, ein Pferd in ein Zebra zu verwandeln (die Qualität ist hier nicht so toll, da ich das Training nicht sehr lange durchgeführt habe, aber wenn man CycleGAN mehrere Tage lang laufen lässt, wird es besser kann ein sehr überzeugendes Zebra bekommen).

Original picture of a hors Original picture of a hors

Musik

Es ist möglich, eine Audiodatei in ein Bild umzuwandeln, indem man sie als Spektrogramm darstellt, bei dem sich auf der einen Achse die Zeit und auf der anderen die Tonhöhe befindet.

Das Spektrogramm von Beethovens Militärmarsch

Eine alternative Methode besteht darin, die Musik als MIDI-Datei zu behandeln (die Ausgabe, die Sie beim Spielen auf einem elektronischen Keyboard erhalten würden) und diese dann in ein Format umzuwandeln, das das GAN verarbeiten kann. Mithilfe einfacher Transformationen wie dieser ist es möglich, mithilfe von GANs völlig neue Musikstücke im Stil eines bestimmten Komponisten zu generieren oder Sprache von der Stimme eines Sprechers in eine andere umzuwandeln.

Das generative kontradiktorische Netzwerk GANSynth ermöglicht es uns, Eigenschaften wie die Klangfarbe eines Musikstücks anzupassen.

Hier ist Bachs Präludium Suite Nr. 1 in G-Dur:

Bachs Präludium Suite Nr. 1 in G-Dur.

Und hier ist das gleiche Musikstück mit der von GANSynth transformierten Klangfarbe:

Bachs Präludium Suite Nr. 1 in G-Dur mit interpoliertem Timbre, generiert von GANSynth.

Generative kontradiktorische Netzwerke für die Verarbeitung natürlicher Sprache?

Nachdem ich die erstaunlichen Dinge gesehen hatte, die generative gegnerische Netzwerke für Bilder, Video und Audio erreichen können, begann ich mich zu fragen, ob ein GAN einen Roman, einen Nachrichtenartikel oder einen anderen Text schreiben könnte.

Ich habe etwas recherchiert und herausgefunden, dass Ian Goodfellow, der Erfinder von Generative Adversarial Networks, 2016 in einem Beitrag auf Reddit schrieb, dass GANs nicht für die Verarbeitung natürlicher Sprache verwendet werden können, da GANs reelle Daten erfordern.

Ein Bild besteht beispielsweise aus kontinuierlichen Werten. Sie können ein einzelnes Pixel einen Hauch heller oder dunkler machen. Ein GAN kann lernen, seine Bilder durch kleine Anpassungen zu verbessern. Es gibt jedoch keinen analogen kontinuierlichen Wert im Text. Laut Goodfellow,

Wenn Sie das Wort „Pinguin“ ausgeben, können Sie das im nächsten Schritt nicht in „Pinguin + .001“ ändern, da es kein Wort wie „Pinguin + .001“ gibt. Man muss vom „Pinguin“ zum „Strauß“ gehen.

Da alles NLP auf diskreten Werten wie Wörtern, Zeichen oder Bytes basiert, weiß noch niemand wirklich, wie man GANs auf NLP anwendet.

Ian Goodfellow, Beitrag auf Reddit im Jahr 2016

Doch seit Ian Goodfellow dieses Zitat geschrieben hat, ist es einer Reihe von Forschern gelungen, generative kontradiktorische Netzwerke für Text zu adaptieren.

Ein chinesisches Team (Yu et al.) hat ein generatives kontradiktorisches Netzwerk entwickelt, mit dem sie klassische chinesische Gedichte generierten, die aus Zeilen mit jeweils vier Zeichen bestehen. Sie fanden heraus, dass unabhängige Richter nicht in der Lage waren, die generierten Gedichte von echten zu unterscheiden.

Sie haben es dann an den Reden von Barack Obama ausprobiert und konnten einige sehr plausibel klingende Texte generieren, wie zum Beispiel:

Vielen Dank. Bitte nehmen Sie alle Platz. Vielen Dank. Sie sind sehr lieb. Danke schön.

Ich freue mich, bei regionalen Aktivitäten mit Ihrer eigenen Führung zu sprechen. Ich habe Vorerkrankungen. Es ist dasselbe, was dazu führen wird, dass das Recht auf ein Leben in einer Hochkonjunktur unserer Wirtschaft zunichte gemacht wird. Sie sahen sich damit konfrontiert, dass die harte Arbeit, die sie leisten können, eine Quelle des Zusammenbruchs ist. Aus diesem Grund kann ihr Land den Aufbau seines eigenen Landes zur Bewältigung der Krise mit den Möglichkeiten für Chancen und unserer Zusammenarbeit und den Regierungen, die dies tun, erklären. Das liegt daran, dass wir nicht die Stärke des amerikanischen Volkes sein werden. Und da sie die enormen Folgen Ihrer Kinder und des letzten Jahres nicht ertragen werden. Und deshalb möchte ich Macaria danken. Amerika kann sich nun von der Notwendigkeit ablenken lassen, den Staat China zu übergeben und hat genug, um ihre Träume zu erfüllen, die nächste Generation von Amerikanern, die die Sicherheit unseres Versprechens erfüllt haben. Und da wir nicht erkennen können, dass wir sie ertragen können.

Und wenn sie unsere Aussichten, den Status quo der internationalen Gemeinschaft weiterhin zu wahren, nicht gewährleisten können, werden wir anfangen, in viele Kampfbrigaden zu investieren. Und deshalb werden gute Arbeitsplätze und gute Menschen nicht immer an der Seite der Nation stehen, die es uns ermöglicht, massive Schritte zu unternehmen, um den Steuerzahlern Kraft für die nächste Generation von Amerikanern zu geben. Das ist es, was die Zukunft des Menschen wirklich ausmacht, aber wir stellen einfach sicher, dass all der Druck des Geistes, den sie verloren haben, für alle Männer und Frauen, die feststellten, dass unser Volk neue Chancen sieht, erhalten bleibt. Und wir haben ein Interesse an der Welt.

Jetzt begrüßen wir die Kampagne als eine grundlegende Schulung zur Zerstörung der Prinzipien des Endergebnisses, und sie sahen ihre eigenen Kunden. Und deshalb werden wir keinen Anspruch auf eigene Arbeitsplätze haben. Es wird ein Staat der Vereinigten Staaten von Amerika sein. Der Präsident wird der Partei dabei helfen, über unsere Zeit hinweg und hier in den Vereinigten Staaten einheitlich zu wirken. Zu ihrer Beziehung zu den Vereinigten Staaten von Amerika gehört jedoch auch der Glaube.

Danke schön. Gott schütze dich. Und möge Gott den Menschen verlieren. Vielen Dank. Vielen Dank an alle. Danke schön. Gott segne die Vereinigten Staaten von Amerika. Gott schütze dich. Hier ist Präsident.

Eine generierte Barack Obama-artige Rede von Yu et al. (2017)

Generative gegnerische Netzwerke in der Gesellschaft

Deepfakes

Aufgrund ihrer Beteiligung am umstrittenen „Deepfakes“-Phänomen haben GANs in den Mainstream-Medien große Aufmerksamkeit erregt. Deepfakes sind realistisch aussehende synthetische Bilder oder Videos von Politikern und anderen Persönlichkeiten des öffentlichen Lebens in kompromittierenden Situationen. Böswillige Schauspieler haben äußerst überzeugende Aufnahmen von Menschen gemacht, die Dinge tun oder sagen, die sie nie tatsächlich getan oder gesagt haben.

Es war schon immer möglich, Prominente oder Politiker mit Photoshop in gefälschte Hintergründe zu verwandeln oder diese Menschen zu zeigen, wie sie eine Person umarmen oder ihr die Hand schütteln, die sie noch nie persönlich gesehen haben. Der sowjetische Apparat war dafür berüchtigt, in einem vergeblichen Versuch, die Geschichte neu zu schreiben, ungünstige Figuren aus Fotos zu entfernen. Generative kontradiktorische Netzwerke gehen hier noch einen Schritt weiter, indem sie es ermöglichen, scheinbar echtes Videomaterial zu erstellen.

A digitally retouched photograph from the Soviet era. Who knows what the authoritarian state could have achieved with generative adversarial networks?

Ein digital retuschiertes Foto aus der Sowjetzeit. Wer weiß, was der autoritäre Staat mit generativen gegnerischen Netzwerken hätte erreichen können? Das Bild ist gemeinfrei.

Dies stellt eine existenzielle Bedrohung für die Nachrichtenmedien dar, bei denen die Glaubwürdigkeit der Inhalte von entscheidender Bedeutung ist. Wie können wir wissen, ob der versteckte Kameraclip eines Whistleblowers echt ist oder ob es sich um eine aufwändige Fälschung handelt, die von einer GAN erstellt wurde, um den Ruf des Gegners zu zerstören?​​ Deepfakes können auch verwendet werden, um Fake-News- Artikeln Glaubwürdigkeit zu verleihen.

Die Technologie wirft dunkle Probleme auf. Im Internet ist GAN-fähige Pornografie aufgetaucht, die mit den Gesichtern echter Prominenter erstellt wurde. Prominente sind derzeit ein leichtes Ziel, da es bereits viele Fotos von ihnen im Internet gibt, sodass es einfach ist, einem GAN beizubringen, ihre Gesichter zu generieren. Darüber hinaus ist das Interesse der Öffentlichkeit an ihrem Privatleben bereits groß, sodass es lukrativ sein kann, gefälschte Videos oder Fotos zu veröffentlichen. Da die Technologie jedoch Fortschritte macht und die Größe des erforderlichen Trainingssatzes abnimmt, können Hacker Erpressungen nutzen, um gefälschte Clips mit fast jedem zu erstellen.

KI-Kunst

Selbst die seriöse Nutzung generativer gegnerischer Netzwerke wirft einige komplizierte rechtliche Fragen auf. Wer besitzt beispielsweise die Rechte an einem Bild, das von einem generativen gegnerischen Netzwerk erstellt wurde?

Das Urheberrecht der Vereinigten Staaten verlangt, dass ein urheberrechtlich geschütztes Werk einen menschlichen Urheber haben muss. Aber wem gehören die Rechte an einem von einem GAN generierten Bild? Der Softwareentwickler ? Die Person, die das GAN verwendet hat? Oder der Eigentümer der Trainingsdaten?

Das Konzept „Wer ist der Schöpfer?“ wurde bekanntlich im Jahr 2018 auf die Probe gestellt, als das Pariser Kunstkollektiv Obvious ein generatives kontradiktorisches Netzwerk nutzte, um ein Gemälde namens Edmond de Belamy zu schaffen, das später auf Leinwand gedruckt wurde. Das Kunstwerk wurde bei Christie’s New York für 432.500 US-Dollar verkauft. Es stellte sich jedoch bald heraus, dass der Code zur Generierung des Gemäldes von einem anderen KI-Künstler, Robbie Barratt, geschrieben worden war, der nicht mit Obvious verbunden war. Die öffentliche Meinung war geteilter Meinung darüber, ob die drei Künstler in „Obvious“ zu Recht behaupten könnten, das Kunstwerk geschaffen zu haben.

Das GAN-generierte Gemälde Edmond de Belamy, auf Leinwand gedruckt, aber mithilfe eines generativen kontradiktorischen Netzwerks vom Pariser Kollektiv Obvious geschaffen. Das Bild ist gemeinfrei

Zukunft generativer gegnerischer Netzwerke

Generative Adversarial Networks sind eine junge Technologie, die jedoch in kurzer Zeit einen großen Einfluss auf die Welt des Deep Learning und auch auf die Beziehung der Gesellschaft zur KI hatte. Bisher werden die verschiedenen exotischen Anwendungen von GANs erst langsam erforscht.

Derzeit sind generative gegnerische Netzwerke in der Datenwissenschaft in der Industrie noch nicht weit verbreitet, sodass wir davon ausgehen können, dass sich GANs in naher Zukunft auch aus der akademischen Welt verbreiten werden. Ich gehe davon aus, dass GANs in Computerspielen, Animationen und der Modebranche weit verbreitet sein werden. Ein in Hongkong ansässiges Biotechnologieunternehmen namens Insilico Medicine beginnt mit der Erforschung von GANs für die Arzneimittelentwicklung . Unternehmen wie NVidia investieren stark in die Erforschung von GANs und auch in leistungsfähigere Hardware, sodass das Feld vielversprechend aussieht. Und natürlich können wir erwarten, dass wir nach dem Einfluss von Edmond de Belamy noch viel mehr über GANs und KI-Kunst hören werden.

Wenn Sie eines der generativen gegnerischen Netzwerke betreiben möchten, die ich im Artikel gezeigt habe, habe ich hier einige Links eingefügt. Nur die erste (handschriftliche Ziffern) läuft auf einem normalen Laptop, während Sie für die anderen ein Konto bei einem Cloud-Anbieter wie AWS oder Google Colab erstellen müssten, da diese eine leistungsfähigere Rechenleistung benötigen.

Weitere Informationen zu generativen kontradiktorischen Netzwerken

Verweise

Entdecken Sie Ihre Zukunft in NLP!

Tauchen Sie ein in die Welt der Natürlichen Sprachverarbeitung! Entdecken Sie modernste NLP-Rollen, die zu Ihren Fähigkeiten und Leidenschaften passen.

NLP-Jobs entdecken

Big-Data-Beratung – 4 häufigste Probleme gelöst
Data scienceBig data

Big-Data-Beratung – 4 häufigste Probleme gelöst

Mittlerweile sind es Organisationen aller Größenordnungen und fast aller Sektoren werden zunehmend datengesteuert, insbesondere als größere Datenspeicher Systeme und schnellere Computer treiben die Leistungsgrenzen immer weiter voran.

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution
Ai and societyData science

Zwei Revolutionen im Abstand von 200 Jahren: die Datenrevolution und die industrielle Revolution

Aufgrund des umfangreichen Einsatzes von Technologie und der Arbeitsteilung hat die Arbeit des durchschnittlichen Gig-Economy-Arbeiters jeden individuellen Charakter und damit auch jeden Charme für den Arbeitnehmer verloren.

KI im Personalwesen: Die Zukunft der Arbeit verändern
Ai and societyData science

KI im Personalwesen: Die Zukunft der Arbeit verändern

Die Auswirkungen von KI auf die Humanressourcen Die Arbeitswelt verändert sich rasant, sowohl aufgrund der Einführung traditioneller Data-Science-Praktiken in immer mehr Unternehmen als auch aufgrund der zunehmenden Beliebtheit generativer KI-Tools wie ChatGPT und Googles BARD bei nicht-technischen Arbeitnehmern.

What we can do for you

Transform Unstructured Data into Actionable Insights

Contact us