Aufbau einer Gesichtserkennung: traditionelle Methoden vs. Deep Learning

Warum gibt es überall Gesichtserkennung?

Die Technologie zur Gesichtserkennung gibt es schon seit geraumer Zeit, doch bis vor kurzem war die Gesichtsanalyse für die meisten Zwecke nicht genau genug. Mittlerweile scheint es überall Gesichtserkennung zu geben:

Sie laden ein Foto auf Facebook hoch und es schlägt vor, wer auf dem Bild ist
Ihr Smartphone kann wahrscheinlich Gesichter erkennen
plötzlich sind viele Promi-Lookalike-Apps in den App Stores aufgetaucht
Polizei und Anti-Terror-Einheiten auf der ganzen Welt nutzen die neueste Gesichtserkennungstechnologie

Der Grund, warum Gesichtserkennungssoftware in letzter Zeit viel besser und schneller geworden ist, ist das Aufkommen des Deep Learning: leistungsfähigere und parallelisierte Computer sowie ein besseres Softwaredesign. Ich werde darüber sprechen, was sich geändert hat.

Traditionelle Gesichtserkennung: Eigenfaces

Die ersten ernsthaften Versuche, einen Gesichtserkenner zu bauen, fanden in den 1980er und 1990er Jahren statt und nutzten sogenannte Eigenfaces . Ein Eigenface ist ein verschwommenes, gesichtsähnliches Bild, und ein Gesichtserkenner geht davon aus, dass jedes Gesicht aus vielen dieser Bilder besteht, die Pixel für Pixel übereinander gelegt sind.

Wenn wir ein unbekanntes Gesicht erkennen möchten, müssen wir lediglich herausfinden, aus welchen Eigengesichtern es wahrscheinlich besteht. Wenig überraschend funktionierte die Eigenface-Methode nicht besonders gut. Wenn man ein Gesichtsbild ein paar Pixel nach rechts oder links verschiebt, erkennt man schnell, dass diese Methode fehlschlägt, da die Gesichtsteile nicht mehr mit dem Eigenface übereinstimmen.

Fast Data Science - London

Need a business solution?

Führend in den Bereichen NLP, ML und Data Science seit 2016 – kontaktieren Sie uns für eine NLP-Beratungssitzung.

Nächster Schritt in Sachen Komplexität: Gesichtsmerkmalpunkte

Die nächste Generation von Gesichtserkennern würde jedes Gesichtsbild aufnehmen und wichtige Punkte wie den Mundwinkel oder eine Augenbraue finden. Die Koordinaten dieser Punkte werden Gesichtsmerkmalspunkte genannt. Ein bekanntes kommerzielles Programm wandelt jedes Gesicht in 66 Merkmalspunkte um.

Gesichtsmerkmalpunkte, eine handcodierte Methode der Gesichtserkennungstechnologie. Bildquelle

Um zwei Gesichter zu vergleichen, vergleichen Sie einfach die Koordinaten (nach Anpassung, falls ein Bild leicht von der Ausrichtung abweicht).

Es überrascht nicht, dass die Methode der Gesichtsmerkmalkoordinaten besser ist als die Eigenfaces-Methode, aber immer noch suboptimal. Wir werfen viele nützliche Informationen weg: Haarfarbe, Augenfarbe, jede Gesichtsstruktur, die nicht durch einen Merkmalspunkt erfasst wird, usw.

Deep-Learning-Ansatz zur Gesichtserkennung

Insbesondere bei der letzten Methode zur Gesichtsanalyse musste ein Mensch einem Computer die Definition einer „Augenbraue“ usw. programmieren. Die aktuelle Generation der Gesichtserkennungsmodelle mit maschinellem Lernen wirft dies alles über den Haufen.

Bei diesem Ansatz kommen Convolutional Neural Networks (CNNs) zum Einsatz. Dabei wird eine Art Schablone wiederholt über das Bild geführt und es wird herausgefunden, wo Teilbereiche des Bildes bestimmten Mustern entsprechen.

Beim ersten Mal nimmst du Ecken und Kanten auf. Nachdem du dies fünfmal gemacht hast, beginnst du jedes Mal auf der Ausgabe des vorherigen Durchlaufs, Teile eines Auges oder Ohrs aufzunehmen. Nach 30 Mal hast du ein ganzes Gesicht erkannt!

Der Clou dabei ist, dass die gesuchten Muster noch nicht von jemandem definiert wurden, sondern dass sie vielmehr aus dem Training des Netzwerks mit Millionen von Gesichtsbildern stammen.

Natürlich kann dies eine Achillesferse des CNN-Ansatzes sein, da Sie möglicherweise keine Ahnung haben, warum ein Gesichtserkenner eine bestimmte Antwort gegeben hat.

Wenn Sie Ihren eigenen Gesichtserkenner für CNN entwickeln möchten, müssen Sie sich die Frage stellen, wo Sie Millionen von Bildern für die Entwicklung des Modells herbekommen können. Viele Leute suchen sich dafür Bilder von Prominenten aus dem Internet.

Sie können jedoch viel mehr Bilder erhalten, wenn Sie die Leute dazu bringen können, Ihnen ihre persönlichen Fotos kostenlos zu überlassen!

Aus diesem Grund verfügen Facebook, Microsoft und Google über einige der genauesten Gesichtserkenner, da sie Zugriff auf die erforderlichen Ressourcen haben, um die maschinellen Lernmodelle für die Gesichtserkennung zu trainieren.

Wohin geht die Gesichtserkennung jetzt?

Der CNN-Ansatz ist alles andere als perfekt und viele Unternehmen nehmen zusätzlich zu dem von mir beschriebenen Ansatz noch einige Anpassungen vor, um die Einschränkungen auszugleichen. Dazu gehören beispielsweise Korrekturen hinsichtlich Körperhaltung und Beleuchtung, häufig unter Verwendung eines 3D-Mesh-Modells des Gesichts.

Gesichtserkennungsmodelle auf der Basis maschinellen Lernens entwickeln sich rasch weiter und jedes Jahr bringt der Stand der Technik im Bereich der Gesichtserkennung und -analyse spürbare Verbesserungen.

Wenn Sie mehr über dieses Feld oder ähnliche Projekte erfahren möchten oder im Jahr 2024 Geschäftsanwendungen von Gesichtserkennungsmodellen auf der Basis maschinellen Lernens implementieren möchten, nehmen Sie bitte Kontakt mit uns auf .

Aufbau einer Gesichtserkennung: traditionelle Methoden vs. Deep Learning

Warum gibt es überall Gesichtserkennung?

Traditionelle Gesichtserkennung: Eigenfaces

Need a business solution?

Nächster Schritt in Sachen Komplexität: Gesichtsmerkmalpunkte

Deep-Learning-Ansatz zur Gesichtserkennung

Wohin geht die Gesichtserkennung jetzt?

Ihre NLP-Karriere wartet!

Generative KI

Große Daten

KI im Finanzwesen

Transform Unstructured Data into Actionable Insights