A Little Safari Through Patterns and AI 🇺🇸 🇩🇪

A Little Safari Through Patterns and AI 🇺🇸 🇩🇪

Last week I was at an outdoor photo shoot. The model wore sunglasses, which looked cool and added variety to the session. But my camera was confused: no autofocus on the eyes possible. This got me thinking: How do machines actually recognize faces?

 

Dieser Artikel auf Deutsch ›

In the past, it was pure pattern recognition. Two dark dots on top, a line in the middle, a line at the bottom — boom, face found! This is how the legendary Viola-Jones method from 2001 worked, which was the standard for years. Surprisingly simple, right? Unfortunately also surprisingly unreliable as soon as someone turns their head slightly.

Modern face recognition is much more sophisticated. It uses deep learning - artificial neural networks trained on millions of faces. The fascinating part: These networks learn independently what constitutes a face. They develop their own "patterns" that are far more complex than our naive "two-dots-plus-line" logic.

Take Google's MediaPipe Face Mesh. It doesn't just roughly detect "there's a face" but maps 468 three-dimensional points onto it. Mouth, nose, eyes, cheekbones, everything is precisely captured. At least theoretically.

No problem
Upside down … problem!

In practice … well, I tested it myself using a demo that uses this exact neural network called TensorFlow in the browser. Sometimes the AI fails spectacularly. A frontal portrait in good light? No problem!

But once conditions aren't optimal, it gets tricky. For example in backlight or when the face is upside down. This isn't because the AI is "stupid" — it's just highly specialized. Like a Formula 1 car: unbeatable on the racetrack, but completely overwhelmed on a dirt road.

No problem

And then there are the "phantom faces." A phenomenon that regularly irritates me during nude shoots. Recently, the camera confidently detected an eye and focused precisely on a nipple. From the AI's perspective, it makes sense: a dark point with a circular structure around it? Must be an eye! Now I finally know why some men constantly stare at women's chests. They've simply recognized a face there. AI-trained, so to speak.

These "false positives" offer small glimpses into the AI's "thinking." They show how far machine perception still is from our human understanding of context. While we humans immediately recognize the difference between an eye and other central body parts, the AI only sees patterns and geometric shapes.

Nipple face discovered

We humans have a decisive advantage: we understand context. When we see a photo of someone standing in the forest, we immediately know "there must be a face." Even if we only see the silhouette. The AI, on the other hand, rigidly checks its learned patterns. No wonder my camera gives up with sunglasses.

 


Eine kleine Safari durch Muster und KI

Letzte Woche war ich bei einem Shooting im Freien. Das Model trug eine Sonnenbrille und zum Auflockern der Strecke sah das ganz cool aus. Nur meine Kamera war verwirrt: Kein Autofokus auf den Augen möglich. Das brachte mich zum Nachdenken: Wie erkennen Maschinen eigentlich Gesichter?

Früher war das tatsächlich pure Muster­erkennung. Zwei dunkle Punkte oben, eine Linie in der Mitte, eine Linie unten, zack, Gesicht gefunden! So arbeitet übrigens auch die legendäre Viola-Jones-Methode von 2001, die jahrelang der Standard war. Erstaunlich simpel, oder? Nur leider auch erstaun­lich unzuverlässig, sobald jemand den Kopf auch nur leicht dreht.

Moderne Gesichtserkennung ist da deutlich aus­gefuchster. Sie nutzt Deep Learning, also künstliche neuronale Netze, die mit Millionen von Gesichtern trainiert wurden. Das Faszinierende: Diese Netze lernen selbstständig, was ein Gesicht ausmacht. Sie entwickeln ihre eigenen "Muster" und die sind weitaus komplexer als unsere naive "zwei-Punkte-plus-Linie"-Logik.

Nehmen wir das MediaPipe Face Mesh, das Google entwickelt hat. Es erkennt nicht nur grob "da ist ein Gesicht", sondern mapped unmittel­bar 468 drei­dimen­sionale Punkte darauf. Mund, Nase, Augen, Wangenknochen, alles wird präzise erfasst. Zumindest theoretisch.

Kein Problem
Verkehrt herum … Houston, wir haben ein Problem!

In der Praxis … nun ja, ich habe es selbst anhand eines Demos getestet. Dabei wird genau dieses Neural Network TensorFlow im Browser verwendet. Manchmal versagt die KI spektakulär. Ein frontales Porträt bei gutem Licht? Kein Problem!

Aber sobald die Bedingungen nicht optimal sind, wird es schwierig. Zum Beispiel im Gegenlicht oder wenn das Gesicht über Kopf ist. Das liegt nicht daran, dass die KI "dumm" ist — sie ist nur sehr spezialisiert. Wie ein Formel-1-Wagen: Unschlagbar auf der Rennstrecke, aber völlig überfordert auf einem Feldweg.

Kein Problem

Und dann sind da noch die "Phantomgesichter". Ein Phänomen, das mich bei Aktshootings regelmäßig zum Grummeln bringt. Neulich erst: Die Kamera meldet voller Über­zeugung eine Augen­erkennung und fokussiert ziel­sicher auf einen Nippel.

Klar, aus Sicht der KI macht es ja Sinn: Ein dunkler Punkt mit kreis­förmiger Struktur drum herum? Muss ein Auge sein! Jetzt weiß ich endlich, warum manche Männer Frauen permanent auf den Busen starren. Sie haben dort einfach ein Gesicht erkannt. KI-geschult sozusagen.

Diese "False Positives" sind wie kleine Ein­blicke in das "Denken" der KI. Sie zeigen, wie weit die Maschinen­wahrnehmung von unserem menschlichen Kontext­verständnis noch entfernt ist. Während wir Menschen sofort den Unter­schied zwischen einem Auge und anderen zentralen Körper­teilen erkennen, sieht die KI nur Muster und geo­metrische Formen.

Brustwarzen-Auge erkannt

Wir Menschen haben da einen entscheidenden Vorteil: Wir verstehen Kontext. Wenn wir ein Foto sehen, auf dem eine Person im Wald steht, wissen wir sofort "da muss ein Gesicht sein". Auch wenn wir nur die Silhouette erkennen. Die KI dagegen prüft stur ihre gelernten Muster. Kein Wunder, dass meine Kamera bei der Sonnenbrille aussteigt.

Navigate