Früher war das tatsächlich pure Mustererkennung. Zwei dunkle Punkte oben, eine Linie in der Mitte, eine Linie unten, zack, Gesicht gefunden! So arbeitet übrigens auch die legendäre Viola-Jones-Methode von 2001, die jahrelang der Standard war. Erstaunlich simpel, oder? Nur leider auch erstaunlich unzuverlässig, sobald jemand den Kopf auch nur leicht dreht.
Moderne Gesichtserkennung ist da deutlich ausgefuchster. Sie nutzt Deep Learning, also künstliche neuronale Netze, die mit Millionen von Gesichtern trainiert wurden. Das Faszinierende: Diese Netze lernen selbstständig, was ein Gesicht ausmacht. Sie entwickeln ihre eigenen "Muster" und die sind weitaus komplexer als unsere naive "zwei-Punkte-plus-Linie"-Logik.
In der Praxis … nun ja, ich habe es selbst anhand eines Demos getestet. Dabei wird genau dieses Neural Network TensorFlow im Browser verwendet. Manchmal versagt die KI spektakulär. Ein frontales Porträt bei gutem Licht? Kein Problem!
Aber sobald die Bedingungen nicht optimal sind, wird es schwierig. Zum Beispiel im Gegenlicht oder wenn das Gesicht über Kopf ist. Das liegt nicht daran, dass die KI "dumm" ist — sie ist nur sehr spezialisiert. Wie ein Formel-1-Wagen: Unschlagbar auf der Rennstrecke, aber völlig überfordert auf einem Feldweg.
Und dann sind da noch die "Phantomgesichter". Ein Phänomen, das mich bei Aktshootings regelmäßig zum Grummeln bringt. Neulich erst: Die Kamera meldet voller Überzeugung eine Augenerkennung und fokussiert zielsicher auf einen Nippel.
Klar, aus Sicht der KI macht es ja Sinn: Ein dunkler Punkt mit kreisförmiger Struktur drum herum? Muss ein Auge sein! Jetzt weiß ich endlich, warum manche Männer Frauen permanent auf den Busen starren. Sie haben dort einfach ein Gesicht erkannt. KI-geschult sozusagen.
Diese "False Positives" sind wie kleine Einblicke in das "Denken" der KI. Sie zeigen, wie weit die Maschinenwahrnehmung von unserem menschlichen Kontextverständnis noch entfernt ist. Während wir Menschen sofort den Unterschied zwischen einem Auge und anderen zentralen Körperteilen erkennen, sieht die KI nur Muster und geometrische Formen.
Wir Menschen haben da einen entscheidenden Vorteil: Wir verstehen Kontext. Wenn wir ein Foto sehen, auf dem eine Person im Wald steht, wissen wir sofort "da muss ein Gesicht sein". Auch wenn wir nur die Silhouette erkennen. Die KI dagegen prüft stur ihre gelernten Muster. Kein Wunder, dass meine Kamera bei der Sonnenbrille aussteigt.