7500 Gründe, warum KIMEcrop auf Natürliche Intelligenz setzt

Eine der häufigsten Fragen, die wir zu unserem Bildbeschnitt-System KIMEcrop bekommen, lautet: „Setzen Sie Künstliche Intelligenz (KI) beim Cropping ein?”.
Der Hintergrund dieser Frage bezieht sich nicht nur ganz allgemein auf den aktuellen Hype um die Künstliche Intelligenz, sondern auch ganz konkret auf die Ankündigung von Software-Herstellern wie Adobe und Cloudinary, einen vollautomatischen Bildbeschnitt mittels KI in ihren Software-Produkten anzubieten.

Wir beschäftigen uns bei der Entwicklung von KIMEcrop intensiv mit den Möglichkeiten der KI (speziell mit Machine Learning zur automatischen Bilderkennung) und sind zu einem eindeutigen Ergebnis gekommen: egal wie fortgeschritten die Technologie und egal wie gut trainiert das System: die Nicht-Erkennungsrate ist immer signifikant und verhindert in jedem Fall einen automatisierten Workflow, der keine menschliche Ergebnis-Kontrolle mehr beinhalten soll. Denn für den automatischen Bildbeschnitt müsste die KI das Motiv auf drei Ebenen verstehen:

  1. Was ist auf dem Bild inhaltlich zu erkennen, was ist auf dem Bild wichtig?
  2. Was trägt die künstlerische Gestaltung zur Bildaussage bei?
  3. Welche Bedeutung/Intention hat das Bild (oder Teile davon) für die konkrete Verwendung?

KI vermag derzeit keine der drei Anforderungen zuverlässig zu erfüllen, aber speziell der dritte Punkt ist langfristig problematisch, weil das Wissen darüber nicht im Bild selbst enthalten ist, sondern erst im Kontext der Verwendung definiert wird.

Was Punkt 1 angeht – die inhaltliche Erkennung des Bildes – hat Dan Hendrycks mit Ko-Autoren vor Kurzem eine interessante Studie veröffentlicht, in der sie 7500 Bildmotive auflisten, die jedem Versuch der Bilderkennung durch Machine Learning widerstehen (die Erkennungsraten dieser Bilder liegen teilweise im einstelligen Prozentbereich). Schon zuvor hatte Hendrycks die Robustheit von KI-Bilderkennungsalgorithmen gegen qualitative Bildverfremdung untersucht, doch bei der aktuellen Studie beziehen sich die Forscher auf unveränderte Originalmotive, sog. Natural Adversarial Examples, sodass die Relevanz dieser Ergebnisse für den automatischen Bildbeschnitt noch einmal erheblich höher ist. Die 7500 Bilder der Studie wurden im Rahmen der Veröffentlichung zugänglich gemacht.

Die nachstehende Galerie sowie das Aufmacher-Bild zu diesem Beitrag zeigen exemplarisch einige der Bilder aus der Datengruppe „n02690373“. Die getesteten KI-Bilderkennungs-Algorithmen sind auf den Begriff „airliner“ trainert, vermögen aber in keinem der Bilder ein Flugzeug zu erkennen. Für den menschlichen Betrachter stellt die Erkennung hingegen in aller Regel kein Problem dar.

Für uns ist die Studie eine Bestätigung, dass der KIMEcrop-Ansatz mit einer einmaligen, verlässlichen, menschlich intelligenten Bildauszeichnung vor der automatisierten Bildverwendung, mittel- und langfristig den besten und wirtschaftlichsten Lösungsansatz für den Bildbeschnitt bietet.