Neue Methode verbessert die Effizienz von „Vision Transformer“-KI-Systemen
HeimHeim > Nachricht > Neue Methode verbessert die Effizienz von „Vision Transformer“-KI-Systemen

Neue Methode verbessert die Effizienz von „Vision Transformer“-KI-Systemen

Jun 18, 2023

Vision Transformers (ViTs) sind leistungsstarke Technologien der künstlichen Intelligenz (KI), die Objekte in Bildern identifizieren oder kategorisieren können – allerdings gibt es erhebliche Herausforderungen sowohl im Hinblick auf die Anforderungen an die Rechenleistung als auch auf die Transparenz der Entscheidungsfindung. Forscher haben nun eine neue Methodik entwickelt, die beide Herausforderungen angeht und gleichzeitig die Fähigkeit des ViT verbessert, Objekte in Bildern zu identifizieren, zu klassifizieren und zu segmentieren.

Transformatoren gehören zu den leistungsstärksten existierenden KI-Modellen. ChatGPT ist beispielsweise eine KI, die eine Transformer-Architektur verwendet, aber die zum Trainieren verwendeten Eingaben sind Sprache. ViTs sind transformatorbasierte KI, die mithilfe visueller Eingaben trainiert wird. Beispielsweise könnten ViTs dazu verwendet werden, Objekte in einem Bild zu erkennen und zu kategorisieren, etwa um alle Autos oder alle Fußgänger in einem Bild zu identifizieren.

ViTs stehen jedoch vor zwei Herausforderungen.

Erstens sind Transformatormodelle sehr komplex. Im Verhältnis zur Datenmenge, die in die KI eingespeist wird, benötigen Transformer-Modelle eine erhebliche Menge an Rechenleistung und verbrauchen viel Speicher. Dies ist besonders für ViTs problematisch, da Bilder so viele Daten enthalten.

Zweitens ist es für Benutzer schwierig, genau zu verstehen, wie ViTs Entscheidungen treffen. Beispielsweise könnten Sie einem ViT beigebracht haben, Hunde in einem Bild zu identifizieren. Es ist jedoch nicht ganz klar, wie das ViT bestimmt, was ein Hund ist und was nicht. Je nach Anwendung kann es sehr wichtig sein, den Entscheidungsprozess des ViT, auch Modellinterpretierbarkeit genannt, zu verstehen.

Die neue ViT-Methodik mit dem Namen „Patch-to-Cluster Attention“ (PaCa) geht beide Herausforderungen an.

„Wir begegnen der Herausforderung im Zusammenhang mit dem Rechen- und Speicherbedarf, indem wir Clustering-Techniken verwenden, die es der Transformatorarchitektur ermöglichen, Objekte in einem Bild besser zu identifizieren und zu fokussieren“, sagt Tianfu Wu, korrespondierender Autor einer Arbeit über die Arbeit und außerordentlicher Professor für Elektro- und Computertechnik an der North Carolina State University. „Clustering ist, wenn die KI Abschnitte des Bildes zusammenfasst, basierend auf Ähnlichkeiten, die sie in den Bilddaten findet. Dadurch wird der Rechenaufwand für das System erheblich reduziert. Vor dem Clustering sind die Rechenanforderungen für ein ViT quadratisch. Zum Beispiel, wenn das System ausfällt.“ Um ein Bild in 100 kleinere Einheiten zu zerlegen, müssten alle 100 Einheiten miteinander verglichen werden – das wären 10.000 komplexe Funktionen.

„Durch Clustering können wir daraus einen linearen Prozess machen, bei dem jede kleinere Einheit nur mit einer vorgegebenen Anzahl von Clustern verglichen werden muss. Nehmen wir an, Sie weisen das System an, 10 Cluster zu erstellen; das wären nur 1.000 komplexe Funktionen, " Sagt Wu.

„Clustering ermöglicht es uns auch, die Interpretierbarkeit von Modellen zu untersuchen, da wir sehen können, wie die Cluster überhaupt erstellt wurden. Welche Funktionen waren beim Zusammenfassen dieser Datenabschnitte wichtig? Und weil die KI nur eine kleine Anzahl erstellt.“ von Clustern können wir uns diese ziemlich einfach ansehen.

Die Forscher führten umfassende Tests von PaCa durch und verglichen es mit zwei hochmodernen ViTs namens SWin und PVT.

„Wir haben festgestellt, dass PaCa SWin und PVT in jeder Hinsicht übertrifft“, sagt Wu. „PaCa war besser in der Klassifizierung von Objekten in Bildern, besser in der Identifizierung von Objekten in Bildern und besser in der Segmentierung – im Wesentlichen beim Umreißen der Grenzen von Objekten in Bildern. Es war auch effizienter, was bedeutete, dass es diese Aufgaben schneller ausführen konnte als das andere ViTs.

„Der nächste Schritt für uns besteht darin, PaCa durch Training auf größeren, grundlegenden Datensätzen zu erweitern.“

Das Papier „PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers“ wird auf der IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung vorgestellt, die vom 18. bis 22. Juni in Vancouver, Kanada, stattfindet. Erstautor des Papiers ist Ryan Grainger, ein Ph.D. Student an der NC State. Der Artikel wurde von Thomas Paniagua, einem Ph.D., mitverfasst. Student an der NC State; Xi Song, ein unabhängiger Forscher; und Naresh Cuntoor und Mun Wai Lee von BlueHalo.

Die Arbeit wurde mit Unterstützung des Büros des Direktors des Nationalen Geheimdienstes unter der Vertragsnummer 2021-21040700003 durchgeführt; das US Army Research Office, im Rahmen der Zuschüsse W911NF1810295 und W911NF2210010; und der National Science Foundation im Rahmen der Zuschüsse 1909644, 1822477, 2024688 und 2013451.

-Schiffsmann-

Hinweis für Redakteure:Die Zusammenfassung der Studie folgt.

„PaCa-ViT: Erlernen der Patch-zu-Cluster-Aufmerksamkeit bei Vision Transformern“

Autoren: Ryan Grainger, Thomas Paniagua und Tianfu Wu, North Carolina State University; Xi Song, unabhängiger Forscher; Naresh Cuntoor und Mun Wai Lee, BlueHalo

Präsentiert: IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung 2023, 18.–22. Juni, Vancouver, Kanada

Abstrakt: Vision Transformers (ViTs) basieren auf der Annahme, dass sie Bildfelder als „visuelle Token“ behandeln und die Aufmerksamkeit von Patch zu Patch erlernen. Der auf Patch-Einbettung basierende Tokenizer weist eine semantische Lücke im Vergleich zu seinem Gegenstück, dem textuellen Tokenizer, auf. Die Patch-zu-Patch-Aufmerksamkeit leidet unter dem Problem der quadratischen Komplexität und macht es außerdem nicht trivial, erlernte ViTs zu erklären. Um diese Probleme in ViT anzugehen, schlägt dieses Papier vor, die Patch-to-Cluster-Aufmerksamkeit (PaCa) in ViT zu erlernen. Abfragen in unserem PaCa-ViT beginnen mit Patches, während Schlüssel und Werte direkt auf Clustering basieren (mit einer vordefinierten kleinen Anzahl von Clustern). Die Cluster werden Ende-zu-Ende erlernt, was zu besseren Tokenisierern führt und gemeinsames Clustering-for-Attention und Attention-for-Clustering für bessere und interpretierbare Modelle induziert. Die quadratische Komplexität wird zur linearen Komplexität entspannt. Das vorgeschlagene PaCa-Modul wird beim Entwurf effizienter und interpretierbarer ViT-Backbones und semantischer Segmentierungskopfnetzwerke verwendet. In Experimenten werden die vorgeschlagenen Methoden auf die ImageNet-1k-Bildklassifizierung, die MS-COCO-Objekterkennung und -Instanzsegmentierung sowie die semantische MIT-ADE20k-Segmentierung getestet. Im Vergleich zum Stand der Technik erzielt es in allen drei Benchmarks eine deutlich bessere Leistung als SWin und PVTs in ImageNet-1k und MIT-ADE20k. Aufgrund der linearen Komplexität ist es auch deutlich effizienter als PVT-Modelle in MS-COCO und MIT-ADE20k. Die gelernten Cluster sind semantisch bedeutsam. Code- und Modellprüfpunkte sind unter https://github.com/iVMCL/PaCaViT verfügbar.

Hinweis für Redakteure: „PaCa-ViT: Lernen der Patch-to-Cluster-Aufmerksamkeit in Vision Transformers“ Zusammenfassung: