AMST2: aggregiertes Multi
HeimHeim > Blog > AMST2: aggregiertes Multi

AMST2: aggregiertes Multi

Aug 26, 2023

Wissenschaftliche Berichte Band 13, Artikelnummer: 9062 (2023) Diesen Artikel zitieren

59 Zugriffe

2 Altmetrisch

Details zu den Metriken

In jüngster Zeit haben viele bestehende visuelle Tracker erhebliche Fortschritte gemacht, indem sie entweder räumliche Informationen aus mehrstufigen Faltungsschichten oder zeitliche Informationen zur Verfolgung einbeziehen. Die komplementären Vorteile räumlicher und zeitlicher Informationen können jedoch nicht genutzt werden, wenn diese beiden Arten von Informationen getrennt verwendet werden. In diesem Artikel stellen wir einen neuen Ansatz für eine robuste visuelle Verfolgung unter Verwendung eines transformatorbasierten Modells vor, das sowohl räumliche als auch zeitliche Kontextinformationen auf mehreren Ebenen berücksichtigt. Um die verfeinerten Ähnlichkeitskarten durch mehrstufige räumliche und zeitliche Encoder zu integrieren, schlagen wir einen Aggregationsencoder vor. Folglich enthält die Ausgabe des vorgeschlagenen Aggregationsencoders nützliche Funktionen, die die globalen Kontexte mehrstufiger räumlicher und zeitlicher Kontexte integrieren. Das von uns vorgeschlagene Feature bietet eine kontrastierende und dennoch komplementäre Darstellung mehrstufiger räumlicher und zeitlicher Kontexte. Diese Eigenschaft ist besonders bei komplexen Luftszenarien von Vorteil, bei denen es aufgrund von Verdeckung, Bewegungsunschärfe, kleinen Objekten und Maßstabsschwankungen zu Tracking-Fehlern kommen kann. Darüber hinaus nutzt unser Tracker ein leichtes Netzwerk-Backbone, das eine schnelle und effektive Objektverfolgung in Luftdatensätzen gewährleistet. Darüber hinaus kann die vorgeschlagene Architektur eine robustere Objektverfolgung gegenüber erheblichen Abweichungen erreichen, indem die Funktionen des neuesten Objekts aktualisiert und gleichzeitig die ursprünglichen Vorlageninformationen beibehalten werden. Umfangreiche Experimente mit sieben anspruchsvollen Kurz- und Langzeit-Tracking-Benchmarks aus der Luft haben gezeigt, dass der vorgeschlagene Tracker modernste Tracking-Methoden sowohl hinsichtlich der Echtzeit-Verarbeitungsgeschwindigkeit als auch der Leistung übertrifft.

Die visuelle Verfolgung eines Objekts von Interesse ist ein äußerst wichtiges und herausforderndes Forschungsthema im Bereich Computer Vision1. Das Hauptziel der visuellen Verfolgung besteht darin, die Position und Größe eines beliebigen Objekts in einer Folge von Videobildern abzuschätzen, indem Korrespondenzen zwischen ähnlichen Pixeln in verschiedenen Bildern hergestellt werden. In den letzten Jahren wurden angesichts der wachsenden Bedeutung und Nutzung unbemannter Luftfahrzeuge (UAVs) wie Drohnen verschiedene visuelle Verfolgungsmethoden untersucht, die Luftdaten nutzen2,3. Trotz erheblicher Fortschritte bei der visuellen Verfolgung steht die Luftverfolgung immer noch vor zahlreichen Herausforderungen, darunter Echtzeitverfolgung, Beleuchtungsschwankungen, Verdeckung, schnelle Bewegung, Hintergrundstörungen und Unschärfe.

Herkömmliche visuelle Verfolgungsparadigmen können in zwei Kategorien eingeteilt werden: (1) Verfolgung durch Erkennung und (2) siamesische netzwerkbasierte Verfolgung.

Die Tracking-by-Detection-Methode erkennt zunächst das Objekt in jedem Videobild und aktualisiert dann die Position des Objekts mithilfe eines Bewegungsmodells. Der diskriminierende Korrelationsfilter (DCF) ist eine repräsentative Tracking-by-Detection-Methode, die Fourier-Transformationen verwendet, um die Kreuzkorrelationsberechnung effizient zu berechnen und eine Echtzeitverarbeitung zu erreichen4,5,6,7,8,9,10,11. Der DCF-Tracker verwendet außerdem handgefertigte Funktionen wie das Histogramm orientierter Farbverläufe (HOG), um das Objekt und den Hintergrund darzustellen. Allerdings weist der DCF-Tracker einige Einschränkungen auf, z. B. die Unfähigkeit, Maßstabsänderungen und erhebliche Abweichungen im Erscheinungsbild zu verarbeiten.

Mithilfe der Deep-Features von Convolutional Neural Networks (CNNs) haben Deep-Learning-basierte Methoden größere Fortschritte bei der Tracking-Leistung erzielt als DCF-basierte Tracker12,13,14,15,16,17,18. Trotz der Fortschritte bei auf Deep Learning basierenden Trackern mangelt es einigen Algorithmen an Rechenressourcen, die sie für eingebettete Plattformen ungeeignet machen, während andere nicht das gewünschte Maß an Tracking-Leistung liefern können. Bis vor kurzem wurden DCF-basierte Tracker häufig in Low-End-Anwendungen eingesetzt, wobei ihre schwächere Tracking-Leistung im Vergleich zu Deep-Learning-basierten Methoden aufgrund von Gerätebeschränkungen wie bei eingebetteten Plattformen ignoriert wurde.

In letzter Zeit haben viele Tracker die siamesische Netzwerkarchitektur übernommen, um gleichzeitig Echtzeitverarbeitung und hohe Leistung zu erreichen. Siamesische netzwerkbasierte Tracker schätzen die Position eines Objekts mithilfe einer Ähnlichkeitskarte, die aus der Zielerscheinung eines Vorlagenrahmens und einer entsprechenden Merkmalsdarstellung einer Suchregion innerhalb des Suchrahmens generiert wird. Diese Tracker werden offline an einem großen Datensatz wie ImageNet19 trainiert, um die Ähnlichkeit zwischen Vorlage und Suchpatches zu messen. Obwohl die ursprüngliche Version des siamesischen Trackers SINT20 ist, heißt die beliebteste Methode SiamFC21, die zu vielen anderen Trackern beigetragen hat22,23,24,25,26,27,28,29,30,31,32,33,34 ,35. Mehrere siamesische Tracker, die leichte CNNs wie AlexNet36 verwenden, sind nicht in der Lage, sowohl robuste Funktionen als auch globalen Kontext zu extrahieren21,22,23,25,37. Viele hochmoderne Tracker haben tiefere neuronale Netze wie ResNet38 eingeführt, um das Leistungsproblem zu lösen26,27,28,29,30,31,34,39,40. Neben der Verbesserung der Backbone-Netzwerke wurden umfangreiche Forschungsarbeiten zur Verbesserung siamesischer netzwerkbasierter Frameworks durchgeführt. Dazu gehört die Kombination verschiedener Techniken wie DCF41,42, Region Proposal Network (RPN)-Modul26,37,43,44, Template-Update-Modul44,45, Aufmerksamkeitsmechanismus24,34,35,46, ankerfreier Mechanismus29,30,31 ,33 und Transformatormechanismus47,48,49,50,51.

Qualitativer Vergleich zwischen State-of-the-Arts. Diese Abbildung zeigt die Ergebnisse des vorgeschlagenen Trackers AMST\(^2\) und drei hochmoderner Tracker in einer anspruchsvollen Videosequenz (Tier2, Voltigieren von DTB70 und Fahrrad2, LKW1 von UAV123). Der AMST\(^2\)-Tracker zeigt eine überlegene Leistung gegenüber anderen Algorithmen, indem er mehrstufigen räumlichen und zeitlichen Kontext kombiniert und gleichzeitig den Vorlagenaktualisierungsmechanismus auf Feature-Ebene hinzufügt.

Obwohl Allzweck-Tracker erhebliche Fortschritte gemacht haben, erfordert die Verfolgung in Luftumgebungen wie UAVs eine schnellere Verarbeitung bei gleichzeitiger Beibehaltung eines bestimmten Leistungsniveaus. Um diesen Anforderungen gerecht zu werden, wurden Tracker vorgeschlagen, die leichte CNNs mit verschiedenen Deep-Learning-Techniken kombinieren. In diesem Zusammenhang nutzte SiamAPN ein Ankervorschlagsnetzwerk, um Anker zu verfeinern52. SiamAPN++ hat ein Aufmerksamkeitsaggregationsnetzwerk (AAN) eingeführt, um durch die Aufmerksamkeitsmechanismen von Selbst- und Cross-AANs eine robuste Luftverfolgung in komplexen Situationen zu erreichen53. Sowohl SiamAPN als auch SiamAPN++ generierten eine kleine Anzahl hochwertiger Anker, um die Effizienz und Leistung des Trackers zu steigern. HiFT54 und TCTrack55 sind Beispiele für aktuelle Lufttracker, die leichte CNNs und Transformatorarchitektur nutzen. HiFT behebt Skaleninvarianz durch den Einsatz eines hierarchischen Feature-Transformers, der den globalen Kontext aus mehreren CNN-Feature-Layern nutzt. Andererseits nutzt TCTrack ein transformatorbasiertes Framework, das zeitliche Vorkenntnisse über Suchmerkmale und Ähnlichkeitskarten einbezieht, mit modifizierten, leichtgewichtigen CNNs, die zeitliche Informationen berücksichtigen. Die getrennte Verwendung mehrstufiger räumlicher und zeitlicher Informationen kann zu einem erheblichen Problem führen, da eine hohe Leistung nur in bestimmten robusten Szenarien erreicht wird. Beispielsweise kann die Verwendung mehrstufiger räumlicher Informationen robust gegenüber niedrigen Auflösungen und Skalenschwankungen sein, während die alleinige Verwendung zeitlicher Informationen möglicherweise eine bessere Leistung bei der Bewältigung von Verformungen erbringen kann.

Die Integration sowohl räumlicher als auch zeitlicher Informationen kann die Robustheit und Effizienz in komplexen Szenarien verbessern. Um dies zu erreichen, schlagen wir eine aggregierte mehrstufige räumliche und zeitliche kontextbasierte Transformatorarchitektur (AMST\(^2\)) für eine robuste Luftverfolgung vor. Unser Design umfasst einen Aggregations-Encoder, der auf einem modifizierten Transformator-Encoder basiert, sowie mehrstufige räumliche und zeitliche Encoder, die nützliche Kontexte für eine verbesserte Ähnlichkeitskarte erfassen. Die Ausgabe des mehrstufigen räumlichen Encoders wird dann einfach mithilfe des Aggregationsencoders in die Ausgabe des zeitlichen Encoders eingespeist. Infolgedessen ist die Ausgabe des Aggregationsencoders eine robuste Einbettungsdarstellung, die die globalen Kontexte mehrstufiger räumlicher und zeitlicher Kontexte vollständig ausnutzen kann. Der Decoder konzentriert sich auf die Generierung leistungsfähigerer, verfeinerter Ähnlichkeitskarten basierend auf der Ausgabe des Aggregationsencoders. Die im Aggregations-Encoder enthaltenen mehrstufigen räumlichen Informationen befassen sich mit Informationen, die für die Verfolgung kleiner Objekte von großer Bedeutung sind, was bei der Verfolgung aus der Luft ein großes Problem darstellt, und zeitliche Informationen erfassen große Änderungen bei kleinen Objekten. Darüber hinaus übernimmt das vorgeschlagene Modell ein leichtgewichtiges Backbone-Netzwerk. Die Verwendung eines leichten Backbones hat in Kombination mit verschiedenen KI-Algorithmen einen Gesamtvorteil bei der Modellgröße gegenüber der Verwendung eines tiefen Backbones. Dadurch können diese Tracker das Problem der Verfolgung kleiner Objekte in Daten, die mit UAVs während des Betriebs in Echtzeit gewonnen wurden, erfolgreich lösen. Darüber hinaus kann bei der bestehenden Methode55 die Aktualisierung zeitlicher Informationen nur auf der Merkmalsebene der Suche zu einem häufigen Versagen des Trackers aufgrund von Inkonsistenzen zwischen der Suche und dem Vorlagenmerkmal im Laufe der Zeit führen. Daher verbessern wir die Tracking-Leistung weiter, indem wir ein Template-Update-Netzwerk einsetzen, bei dem es sich um die diskrete zeitliche Kontextaktualisierung auf Template-Ebene handelt. Wie in Abb. 1 dargestellt, erreicht der vorgeschlagene AMST\(^2\) eine genaue und robuste Leistung in komplexen Szenarien.

Die Hauptbeiträge dieser Arbeit lassen sich wie folgt zusammenfassen:

Wir schlagen einen neuen Mechanismus zur Verfolgung von Luftaufnahmen vor, der den Aggregations-Encoder einführt, der die Encoder-Einbettungsdarstellung hierarchischer Merkmale mehrstufiger räumlicher Kontexte und zeitlicher Kontexte in der Transformatorstruktur kombiniert.

Der vorgeschlagene Tracker wendet nicht nur zeitliche Informationen auf der Ebene der Suchmerkmale und der Ähnlichkeitskarte an, sondern übernimmt auch den Vorlagenaktualisierungsprozess auf der Ebene der Vorlagenmerkmale als diskrete zeitliche Kontextaktualisierung für eine robustere Verfolgung.

Wir führen umfassende Experimente mit verschiedenen UAV-Datensätzen zur Leistungsbewertung durch. Der vorgeschlagene Tracker zeigt die Erzielung modernster Ergebnisse im Vergleich zu anderen Lufttrackern mit Echtzeitverarbeitung.

Der Transformator wurde erstmals von Vaswani et al. vorgeschlagen. als Modell für die Durchführung von Sequenz-zu-Sequenz-Aufgaben, wie etwa der maschinellen Übersetzung56. Dieser Ansatz basiert auf dem Aufmerksamkeitsmechanismus, der die globalen Informationen der Eingabesequenz beim Generieren der Ausgabesequenz effizient erfassen kann, indem er sich stärker auf den wichtigsten Teil der gesamten Eingabesequenz konzentriert.

Kürzlich wurde der Transformator zusätzlich zu Feldern der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) auf Sehaufgaben angewendet, darunter Bildklassifizierung57, Objekterkennung58 und Aktionserkennung59. Dieser Ansatz erfreut sich immer größerer Beliebtheit, da er sowohl räumliche als auch zeitliche Kontextinformationen auf flexible und effiziente Weise integrieren kann und so eine bessere Tracking-Leistung in verschiedenen Szenarien ermöglicht.

Die meisten transformatorbasierten Tracker verwenden einen Prozess, bei dem der Transformator mit Funktionen versorgt wird, die aus dem Backbone-Netzwerk extrahiert werden47,48,49,50,54,55. Inspiriert von der Hauptidee des Transformators schlug TransT ein Feature-Fusion-Netzwerk vor, das aus einem Ego-Kontext-Erweiterungsmodul mit Selbstaufmerksamkeit und einem Feature-übergreifenden Erweiterungsmodul mit Kreuzaufmerksamkeit besteht47. Als nützliches Merkmal der Ausgabe des Feature-Fusion-Netzwerks wird das endgültige Tracking-Ergebnis durch Klassifizierungs- und Box-Regression-Prozesse erhalten. TrDiMP nutzt den DiMP-Modellprädiktor und generiert Modellgewichte, indem es die Ausgabemerkmale des Transformator-Encoders als Trainingsbeispiele verwendet48. Anschließend berechnet das Zielmodell die Zielpunktzahlkarte, indem es die vorhergesagten Gewichte auf die vom Transformatordecoder generierten Ausgabemerkmale anwendet. TrDiMP enthält ein probabilistisches IoUNet für die Bonding-Box-Regression und führt außerdem TrSiam ein, das das vorgeschlagene Modell in eine siamesische Pipeline umwandelt. STARK, wie in49 vorgeschlagen, ist ein Tracker, der eine End-to-End-Transformator-Architektur basierend auf DETR58 verwendet. Das Modell lernt robuste räumlich-zeitliche Darstellungen, indem es die globalen Beziehungen sowohl in räumlichen als auch in zeitlichen Informationen über den Encoder nutzt, der diskriminierende räumlich-zeitliche Merkmale extrahiert, die in den Decoder eingespeist werden. Darüber hinaus macht dieser Tracker die Notwendigkeit von Nachbearbeitungstechniken wie Cosinus-Fenster oder Bounding-Box-Glättung überflüssig und vereinfacht so die bestehende Tracking-Pipeline. ToMP sagt das Gewicht des Faltungskerns für die Objektlokalisierung mithilfe eines transformatorbasierten Modellvorhersagemoduls voraus, um die Einschränkungen der bestehenden optimierungsbasierten Ziellokalisierung zu überwinden50. Der transformatorbasierte Zielmodellprädiktor kann unnötige wiederholte Optimierungen vermeiden und mithilfe von Zielinformationen dynamisch Unterscheidungsmerkmale generieren. AiATrack hat ein Aufmerksamkeits-in-Aufmerksamkeits-Modul (AiA) eingeführt, das geeignete Korrelationen verbessert und mehrdeutige Korrelationen unterdrückt, um das Rauschen des bestehenden Aufmerksamkeitsmechanismus zu unterdrücken. Durch die Einführung einer Modellaktualisierungsmethode, die zuvor codierte zwischengespeicherte Merkmale direkt wiederverwendet, schlagen sie einen vereinfachten Tracking-Prozess vor, der kurzfristige und langfristige Referenzen effektiv nutzt und eine bemerkenswerte Leistung zeigt.

Darüber hinaus wurde aktiv und intensiv an transformatorbasierten Trackingmethoden geforscht, die ein leichtes Rückgrat für die Luftverfolgung nutzen54,55. Im Gegensatz zu den oben genannten Trackern zeigt die Forschung zu Trackern, bei denen das Backbone durch Transformatoren anstelle bestehender CNNs ersetzt wird, ebenfalls eine bemerkenswerte Leistung60,61.

Die Einbeziehung sowohl räumlicher als auch zeitlicher Informationen ist entscheidend für die Leistungssteigerung im Bereich der Objektverfolgung. Es gibt viele Tracker, die mehrstufige räumliche Merkmale verwenden, um die Beziehung zwischen der Vorlage und dem aktuellen Suchbereich entsprechend der räumlichen Dimension zu extrahieren12,26,29,30,54. Der Tracker, der Multiskalenfunktionen nutzt, hat den Vorteil, dass er die Lokalisierung von Objekten verschiedener Skalen zuverlässig verfolgen kann. Dynamische vorlagenbasierte Tracker wie Updatenet45 und SiamTOL44 wurden entwickelt, um die Tracking-Leistung durch die Nutzung zeitlicher Informationen zu verbessern. Insbesondere führte TCTrack eine Tracking-Methode ein, die den zeitlichen Kontext zweier Ebenen berücksichtigt, einschließlich der Suchmerkmalsebene und der Ähnlichkeitskartenebene55. Tracker, die zeitliche Informationen berücksichtigen, können eine robuste Leistung erzielen, indem sie Änderungen im Zustand des Objekts über Frames hinweg erfassen. Bei der getrennten Verwendung mehrstufiger räumlicher und zeitlicher Informationen besteht jedoch das Problem, dass die komplementären Vorteile der beiden Informationen nicht genutzt werden können. Um dieser Einschränkung zu begegnen, wurde eine Methode eingeführt, um die Robustheit des Trackers zu verbessern, indem räumliche und zeitliche Informationen durch gleichzeitiges Lernen mit dem Transformator integriert werden, wie im STARK-Tracker49 gezeigt.

Aufgrund der technologischen Fortschritte bei UAVs, die mit visuellen Tracking-Funktionen ausgestattet sind, wird die Luftverfolgung in Bereichen wie Luftfahrt, Landwirtschaft, Transport und Verteidigung in großem Umfang eingesetzt1,2,3. Eine große Herausforderung bei der Luftverfolgung ergibt sich aus Bildverzerrungen, die durch UAV-Flugvibrationen und komplexe Umgebungen verursacht werden. Insbesondere bei der Luftverfolgung, wenn UAVs, die in großer Höhe fliegen, ein Objekt am Boden erfassen, ist es aufgrund der geringen Größe des Objekts schwierig, umfassende Merkmale zu extrahieren. Während Deep-Learning-basierte Tracker sich bei verschiedenen UAV-Datensätzen als überlegen erwiesen haben, erschweren die begrenzten Ressourcen von Luftplattformen den Einsatz schwerer Modelle und begrenzen die Verbesserung der Tracking-Leistung. Um diesen Herausforderungen zu begegnen, wurden mehrere spezielle Tracker entwickelt, die unterschiedliche UAV-Datensätze verwenden.

AutoTrack ist ein DCF-basierter Tracker, der die Hyperparameter der Raum-Zeit-Regularisierung automatisch anpasst und so eine hohe Leistung auf CPU62 demonstriert. COMET verbessert die Tracking-Genauigkeit, indem es einen kontextbewussten IoU-gesteuerten Tracker vorschlägt, der ein Multitask-Zwei-Stream-Netzwerk für die Verfolgung kleiner Objekte und eine Offline-Strategie zur Erstellung von Referenzvorschlägen nutzt63. Darüber hinaus hat die Einführung eines Ankervorschlagsnetzwerks zur Generierung hochwertiger Anker für leichte siamesische netzwerkbasierte Tracker eine hervorragende Leistung bei der Luftverfolgung gezeigt52,53. Darüber hinaus hat der Einsatz eines Transformators für das leichtgewichtige siamesische Netzwerk-Backbone zu bemerkenswerten Fortschritten durch die Verbesserung der Korrelationskarte geführt54,55.

Die Entwicklung miniaturisierter eingebetteter KI-Rechnerplattformen bietet eine vielversprechende Alternative zu dedizierten Server-GPUs und ermöglicht kontinuierliche Forschung und praktischen Einsatz bei zukünftigen Luftverfolgungsbemühungen.

In diesem Abschnitt stellen wir den AMST\(^2\)-Tracker für die Luftverfolgung vor, der einen aggregierten mehrstufigen räumlichen und zeitlichen kontextbasierten Transformator verwendet. Der vorgeschlagene Tracker besteht aus vier Untermodulen: (1) dem siamesischen Merkmalsextraktionsnetzwerk, (2) dem Vorlagenaktualisierungsnetzwerk, (3) dem Transformatormodul (das den mehrstufigen räumlichen Encoder, den zeitlichen Encoder, den Aggregationsencoder und den Multikontext umfasst). Decoder) und (4) Klassifizierungs- und Regressionsnetzwerk. Um einen klaren Vergleich mit vorhandenen Tracking-Algorithmen zu ermöglichen, führen wir Basisalgorithmen ein, die den mehrstufigen räumlichen Encoder, den zeitlichen Encoder und das Vorlagenaktualisierungsnetzwerk nutzen. Anschließend schlagen wir eine Erweiterung dieser Basisalgorithmen vor, indem wir einen Aggregations-Encoder übernehmen, der die von den mehrstufigen räumlichen und zeitlichen Encodern gelernten Darstellungen zusammen mit einem modifizierten Decoder für die Verfolgung kombiniert. Eine visuelle Darstellung unserer Methode ist in Abb. 2 zu sehen. Weitere Einzelheiten zum Ansatz finden Sie weiter unten.

Der gesamte Tracking-Prozess des vorgeschlagenen Trackers. Der AMST\(^2\)-Tracker besteht aus vier Hauptkomponenten: einem siamesischen Merkmalsextraktor, einem Vorlagenaktualisierungsnetzwerk, einem Transformator sowie einem Klassifizierungs- und Regressionsnetzwerk. Das Transformatormodul besteht aus mehrstufigen räumlichen, zeitlichen und Aggregations-Encodern sowie einem Multi-Kontext-Decoder. Der mehrstufige räumliche Encoder verwendet die aus den Merkmalen der 3. und 4. Ebene generierte Ähnlichkeitskarte als Eingabe, während der zeitliche Encoder die aus den Merkmalen der 5. Ebene generierte Ähnlichkeitskarte und die Ausgabe des vorherigen zeitlichen Encoders verwendet (angezeigt durch die blaue gepunktete Linie). ) als Eingabe. Der Aggregations-Encoder empfängt die Ausgaben von mehrstufigen räumlichen und zeitlichen Encodern als Eingaben. Der Multikontext-Decoder verwendet die Ausgaben aller Encoder und die mit Merkmalen der 5. Ebene generierte Ähnlichkeitskarte als Eingaben. Darüber hinaus umfasst der Vorlagenaktualisierungsprozess einen Aktualisierungspatch, frühere Vorlagenfunktionen und anfängliche Vorlagenfunktionen. Dieser Vorgang wird entweder während jedes einzelnen Frames oder unter bestimmten Bedingungen ausgeführt, um die Vorlage zu aktualisieren.

Als Rückgrat für die Merkmalsextraktion wurden tiefe CNNs wie GoogLeNet64, MobileNet65 und ResNet38 in verschiedenen Trackern häufig verwendet. Allerdings schränken die hohen Rechenanforderungen ihren Einsatz in eingebetteten Plattformen wie UAVs ein.

Um dieses Problem zu lösen, haben wir einen leichten Feature-Extraktor wie AlexNet mit zusätzlichen Faltungsschichten in eine zeitlich adaptive Online-Faltung (TAdaConv)66 umgewandelt, inspiriert von55. TAdaConv berücksichtigt den zeitlichen Kontext auf der Ebene der Suchmerkmale. Eine typische Faltungsschicht teilt lernbare Gewichte und Bias in der gesamten Tracking-Sequenz. Andererseits werden die Parameter der Online-Faltungsschicht durch Kalibrierungsfaktoren berechnet, die für jeden Frame variiert werden, sowie durch lernbare Gewichte und Bias. Dadurch ist es möglich, Merkmale zu extrahieren, die zeitliche Informationen auf Merkmalsebene enthalten, indem das durch den vorherigen Frame dynamisch kalibrierte Faltungsgewicht verwendet wird. Da TAdaConv mithilfe globaler Deskriptoren des Features in den vorherigen Frames kalibriert wird, verbessert sich die Tracking-Leistung mit dem temporal adaptiven Faltungsnetzwerk (TAdaCNN) trotz eines geringfügigen Rückgangs der Framerate erheblich. Weitere Informationen zum Umwandeln einer Standard-Faltungsschicht in TAdaConv finden Sie unter55,66.

Durch die Nutzung der Funktionen von Faltungsschichten auf niedriger und hoher Ebene wird die Tracking-Genauigkeit verbessert. Unter Verwendung von TAdaCNN \(\phi\) als Rückgrat werden daher mehrstufige räumliche Informationen durch Berechnen der Ähnlichkeitskarte unter Verwendung der hierarchischen Merkmale der Mehrschicht von TAdaCNN im t-ten Rahmen erhalten.

wobei \(\textrm{Z}\) und \(\textrm{X}\) jeweils eine Vorlage und ein Suchbild darstellen. \(\circledast\) bezeichnet die tiefenweise Kreuzkorrelation und \(\phi _{\textrm{t}}^{i}\left( \cdot \right)\) repräsentiert die i-te Faltungsschicht von TAdaCNN im T-ter Rahmen. Um mehrschichtige Tiefenmerkmale auszunutzen, extrahieren wir Merkmale, nachdem wir die letzten drei Faltungsschichten des Backbones in TAdaConv transformiert haben. Schließlich ist die Ähnlichkeitskarte \({\textbf{R}}_{t}^{3}\in {\mathbb {R}}^{H\times W\times C}\), \({\textbf{ R}}_{t}^{4}\in {\mathbb {R}}^{H\times W\times C}\) und \({\textbf{R}}_{t}^{5 }\in {\mathbb {R}}^{H\times W\times C}\) kann durch Verwendung mehrschichtiger Tiefenmerkmale erhalten werden.

Die anhand der hierarchischen Merkmale der mehrstufigen Backbone-Schicht berechneten Ähnlichkeitskarten werden vorverarbeitet, bevor sie in mehrstufige räumliche und zeitliche Encoder eingespeist werden. Die Architektur des vorgeschlagenen Transformator-Encoders ist in Abb. 3 dargestellt. Zunächst werden die Ähnlichkeitskarten \({\textbf{R}}_{t}^{3}\), \({\textbf{R}}_{ t}^{4}\) und \({\textbf{R}}_{t}^{5}\), die aus dem t-ten Rahmen erhalten wurden, werden durch die Faltungsschicht geleitet. Anschließend werden die verfeinerten Ähnlichkeitskarten \({{\varvec{T}}}_{t}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}} }_{t}^{3}\in {\mathbb {R}}^{HW\times C}\), \({{\varvec{S}}}_{t}^{4}\in { \mathbb {R}}^{HW\times C}\) und \({{\varvec{S}}}_{t}^{5}\in {\mathbb {R}}^{HW\times C}\) kann durch Umformen erhalten werden ( \({{\varvec{T}}}_{t}\) kann durch Kopieren von \({{\varvec{S}}}_{t}^{ erhalten werden 5}\), so dass \({{\varvec{T}}}_{t}\) = \({{\varvec{S}}}_{t}^{5}\)).

Der Aufmerksamkeitsmechanismus ist eine entscheidende Komponente in einem Standardtransformator. Dabei werden die Abfrage, der Schlüssel und der Wert verwendet, die als \({\textbf{Q}},{\textbf{K}},\) bzw. \({\textbf{V}}\) dargestellt werden. Die Aufmerksamkeitsfunktion in einem Standardtransformator wird typischerweise als Skala-Skalarprodukt-Aufmerksamkeit definiert, die wie folgt ausgedrückt werden kann:

Dabei ist \(1/\sqrt{d_{k}}\) ein Skalierungsfaktor, um die Softmax-Verteilung zu steuern und das Problem des Verschwindens des Gradienten zu vermeiden. Durch die Erweiterung des Aufmerksamkeitsmoduls auf mehrere Köpfe kann das Modell Darstellungen in mehreren Unterräumen wie folgt extrahieren:

wobei \({\textbf{W}}_{j}^{{\textbf{Q}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf { W}}_{j}^{{\textbf{K}}}\in {\mathbb{R}}^{C\times C/N}\), \({\textbf{W}}_{ j }^{{\textbf{V}}}\in {\mathbb{R}}^{C\times C/N}\) und \({\textbf{W}}^{{\textbf{O } }}\in {\mathbb {R}}^{C\times C}\) sind lernbare Gewichtsmatrizen, \(\textrm{Concat}(\cdot)\) stellt die Verkettung dar und \(N\) ist die Zahl der Aufmerksamkeit Kopf.

Architektur des vorgeschlagenen Transformator-Encoders. Der vorgeschlagene Encoder besteht aus drei Komponenten: einem mehrstufigen räumlichen Encoder, einem zeitlichen Encoder und einem Aggregationsencoder.

Cao et al. nutzte eine Kombination mehrstufiger räumlicher Informationen, um die gegenseitigen Abhängigkeiten zwischen hierarchischen Merkmalen vollständig zu untersuchen54. Insbesondere mit lernbarer Positionskodierung \({{\varvec{S}}}_{t}^{3}\) und \({{\varvec{S}}}_{t}^{4}\) werden durch Addition und Normalisierung kombiniert, um \({\textbf{M}}_{t}^{1}\) zu erhalten, d. h. \({\textbf{M}}_{t}^{1}=\ textrm{Norm}\left( {{\varvec{S}}}_{t}^{3}+{{\varvec{S}}}_{t}^{4}\right)\), also dann in eine Aufmerksamkeitsschicht mit mehreren Köpfen eingespeist, um \({\textbf{M}}_{t}^{2}\) unter Verwendung der Gleichung in (3) zu erhalten.

Wie in (4) gezeigt, betrachtet man unter Berücksichtigung des globalen Kontexts von \({{\varvec{S}}}_{t}^{3}\) und \({{\varvec{S}}}_{t} ^{4}\) und das Erlernen der gegenseitigen Abhängigkeiten der beiden Feature-Maps wird \({\textbf{M}}_{t}^{2}\) zu einer hochauflösenden Feature-Map erweitert. Danach kann \({\textbf{M}}_{t}^{3}\) durch Additionsoperation und Normalisierungsschicht erhalten werden, dh \({\textbf{M}}_{t}^{3} =\textrm{Norm}\left( \mathbf {{M}}_{t}^{2}+{{\varvec{S}}}_{t}^{3}\right)\). Um die gegenseitigen Abhängigkeiten zwischen \({\textbf{M}}_{t}^{3}\) und \({{\varvec{S}}}_{t}^{4}\) vollständig zu untersuchen, Wir übernehmen eine Modulationsschicht. Die Modulationsschicht kann die internen räumlichen Informationen zwischen \({\textbf{M}}_{t}^{3}\) und \({{\varvec{S}}}_{t}^{4 effizient nutzen }\), die Ausgabe \({\textbf{M}}_{t}^{4}\) der Modulationsschicht kann ausgedrückt werden als:

wobei \(\textrm{FFN}\left( \cdot \right)\) ein Feed-Forward-Netzwerk (FFN) bezeichnet, \(\textrm{GAP}\left( \cdot \right)\) ein globales Durchschnittspooling bezeichnet (GAP) und \(\gamma\) und \({\mathcal {F}}\left( \cdot \right)\) repräsentieren das Lerngewicht bzw. die Faltungsschicht. Die endgültige Ausgabe \({\textbf{M}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) des mehrstufigen räumlichen Encoders kann ausgedrückt werden als:

Die komprimierten Einbettungsfunktionen des mehrstufigen räumlichen Encoders unterscheiden nicht nur effektiv Objekte aus dem Skalenvariationsszenario, sondern sind auch robust gegenüber der Erkennung kleiner Objekte. Der mehrstufige räumliche Encoder ist in Abb. 3a dargestellt.

Abgesehen von der Verwendung zeitlicher Informationen auf Merkmalsebene haben Cao et al. verfeinerte die Ähnlichkeitskarte unter Verwendung von zeitlichem Vorwissen, indem sowohl das Vorwissen als auch die aktuellen Informationen auf der Ähnlichkeitsebene integriert wurden55. Die temporale kontextbasierte Encoderstruktur besteht aus drei Multi-Head-Aufmerksamkeitsschichten und einem temporalen Informationsfilter. Der zeitliche Encoder ist in Abb. 3b dargestellt. Angesichts des bisherigen Vorwissens \({{\varvec{T}}}_{t-1}^{m}\) und der aktuellen Ähnlichkeitskarte \({{\varvec{T}}}_{t}\) Als Eingaben des Encoders kann \({{\varvec{T}}}_{t}^{1}\) unter Verwendung der ersten Multi-Head-Aufmerksamkeitsschicht erhalten werden.

Dann wird \({{\varvec{T}}}_{t}^{2}\) durch Normalisierung nach Addition von \({{\varvec{T}}}_{t}\) und \({ {\varvec{T}}}_{t}^{1}\), also, \({{\varvec{T}}}_{t}^{2}=\textrm{Norm}\left( { {\varvec{T}}}_{t}+{{\varvec{T}}}_{t}^{1}\right)\). Auf die gleiche Weise wie in (7) wird \({{\varvec{T}}}_{t}^{3}\) mit \({{\varvec{T}}}_{t}^ erhalten {2}\) als Eingabe der zweiten Multi-Head-Aufmerksamkeitsschicht.

Danach kann \({{\varvec{T}}}_{t}^{4}\) durch Additionsoperation und Normalisierungsschicht erhalten werden, dh \({{\varvec{T}}}_{t }^{4}=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{2}+{{\varvec{T}}}_{t}^{3}\ Rechts)\). Während der Verfolgung kommt es aufgrund verschiedener Geräusche zu einem verschlechterten zeitlichen Kontext. Daher kann der unnötige Kontext einbezogen werden, was die Leistung des Trackers beeinträchtigt, wenn zeitliche Informationen des gesamten Frames ausgenutzt werden. Um dieses Problem zu lösen, kann der zeitliche Informationsfilter erhalten werden, indem der globale Deskriptor von \({{\varvec{T}}}_{t}^{2}\), der das Ergebnis von GAP ist, in das FFN eingespeist wird. Der zeitliche Informationsfilter und die gefilterten Informationen \({{\varvec{T}}}_{t}^{f}\) können ausgedrückt werden als:

wobei f der zeitliche Informationsfilter ist. Das zeitliche Wissen des t-ten Rahmens \({{\varvec{T}}}_{t}^{m}\in {\mathbb {R}}^{HW\times C}\) als endgültige Ausgabe des zeitlichen Encoders kann ausgedrückt werden als:

wobei \(\textrm{Norm}\left( \cdot \right)\) die Normalisierungsschicht bezeichnet. Insbesondere weist das erste Bild das Problem auf, dass es kein Unterscheidungsmerkmal zum vorherigen Bild gibt. Daher wird durch die Faltungsoperation die anfängliche Ähnlichkeitskarte auf \({{\varvec{T}}}_{0}^{m}={\mathcal {F}}_{init}\left( {{\ varvec{T}}}_{1}\right)\), wobei \({\mathcal {F}}_{init}\left( \cdot \right)\) die anfängliche Faltungsschicht darstellt.

Um die Tracking-Leistung durch die Nutzung integrierter mehrstufiger räumlicher und zeitlicher Informationen zu verbessern, schlagen wir einen Aggregations-Encoder vor, der die Ausgaben der mehrstufigen räumlichen und zeitlichen Encoder aggregiert. Der Aggregations-Encoder modifiziert die Multi-Head-Aufmerksamkeitsschicht des Standard-Encoders, sodass die Ausgabe des mehrstufigen räumlichen Encoders in die Ausgabe des zeitlichen Encoders eingefügt werden kann. Das Aufmerksamkeitsgewicht für den Aggregationsencoder kann wie folgt ausgedrückt werden, wenn die Ausgaben \({\textbf{M}}_{t}^{m}\) und \({{\varvec{T}}}_{t gegeben sind }^{m}\) jedes Encoders:

wobei \({\textbf{W}}_{j}^{{\textbf{M}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf {W}}_{j}^{{{\varvec{T}}}}\in {\mathbb {R}}^{C\times C/N}\), \({\textbf{W}} _{j}^{\alpha }\in {\mathbb {R}}^{2C\times C/N}\) sind lernbare Gewichte der linearen Schicht und j ist der Index des Kopfes. Gemäß (11) können die Ausgabe des \(j\text{-th}\)-Kopfes und die Ausgabe H der modifizierten Mehrkopf-Aufmerksamkeitsschicht wie folgt ausgedrückt werden:

wobei \({\textbf{W}}^{O}\in {\mathbb {R}}^{C\times C}\) lernbare Gewichtsmatrizen sind und \(N\) die Anzahl der Aufmerksamkeitsköpfe ist. Anschließend kann \({\textbf{A}}_{t}^{1}\) mithilfe der Additionsoperation und der Normalisierungsschicht erhalten werden, d. h. \({\textbf{A}}_{t}^{1 }=\textrm{Norm}\left( {{\varvec{T}}}_{t}^{m}+H\right)\). Schließlich kann die Ausgabe \({\textbf{A}}_{t}^{m}\) des Aggregationsencoders erhalten werden durch:

Die Ausgabe des Aggregations-Encoders integriert mehrstufige räumliche und zeitliche Informationen, um leistungsfähigere, funktionskomplexe Szenarien zu generieren. Die detaillierte Struktur des Aggregationsencoders ist in Abb. 3c dargestellt.

Wir schlagen einen Multikontext-Decoder vor, um sowohl hochauflösende als auch niedrig aufgelöste Informationen zu nutzen und die Wechselbeziehung zwischen aktuellen räumlichen Merkmalen und zeitlichem Wissen weiter auszunutzen. Der vorgeschlagene Multikontext-Decoder führt eine Struktur ein, die die verfeinerten Multikontext-Merkmale mithilfe der Ausgaben der mehrstufigen räumlichen und zeitlichen Encoder integriert. Daher verwenden wir drei Multi-Head-Aufmerksamkeiten, die sich von der Decoderstruktur des Standardtransformators unterscheiden. Außerdem wurde nach der ersten Multi-Head-Aufmerksamkeit die Ausgabe des Aggregations-Encoders für den Schlüssel und die Ausgabe der mehrstufigen räumlichen und zeitlichen Encoder jeweils für den Wert verwendet. Daher verwaltet das vorgeschlagene Verfahren nicht nur die Merkmalsinformationen jedes der mehrstufigen räumlichen und zeitlichen Encoder, sondern erhält auch das Merkmal mit erhöhter Aufmerksamkeit an einem entsprechenden Standort, der die Multikontextinformationen basierend auf den gültigen Informationen des Standorts enthält Enthält die aggregierten Multikontextinformationen des Aggregations-Encoders. Die Positionscodierung des mehrstufigen räumlichen Encoders wird verwendet, um jeden Standort auf der Feature-Map zu unterscheiden. Um jedoch einen direkten Einfluss auf die multikontextbasierten transformierten Merkmale zu vermeiden, ist der Decoder ohne Positionscodierung konzipiert und empfängt implizit die Positionsinformationen des mehrstufigen räumlichen Encoders54. Der Multikontext-Decoder ist in Abb. 4 dargestellt.

Architektur des vorgeschlagenen Transformatordecoders. Der vorgeschlagene Decoder zielt darauf ab, die Ähnlichkeitskarte mithilfe mehrerer kontextbasierter Informationen zu verfeinern und besteht aus drei Multi-Head-Aufmerksamkeitsmodulen.

Die aktuelle Ähnlichkeitskarte mit niedriger Auflösung \({{\varvec{S}}}_{t}^{5}\) und \({{\varvec{T}}}_{t}\) weisen die gleiche Ähnlichkeit auf Karte und werden als \({\textbf{D}}_{t}\) bezeichnet, das normalisierte Ergebnis nach der Addition zu \({\textbf{D}}_{t}\), das durch die Aufmerksamkeit mit mehreren Köpfen geleitet wird, ist als folgt:

Die Ausgaben der Berechnung der beiden Multi-Head-Aufmerksamkeiten unter Verwendung sowohl von \({\textbf{D}}_{t}^{1}\) als auch der Ausgaben der Encoder werden dann nach der Addition zu \({\textbf{D) normalisiert }}_{t}^{1}\) wird ausgedrückt als:

wobei \({\textbf{D}}_{t}^{2}\) das Ergebnis ist, wenn der Schlüssel und der Wert auf \({\textbf{A}}_{t}^{m}\) gesetzt werden und \({\textbf{M}}_{t}^{m}\) bzw. \({\textbf{D}}_{t}^{3}\) ist das Ergebnis des Setzens des Schlüssels und Wert zu \({\textbf{A}}_{t}^{m}\) bzw. \({{\varvec{T}}}_{t}^{m}\). Das Endergebnis \({\textbf{D}}_{t}^{*}\) des Transformators, der Multikontextinformationen enthält, kann durch Verwendung von \({\textbf{D}}_{t}^{ erhalten werden. 2}\) und \({\textbf{D}}_{t}^{3}\) erhalten aus (15).

Trotz der Verwendung zeitlicher Kontextinformationen durch TAdaCNN kann die Aktualisierung zeitlicher Informationen nur auf der Merkmalsebene der Suche zu einem hohen Ausfall des Trackers aufgrund von Inkonsistenzen zwischen der Suche und dem Vorlagenmerkmal im Laufe der Zeit führen. Darüber hinaus können beim Aktualisieren einer Vorlage über ein Backbone-Netzwerk die Informationen der ursprünglichen Vorlage, bei der es sich um eine nicht kontaminierte Probe handelt, verloren gehen und die Kriterien der visuellen Verfolgung zur Verfolgung beliebiger Objekte mithilfe einer anfänglichen Vorlage verletzen. Wir übernehmen das Template-Update-Netzwerk als Feature-Fusion-Netzwerk44, um die Features der ursprünglichen Vorlage und des Update-Beispiels zu kombinieren, wie in Abb. 2 zu sehen ist.

Angesichts der Vorlage und des Aktualisierungsbeispiels im k-ten Frame wird die aktualisierte Vorlage \(\hat{\textrm{Z}}_{k}\) unter Verwendung des Vorlagenaktualisierungsnetzwerks wie folgt berechnet:

wobei \(\textrm{Z}_{1}\) und \(\textrm{U}_{k}\) die ursprüngliche Vorlage bzw. das k-te Frame-aktualisierte Bild bezeichnen. \(\tilde{\textrm{Z}}_{k}^{i}\) und \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right)\ ) repräsentieren jeweils die vorherige aktualisierte Vorlage und das anfängliche Vorlagenmerkmal des ersten Frames. \(\psi _{k}^{i}\left( \cdot \right)\) repräsentiert das Vorlagenaktualisierungsnetzwerk. \(\tilde{\textrm{Z}}_{k}^{i}\) wird auf \(\phi _{1}^{i}\left( \textrm{Z}_{1}\right initialisiert )\) im ersten Aktualisierungsvorgang. Das Template-Update-Netzwerk besteht aus drei 1\(\times\)1-Faltungsschichten mit unterschiedlichen Kanälen von C, C/2 und C. Auf jede der ersten beiden Faltungsschichten folgt eine ReLU. Wir aktualisieren die Vorlage alle \(\delta\) Frames oder wenn der Konfidenzwert niedriger als der Schwellenwert \(\tau\) ist. Das Vorlagenaktualisierungsnetzwerk kann leistungsstarke Darstellungen von Änderungen im Erscheinungsbild von Objekten erlernen und Trackingfehler aufgrund extremer Abweichungen im Laufe der Zeit verhindern.

Die vorgeschlagene Verlustfunktion besteht aus zwei Zweigen für Klassifizierungs- und Regressionsaufgaben, ähnlich dem HiFT-Tracker54. Der erste Klassifizierungszweig berechnet die Vordergrund- und Hintergrundwerte eines bestimmten Standorts, während der zweite Zweig den Abstandskontrast zwischen dem Standort und dem Zentrum der Grundwahrheit misst, um Kästchen mit geringer Qualität zu entfernen. Für die Regression wird eine lineare Kombination der L1-Norm und des Complete-IoU (CIoU)67 verwendet. Der Regressionsverlust kann wie folgt formuliert werden:

wobei \({\textbf{b}}_{j}\) die j-te vorhergesagte Begrenzungsbox und \({\textbf{b}}^{gt}\) die entsprechende Ground-Truth-Box ist, cj und cgt stellt jeweils die Mitte der vorhergesagten und der Grundwahrheitsbox dar, \(\rho \left( \cdot \right)\) stellt den euklidischen Abstand dar und d ist die diagonale Länge der Box, die die vorhergesagte Begrenzungsbox und die Grundwahrheitsbox abdeckt. Wahrheitsbox, und \(\upsilon\) stellt die Entsprechung zwischen den Seitenverhältnissen der vorhergesagten Begrenzungsbox und der Grundwahrheitsbox dar, und \(\alpha\) ist ein positiver Kompromissparameter, der das Gleichgewicht zwischen nicht steuert -überlappende Fälle und überlappende Fälle, und \(\lambda _{I}=1\), \(\lambda _{C}=0,5\) und \(\lambda _{L1}=0,5\) sind die Regularisierung Parameter in unseren Experimenten. Die Gesamtverlustfunktion kann ausgedrückt werden als:

wobei \(\lambda _{1}=1\), \(\lambda _{2}=1\) und \(\lambda _{3}=1,2\) die Regularisierungsparameter in unseren Experimenten sind.

Der Feature-Extraktor des vorgeschlagenen Modells umfasst ein siamesisches Netzwerk und ein Template-Update-Netzwerk zur Online-Steuerung von Features. Das Training des Netzwerks mit nur einem Totalverlust kann jedoch zu einer Überanpassung und einem Dilemma beim Funktionsausgleich zwischen dem Siamese-Netzwerk und dem Template-Update-Netzwerk führen. Um dieses Problem anzugehen, wenden wir eine Multi-Aspekt-Verlusttrainingsmethode44 an. Der Multiaspekt-Trainingsverlust umfasst drei Aspekte. Erstens basiert der Verlust von \(L_{template}\) auf dem Vorlagenbeispiel und der Suchregion, damit das Netzwerk mithilfe der Vorlage wie ein vorhandener siamesischer Tracker verfolgen kann. Zweitens wird der Verlust von \(L_{update}\) mithilfe des Aktualisierungsbeispiels und des Suchbereichs erhalten, der auch als Vorlagenbeispiel betrachtet werden kann, was zu einem ergänzenden Beispieldatenerweiterungseffekt führt. Drittens wird der \(L_{overall}\)-Verlust durch die Verwendung der aktualisierten Vorlage, die die Ausgabe des Vorlagenaktualisierungsnetzwerks ist, und des Suchbereichs erhalten, um zu lernen, den Standort eines Objekts mithilfe der aktualisierten Vorlageninformationen zu verfolgen. Schließlich wird der \(L_{final}\)-Verlust ausgedrückt als:

wobei \(L_{template}\), \(L_{update}\) und \(L_{overall}\) als \(L_{total}\) von (19) Verlust konstruiert werden, der unter Verwendung der Vorlage Beispiel, Aktualisierung erhalten wurde Beispiel bzw. aktualisierte Vorlagenfunktion.

In diesem Abschnitt haben wir umfassende Experimente mit dem vorgeschlagenen Tracker AMST\(^2\) an verschiedenen UAV-Datensätzen durchgeführt, darunter DTB7068, UAV12369, UAV123@10fps69, UAV20L69, UAVTrack112\(\_\)L70, VisDrone-SOT202071 und UAVDT72. Um die Leistung der visuellen Tracking-Methode von SOTA zu bewerten, haben wir den vorgeschlagenen Tracker quantitativ mit 51 vorhandenen Top-Trackern verglichen. Zu den vorhandenen Methoden gehören leichte Tracker5,6,7,8,9,10,11,12,16,21,22,23,26,32,37,52,53,54,55,62,73,74 ,75,76 Tracker und die Deep Tracker26,27,28,29,30,31,33,39,40,46,47,48,49,50,51,77,78. Für einen fairen Vergleich haben wir siamesische netzwerkbasierte Tracker für das gesamte Lightweight-Backbone wie AlexNet verwendet. In allen Experimenten verwendeten wir öffentlich verfügbare Codes oder Ergebnisse des ursprünglichen Autors.

In der Trainingsphase wurde AMST\(^2\) auf den Datensätzen ImageNet VID19, COCO79, GOT-10K80 und LaSOT81 trainiert. Wir haben drei Beispiele für das Training genutzt. Wir haben die gleiche Patch-Größe 127 \(\times\) 127 sowohl für die Vorlage als auch für das Update verwendet und den Such-Patch der Größe 287 \(\times\) 287 verwendet. Unser Rückgrat ist ein AlexNet, dessen letzte drei Schichten von TAdaConv und konvertiert wurden initialisiert mit vorab trainierten Gewichten von ImageNet. Für ein effizientes Lernen des zeitlichen Kontexts von TAdaConv verwendeten wir jeweils einen Suchpatch in einer Hälfte und zwei Suchpatches in einem Drittel für die gesamte Epoche und drei Suchpatches für die verbleibenden Epochen. Die Transformatorarchitektur besteht aus einer mehrstufigen räumlichen Encoderschicht, einer zeitlichen Encoderschicht, einer Aggregationsencoderschicht und zwei Multikontext-Decoderschichten. Unsere gesamten Netzwerke werden mit stochastischem Gradientenabstieg (SGD) mit Impuls- und Gewichtsabfall von 0,9 bzw. 0,0001 trainiert. Die Batch-Größe betrug 180 und das Netzwerk wurde für 100 Epochen trainiert. In den ersten 20 Epochen werden die Backbone-Schichten eingefroren und in den verbleibenden Epochen werden die letzten drei Schichten feinabgestimmt. Wir haben in den ersten 10 Epochen eine Aufwärm-Lernrate von 0,005 bis 0,01 und in den verbleibenden Epochen eine abnehmende Lernrate von 0,01 bis 0,00005 im Protokollraum verwendet. Der Trainingsprozess wurde mit zwei NVIDIA RTX 3090 GPUs durchgeführt.

Um in der Inferenzphase das anfängliche zeitliche Vorwissen zu erhalten, haben wir die Korrelation zwischen der Vorlage und den Suchfeldern nur anhand des Anfangsrahmens berechnet. Anschließend war eine reibungslose Objektverfolgung möglich, indem das Merkmal des Suchbereichs, das auf der Grundlage der Objektposition des vorherigen Frames beschnitten wurde, kontinuierlich mit dem im ursprünglichen Frame erhaltenen Vorlagenmerkmal oder dem aktualisierten Vorlagenmerkmal über das Vorlagenaktualisierungsnetzwerk abgeglichen wurde. Der Schwellenwert \(\tau\) des Vorlagenaktualisierungsprozesses wurde auf 0,8 festgelegt. Darüber hinaus wurde \(\delta\) für kurzfristige Luftverfolgungsdatensätze wie DTB70 auf 50 und für langfristige Luftdatensätze wie UAV123 auf 150 festgelegt. Um die Bewegung des Objekts zu glätten, werden das Kosinusfenster und die Skalenänderungsstrafe auf die vorhergesagte Box angewendet, um die Grenzausreißer zu eliminieren und die großen Änderungen in Größe und Verhältnis zu minimieren5,37. Anschließend wird durch Auswahl des Vorhersagerahmens mit der besten Punktzahl die Größe des Begrenzungsrahmens durch lineare Interpolation aktualisiert. Abb. 2 zeigt einen gesamten Tracking-Prozess, bei dem unser Tracker auf einer einzelnen NVIDIA RTX 3090-GPU für Echtzeit-Tracking arbeitet.

Wir haben One Pass Evaluation (OPE)69,82 zur Bewertung der vorgeschlagenen Methode eingesetzt. OPE basiert auf zwei Metriken: (1) Präzision und (2) Erfolgsquote.

Die Präzision nutzt den Center Location Error (CLE) zwischen der vorhergesagten Begrenzungsbox und der Ground-Truth-Box.

wobei \(c_{t}\) und \(c_{t}^{gt}\) jeweils die Mitte des t-ten vorhergesagten und des Grundwahrheits-Begrenzungsrahmens darstellen und \(\left\| \cdot \right \|\) sind die euklidischen Abstände. Das Präzisionsdiagramm zeigt den Prozentsatz der Frames an, bei denen der Mittenpositionsfehler unter einem bestimmten Schwellenwert liegt. Zur Bewertung und Einstufung der Tracker wird ein Schwellenwert von 20 Pixeln verwendet.

Die Erfolgsrate wird als Überlappung als IOU zwischen den vorhergesagten und den Ground-Truth-Begrenzungsrahmen berechnet. Das Überlappungsverhältnis \(\textbf{OR}_{t}\) im t-ten Rahmen wird ausgedrückt als:

Dabei stellen \(\cap\) und \(\cup\) den Schnittpunkt bzw. die Vereinigung von Regionen zweier Boxen dar und \(\left| \cdot \right|\) ist die Anzahl der Pixel in der Region. Das Erfolgsdiagramm zeigt den Prozentsatz erfolgreicher Frames, deren Überlappungsverhältnis über einem vordefinierten Schwellenwert liegt, der zwischen 0 und 1 variiert. Der AUC-Wert (Area under Curve) des Erfolgsdiagramms wird hauptsächlich zur Rangfolge der Tracker herangezogen.

Vergleich der Gesamtleistung mit den leichten Trackern. Bei der Bewertung wurden die Präzisions- und Erfolgsdiagramme des vorgeschlagenen Trackers und 29 anderer leichter Tracker verwendet.

DTB7068 enthält 70 anspruchsvolle Sequenzen, die aus von UAVs gesammelten Daten erstellt wurden. Darüber hinaus erschweren verschiedene herausfordernde Szenen mit Übersetzung, Drehung sowie unterschiedlicher Größe und Seitenverhältnis aufgrund der Kamerabewegung den Datensatz zusätzlich. Mit diesem Benchmark kann die Robustheit unseres Trackers in verschiedenen komplexen Szenarien, die durch die schnelle Bewegung des UAV verursacht werden, demonstriert werden. Als Ergebnis des Vergleichs mit anderen Trackern erreichte AMST\(^2\) eine Präzision (0,851) und eine Erfolgsquote (0,658) und belegte damit den ersten Platz. Die Ergebnisse sind in Abb. 5 dargestellt. Im Vergleich zum zweitbesten und dritten -Bester Platz TCTrack (0,815) und HiFT (0,804), die Präzision verbesserte sich um etwa 4,4\(\%\) bzw. 5,8\(\%\). In ähnlicher Weise weist AMST\(^2\) bei der Erfolgsquote eine Leistungssteigerung von 6,0\(\%\) bzw. 10,8\(\%\) gegenüber TCTrack (0,621) und HiFT (0,594) auf.

Das UAV12369 ist ein groß angelegter Luftverfolgungs-Benchmark, der aus der Luft aufgenommen wurde und aus insgesamt 123 Videosequenzen mit über 112.000 Bildern besteht. Das Objekt im Datensatz ist aufgrund großer Änderungen, Beleuchtungsänderungen und Verdeckungen schwierig zu verfolgen, insbesondere bei kleinen Objekten. Wie in Abb. 5 dargestellt, übertrifft der AMST\(^2\) alle anderen Tracker sowohl hinsichtlich der Präzision als auch der Erfolgsquote. In Bezug auf die Präzision übertrifft die vorgeschlagene Methode den zweitbesten TCTrack (0,800) und den drittbesten HiFT (0,787) um 4,0\(\%\) bzw. 5,7\(\%\) mit einem Präzisionswert (0,832). ). Die Erfolgsquote erreichte im Vergleich zu den Baseline-Trackern auch eine bessere Leistungssteigerung von etwa 4,3\(\%\) bzw. 7,0\(\%\).

Das UAV123@10fps69 wird heruntergesampelt, indem die 10FPS-Bildrate der Originalversion UAV123 übernommen wird. Das Tracking-Problem stellt eine größere Herausforderung als die Originalversion dar, da die Bewegungsverschiebung und die Variation des Objekts größer sind. Wie in Abb. 5 gezeigt, erreicht unser Tracker sowohl hinsichtlich der Präzision (0,798) als auch der Erfolgsquote (0,616) die beste Leistung. Dies zeigt deutlich, dass unser Tracker in der Lage ist, diskontinuierliche Luftdaten zuverlässig zu verfolgen, ohne dass es zu Leistungseinbußen aufgrund der Bildfrequenz kommt.

Das UAV20L69 wurde zur Langzeitbewertung der Tracking-Leistung verwendet. Dieser Benchmark ist eine Teilmenge von UAV123 und besteht aus 20 Langzeit-Tracking-Sequenzen mit durchschnittlich 2934 Bildern. Wie in Tabelle 1 gezeigt, erreicht AMST\(^2\) den ersten Platz mit einer Genauigkeit von 0,784, vor dem zweit- und drittbesten TCTrack (0,780) und HiFT (0,763) mit einem kleinen Vorsprung von etwa 0,5\(\%\ ) bzw. 2,8\(\%\). Auch die Erfolgsquote von AMST\(^2\) hat die beste Punktzahl (0,601) und zeigt eine bessere Tracking-Leistung als TCTrack (0,580) und HiFT (0,566). Dies bedeutet, dass die vorgeschlagene Methode bessere Funktionen für die Nachverfolgung generiert als bestehende Methoden für Langzeitdatensätze.

UAVTrack112_L70 ist ein bekannter Langzeit-Tracking-Datensatz für die Luftverfolgung, der aus über 60.000 Bildern und einer Teilmenge von UAVTrack11270 besteht. Wie in Tabelle 2 gezeigt, ist AMST\(^2\) im Vergleich zu hochmodernen Trackern ein robusterer Tracker. AMST\(^2\) sichert sich den Spitzenplatz mit einem Präzisionswert von 0,835 und übertrifft TCTrack (0,786) und SiamRPN++ (0,769) um etwa 6,2 % bzw. 8,6 %. Auch in Bezug auf die Erfolgsquote (0,629) zeigt AMST\(^2\) eine überlegene Leistung gegenüber anderen Trackern. Diese Ergebnisse bestätigen die Überlegenheit unseres Trackers gegenüber bestehenden leichten Trackern in Langzeit-Benchmarks.

Erfolgsdiagramme der OPE der Datensatzattribute DTB70 und UAV123. Die verschiedenen attributbasierten Bewertungen der Luftverfolgungs-Benchmarks DTB70 und UAV123.

Gesamtleistung der UAV123@10fps-Datensatzattribute. Alle attributbasierten Bewertungen der Top-10-Tracker im UAV123@10fps-Luftverfolgungs-Benchmark. Rote und blaue Schriftarten repräsentieren die höchsten bzw. niedrigsten Werte.

Aufgrund der starken Bewegung von UAVs steht die Luftverfolgung vor verschiedenen Herausforderungen. Attribute wurden in den Benchmark-Datensätzen mit Anmerkungen versehen, wie in den Abbildungen dargestellt. 6 und 7, um die Leistung des Trackers unter verschiedenen anspruchsvollen Bedingungen zu bewerten.

Abbildung 6 zeigt, dass der vorgeschlagene Tracker andere leichte Tracker in mehreren anspruchsvollen Szenarien bei den Benchmarks DTB70 und UAV123 übertrifft. Abbildung 7 zeigt die Bewertungsergebnisse aller Attribute des UAV123@10fps-Benchmarks. In puncto Präzision belegt unser Tracker bei niedriger Auflösung und ähnlichen Objektbedingungen den zweitbesten Platz, bei allen anderen Attributen den ersten Platz. Insbesondere weist AMST\(^2\) die höchste Erfolgsquote unter allen Attributen im UAV123@10fps-Datensatz auf. Durch die Nutzung mehrstufiger räumlicher und zeitlicher Informationen zeigt unser Tracker eine außergewöhnliche Leistung in verschiedenen Szenarien, wie unter anderem bei Skalenschwankungen, Verformungen, schnellen Kamerabewegungen und Okklusion. Darüber hinaus bieten Vorlagenaktualisierungen auf der Ebene der Vorlagenfunktionen den Vorteil einer robusteren Verfolgung extremer Variationen.

Um die Auswirkungen der vorgeschlagenen Methode zu validieren, haben wir mehrere Ablationsstudien am DTB70-Datensatz durchgeführt. Wir haben fünf Varianten unseres Trackers bewertet, darunter: (1) MS, das nur die Funktionen des mehrstufigen räumlichen Encoders als erste Basislinie verwendet, (2) TE, das nur einen zeitlichen Encoder als zweite Basislinie verwendet, (3 ) MS+TE, das sowohl mehrstufige räumliche als auch zeitliche Encoder anwendet, (4) MS+TE+TU, ein Modell, bei dem ein Vorlagenaktualisierungsnetzwerk zu MS+TE hinzugefügt wird, und (5) MS+TE+AE+ TU, das endgültige Modell, das den zu MS+TE+TU hinzugefügten Aggregationsencoder enthält. In dieser Ablationsstudie wurde dieselbe Multikontext-Decoderstruktur für die Methode zur Anwendung sowohl räumlicher als auch zeitlicher Informationen auf mehreren Ebenen verwendet. Wie in Tabelle 3 gezeigt, zeigt unser Beitrag nicht nur eine herausragende Leistung unter verschiedenen komplexen Bedingungen, sondern weist auch die höchste Punktzahl bei Präzision und Erfolgsquote auf.

Der Vergleich der Qualität und Geschwindigkeit moderner Tracker mit tieferen Backbones auf DTB70. Die zum Vergleich verwendeten Tracker bestehen aus Trackern, die ein tieferes Backbone-Netzwerk als AlextNet nutzen.

Attributbasierte Vergleichsergebnisse von Trackern mit tieferen Backbones. Die zum Vergleich herangezogenen Tracker bestehen aus Trackern mit den Top-10-Laufgeschwindigkeiten unter den Deep-Trackern.

Unser Ziel war es, die Robustheit unserer vorgeschlagenen Luftverfolgung durch die Kombination mehrstufiger räumlicher und zeitlicher Informationen zu verbessern und so komplexe Bedingungen zu bewältigen. Um klarere Ergebnisse zu erhalten, haben wir unsere Methode mit 22 hochmodernen Trackern mit tieferen Backbones verglichen. Wie in Abb. 8 dargestellt, erreicht unsere Methode, obwohl sie ein leichtes Rückgrat verwendet, eine wettbewerbsfähige Leistung mit einer deutlich schnelleren Tracking-Geschwindigkeit als AiATrack, das die höchste Erfolgsquote aufweist. Darüber hinaus haben wir Vergleichsexperimente zu allen DTB70-Szenarien durchgeführt und dabei die Top 10 der geschwindigkeitsbasierten Tracking-Tracker verwendet, um die attributbasierte Analyse mit Deep-Trackern zu unterstützen. Wie in Abb. 9 dargestellt, übertrifft unser Tracker andere in verschiedenen komplexen und unübersichtlichen Szenarien. Die vorgeschlagene robuste Merkmalsdarstellung, die räumlichen und zeitlichen Kontext auf mehreren Ebenen aggregiert, verringert die Leistungslücke bei tieferen Backbone-basierten Trackern und gewährleistet eine effiziente und robuste Verfolgung in verschiedenen Luftaufnahmen. Tabelle 4 zeigt einen ausführlichen Vergleich zwischen der vorgeschlagenen Methode und tieferen Backbone-basierten Trackern sowie Baseline-Trackern. Wir haben anhand bekannter Luftdatensätze wie VisDrone-SOT202071 und UAVDT72 Auswertungen zu mehreren Faktoren durchgeführt, darunter Bilder pro Sekunde (fps), Parameter und Leistungsmetriken. VisDrone-SOT2020 basiert auf Daten, die aus zahlreichen realen Situationen zu Wetter- und Beleuchtungsschwankungen gesammelt wurden, und UAVDT umfasst auch verschiedene Frames in komplexen Szenarien, die die Leistung des Trackers beeinträchtigen, wie z. B. Wetter, Höhe, Kameraansicht, Objekterscheinung und Verdeckung. Aus Gründen der Übersichtlichkeit verwenden STARK und TransT eine modifizierte Version von ResNet, die die letzte Stufe entfernt, sodass sie über eine geringere Anzahl von Parametern verfügen als Tracker, die die anderen tieferen Backbones verwenden. HiFT, TCTrack und der vorgeschlagene Tracker zeigen eine schnellere Verarbeitungszeit mit viel weniger Parametern und Tracking-Geschwindigkeiten von mehr als 100 fps als Deep-Tracker. Darüber hinaus haben HiFT und TCTrack Vorteile bei Parametern und fps gegenüber dem vorgeschlagenen Tracker, aber in Bezug auf die Leistung sind sie schlechter als Deep Tracker und der vorgeschlagene Tracker. Darüber hinaus weist unser vorgeschlagener Tracker nicht nur eine geringere Parameterkomplexität im Vergleich zu TransT auf, das die höchste Punktzahl in VisDrone-SOT2020 erreichte, sondern weist auch eine ähnliche Präzisionsleistung und vergleichbare Erfolgsleistung wie tiefere Backbone-Modelle auf, selbst bei verdoppelten fps. Diese Ergebnisse unterstreichen die Effizienz und Effektivität unseres vorgeschlagenen Trackers im Hinblick auf die Parameternutzung und die Gesamtverfolgungsleistung und verdeutlichen sein Potenzial für Echtzeit-Luftverfolgungsanwendungen. Im UAVDT-Datensatz zeigt die vorgeschlagene Methode eine vergleichbare Leistung wie modernste Tracker bei gleichzeitig geringer Parameterkomplexität und hoher Verarbeitungsgeschwindigkeit. Diese Ergebnisse belegen weiter die Wirksamkeit und Effizienz unserer vorgeschlagenen Methode bei Luftverfolgungsaufgaben. Unter den tieferen Backbone-basierten Trackern gibt es Tracker mit nahezu 100 fps, der vorgeschlagene Tracker übertrifft jedoch die Parameter und die Leistung. Daher zeigt unser Tracker eine höhere Effizienz bei der Luftverfolgung mit UAVs als viele SOTA-Tracker mit geringer Latenz, schneller Tracking-Geschwindigkeit und überlegener Leistung.

In diesem Artikel stellten wir die aggregierte mehrstufige räumliche und zeitliche kontextbasierte Transformer-Architektur (AMST\(^2\)) vor, einen neuartigen Ansatz für eine robuste Luftverfolgung, der mehrstufige räumliche und zeitliche Informationen durch ein Transformer-basiertes System nutzt Modell. Der vorgeschlagene Ansatz umfasst einen Aggregations-Encoder, der die Ähnlichkeitskarte verbessert, und einen Multikontext-Decoder, der leistungsstarke, verfeinerte Ähnlichkeitskarten generiert. Der Einsatz eines aggregierten, mehrstufigen, auf räumlichen und zeitlichen Informationen basierenden Transformators zusammen mit einem leichten Backbone bewältigt effektiv die Herausforderungen der Verfolgungsgeschwindigkeit und der Luftverfolgung beim Einsatz von UAVs. Die Einführung eines Vorlagenaktualisierungsprozesses erhöht die Robustheit unseres Ansatzes gegenüber komplexen Szenarien weiter.

Umfangreiche Experimente mit anspruchsvollen Luftbenchmarks, darunter DTB70, UAV123, UAV123@10fps, UAV20L und UAVTrack112\(\_\)L, haben gezeigt, dass AMST\(^2\) modernste Methoden in beiden Punkten übertrifft Genauigkeit und Effizienz.

Obwohl unser Ansatz vielversprechende Ergebnisse zeigt, gibt es noch Einschränkungen, die angegangen werden müssen, wie z. B. die Empfindlichkeit gegenüber schlechten Lichtverhältnissen und die Notwendigkeit einer großen Menge an Trainingsdaten. Zukünftige Forschungen können Möglichkeiten zur Überwindung dieser Einschränkungen untersuchen und die Genauigkeit und Effizienz der Luftverfolgung weiter verbessern. Insgesamt stellt der vorgeschlagene Ansatz einen erheblichen Fortschritt bei der Entwicklung robusterer und effektiverer Luftverfolgungssysteme dar.

Alle in dieser Studie generierten oder analysierten Daten sind in diesem veröffentlichten Artikel enthalten. Die in dieser Studie verwendeten Trainings- und Testdatensätze sind öffentlich verfügbar und wurden gemäß den Forschungsregeln zitiert. Detaillierte Beschreibungen der Datensätze und ihrer Zitate finden Sie im Abschnitt „Experimentelle Ergebnisse“ des Papiers. Beispielsweise kann der Trainingssatz des ImageNet VID-Datensatzes unter dem Link https://image-net.org/challenges/LSVRC/2015/index.php heruntergeladen werden. Der Trainingssatz des COCO-Datensatzes kann unter https://cocodataset.org/#home heruntergeladen werden, während der Trainingssatz des GOT-10K-Datensatzes unter http://got-10k.aitestunion.com/ heruntergeladen werden kann. Darüber hinaus kann auf den Trainingssatz des LaSOT-Datensatzes über http://vision.cs.stonybrook.edu/~lasot/ zugegriffen werden. Die Testsätze des DTB70-Datensatzes, der UAV123-, UAV123@10fps- und UAV20L-Datensätze sowie des UAVTrack112_L-Datensatzes, des VisDrone-SOT2020-Datensatzes und des UAVDT-Datensatzes können unter https://github.com/flyers/drone-tracking, https://github.com/flyers/drone-tracking, heruntergeladen werden: //cemse.kaust.edu.sa/ivul/uav123, https://github.com/vision4robotics/SiamAPN, http://aiskyeye.com/ und https://sites.google.com/view/grli- uavdt bzw.

Marvasti-Zadeh, SM, Cheng, L., Ghanei-Yakhdan, H. & Kasaei, S. Deep Learning für visuelles Tracking: Eine umfassende Umfrage. IEEE Trans. Intel. Transp. Syst. 20, 20 (2021).

Google Scholar

Fu, C. et al. Siamesische Objektverfolgung für unbemannte Luftfahrzeuge: Ein Überblick und eine umfassende Analyse. arXiv:2205.04281 (arXiv-Vorabdruck) (2022).

Fu, C., Li, B., Ding, F., Lin, F. & Lu, G. Korrelationsfilter für unbemannte Luftfahrzeug-basierte Luftverfolgung: Eine Überprüfung und experimentelle Bewertung. IEEE Trans. Geosci. Remote Sens. 10, 125–160 (2022).

Artikel Google Scholar

Bolme, DS, Beveridge, JR, Draper, BA & Lui, YM Visuelle Objektverfolgung mithilfe adaptiver Korrelationsfilter. In Proceedings/IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2544–2550 (2010).

Henriques, JF, Caseiro, R., Martins, P. & Batista, J. Hochgeschwindigkeits-Tracking mit kernisierten Korrelationsfiltern. IEEE Trans. Muster Anal. Mach. Intel. 37, 583–596 (2015).

Artikel PubMed Google Scholar

Danelljan, M., Hager, G., Shahbaz Khan, F. & Felsberg, M. Lernen räumlich regulierter Korrelationsfilter für die visuelle Verfolgung. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 4310–4318 (2015).

Bertinetto, L., Valmadre, J., Golodetz, S., Miksik, O. & Torr, PH Staple: Komplementäre Lernende für Echtzeit-Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1401–1409 (2016).

Danelljan, M., Häger, G., Khan, FS & Felsberg, M. Diskriminative Raumverfolgung im Maßstab. IEEE Trans. Muster Anal. Mach. Intel. 39, 1561–1575 (2017).

Artikel PubMed Google Scholar

Kiani Galoogahi, H., Fagg, A. & Lucey, S. Lernen hintergrundbezogener Korrelationsfilter für die visuelle Verfolgung. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 1135–1143 (2017).

Wang, C., Zhang, L., Xie, L. & Yuan, J. Kernel-Kreuzkorrelator. In Proceedings of AAAI Conference on Artificial Intelligence, vol. 32 (2018).

Huang, Z., Fu, C., Li, Y., Lin, F. & Lu, P. Lernen von aberranzunterdrückten Korrelationsfiltern für die Echtzeit-UAV-Verfolgung. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2891–2900 (2019).

Ma, C., Huang, J.-B., Yang, X. & Yang, M.-H. Hierarchische Faltungsfunktionen für die visuelle Verfolgung. In Proceedings der IEEE International Conference on Computer Vision (ICCV) (2015).

Qi, Y. et al. Abgesichertes Deep Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4303–4311 (2016).

Choi, J. et al. Kontextbezogene Deep-Feature-Komprimierung für schnelles visuelles Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 479–488 (2018).

Nam, H. & Han, B. Lernen von Faltungs-Neuronalen Netzen mit mehreren Domänen für die visuelle Verfolgung. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4293–4302 (2016).

Danelljan, M., Bhat, G., Shahbaz Khan, F. & Felsberg, M. ECO: Effiziente Faltungsoperatoren für das Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6638–6646 (2017).

Song, Y. et al. VITAL: VIsuelles Tracking durch kontradiktorisches Lernen. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 8990–8999 (2018).

Pu, S., Song, Y., Ma, C., Zhang, H. & Yang, M.-H. Tiefgehendes aufmerksames Tracking durch reziprokes Lernen. In Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 31, 1931–1941 (2018).

Russakovsky, O. et al. ImageNet – groß angelegte visuelle Erkennungsherausforderung. Int. J. Comput. Vis. 115, 211–252 (2015).

Artikel MathSciNet Google Scholar

Tao, R., Gavves, E. & Smeulders, AW Siamesische Instanzsuche für Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1420–1429 (2016).

Bertinetto, L., Valmadre, J., Henriques, JF, Vedaldi, A. & Torr, PHS Vollständig gefaltete siamesische Netzwerke zur Objektverfolgung. In Proceedings of European Conference on Computer Vision Workshops (ECCVW), 850–865 (2016).

Guo, Q. et al. Lernendes dynamisches siamesisches Netzwerk zur visuellen Objektverfolgung. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 1763–1771 (2017).

Zhu, Z. et al. Distraktorbewusste siamesische Netzwerke zur visuellen Objektverfolgung. In Proceedings of the IEEE European Conference on Computer Vision (ECCV), 101–117 (2018).

Wang, Q. et al. Lernaufmerksamkeiten: Siamesisches Restaufmerksamkeitsnetzwerk für leistungsstarkes visuelles Online-Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4854–4863 (2018).

Wang, X., Li, C., Luo, B. & Tang, J. SINT++: Robuste visuelle Verfolgung durch gegnerische positive Instanzgenerierung. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4864–4873 (2018).

Li, B. et al. SiamRPN++: Weiterentwicklung der visuellen Verfolgung von Siamesen mit sehr tiefen Netzwerken. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4282–4291 (2019).

Danelljan, M., Bhat, G., Khan, FS & Felsberg, M. ATOM: Genaue Verfolgung durch Überlappungsmaximierung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4660–4669 (2019).

Bhat, G., Danelljan, M., Gool, LV & Timofte, R. Lernen diskriminierender Modellvorhersage für die Nachverfolgung. In Proceedings of IEEE/CVF International Conference on Computer Vision (ICCV), 6182–6191 (2019).

Chen, Z., Zhong, B., Li, G., Zhang, S. & Ji, R. Adaptives Siamese-Box-Netzwerk zur visuellen Verfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6668–6677 (2020).

Guo, D., Wang, J., Cui, Y., Wang, Z. & Chen, S. SiamCAR: Siamesische vollständig Faltungsklassifizierung und Regression für die visuelle Verfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6269–6277 (2020).

Zhang, Z., Peng, H., Fu, J., Li, B. & Hu, W. Ocean: Objektbewusste ankerfreie Verfolgung. In Proceedings of European Conference on Computer Vision (ECCV), 771–787 (2020).

Li, X., Ma, C., Wu, B., He, Z. & Yang, M.-H. Zielbewusste Tiefenverfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1369–1378 (2019).

Xu, Y., Wang, Z., Li, Z., Yuan, Y. & Yu, G. SiamFC++: Auf dem Weg zu einer robusten und genauen visuellen Verfolgung mit Richtlinien zur Zielschätzung. In Proceedings of AAAI Conference on Artificial Intelligence vol. 34, 12549–12556 (2020).

Zhou, W. et al. SiamCAN: Visuelle Echtzeitverfolgung basierend auf einem siamesischen zentrumsbewussten Netzwerk. IEEE Trans. Bildprozess 30, 3597–3609 (2021).

Artikel ADS PubMed Google Scholar

Yu, Y., Xiong, Y., Huang, W. & Scott, MR Deformierbare siamesische Aufmerksamkeitsnetzwerke für die visuelle Objektverfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 6728–6737 (2020).

Krizhevsky, A., Sutskever, I. & Hinton, GE ImageNet-Klassifizierung mit tiefen Faltungs-Neuronalen Netzen. In Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 25 (2012).

Li, B., Yan, J., Wu, W., Zhu, Z. & Hu, X. Leistungsstarke visuelle Verfolgung mit dem Vorschlagsnetzwerk der siamesischen Region. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 8971–8980 (2018).

He, K., Zhang, X., Ren, S. & Sun, J. Deep Residual Learning für die Bilderkennung. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–778 (2016).

Wang, Q., Zhang, L., Bertinetto, L., Hu, W. & Torr, PH Schnelle Online-Objektverfolgung und -Segmentierung: Ein einheitlicher Ansatz. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1328–1338 (2019).

Danelljan, M., Gool, LV & Timofte, R. Probabilistische Regression für visuelles Tracking. In Proc. IEEE/CVF-Konferenz zu Computer Vision und Mustererkennung (CVPR), 7183–7192 (2020).

Valmadre, J., Bertinetto, L., Henriques, J., Vedaldi, A. & Torr, PHS End-to-End-Darstellungslernen für korrelationsfilterbasiertes Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2805–2813 (2017).

Wang, Q., Gao, J., Xing, J., Zhang, M. & Hu, W. DCFNet: Diskriminantes Korrelationsfilternetzwerk für visuelle Verfolgung. arXiv:1704.04057 (arXiv-Vorabdruck) (2017).

Shen, Q. et al. Unbeaufsichtigtes Erlernen der genauen Verfolgung von Siamkatzen. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8101–8110 (2022).

Sun, X. et al. Aktualisierbarer Siam-Tracker mit zweistufigem One-Shot-Lernen. arXiv:2104.15049 (arXiv-Vorabdruck) (2021).

Zhang, L., Gonzalez-Garcia, A., Weijer, J. vd, Danelljan, M. & Khan, FS Lernen Sie die Modellaktualisierung für siamesische Tracker kennen. In Proceedings of IEEE/CVF International Conference on Computer Vision (ICCV), 4010–4019 (2019).

Guo, D. et al. Aufmerksamkeitsverfolgung anhand von Diagrammen. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 9543–9552 (2021).

Chen, X. et al. Transformatorverfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8126–8135 (2021).

Wang, N., Zhou, W., Wang, J. & Li, H. Transformer meets Tracker: Ausnutzung des zeitlichen Kontexts für robustes visuelles Tracking. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1571–1580 (2021).

Yan, B., Peng, H., Fu, J., Wang, D. & Lu, H. Lernen des räumlich-zeitlichen Transformators für die visuelle Verfolgung. In Proceeidngs of IEEE/CVF Conference on Computer Vision (ICCV), 10448–10457 (2021).

Mayer, C. et al. Modellvorhersage für die Nachverfolgung umwandeln. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 8731–8740 (2022).

Gao, S., Zhou, C., Ma, C., Wang, X. & Yuan, J. AiATrack: Aufmerksamkeit in Aufmerksamkeit für die visuelle Verfolgung von Transformatoren. In Proceedings of European Conference on Computer Vision (ECCV), 146–164 (2022).

Fu, C., Cao, Z., Li, Y., Ye, J. & Feng, C. Siamesisches Ankervorschlagsnetzwerk für Hochgeschwindigkeits-Luftverfolgung. In Proceedings of IEEE International Conference on Robotics and Automation (ICRA), 510–516 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. & Li, Y. SiamAPN++: Siamesisches Aufmerksamkeitsaggregationsnetzwerk für Echtzeit-UAV-Tracking. In IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 3086–3092 (2021).

Cao, Z., Fu, C., Ye, J., Li, B. & Li, Y. HiFT: Hierarchischer Feature-Transformer für die Luftverfolgung. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), 15457–15466 (2021).

Cao, Z. et al. TCTrack: Zeitliche Kontexte für die Luftverfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 14798–14808 (2022).

Vaswani, A. et al. Aufmerksamkeit ist alles, was Sie brauchen. In Proceedings of Advances in Neural Information Processing Systems (NIPS), vol. 30, 6000–6010 (2017).

Alexey, D. et al. Ein Bild sagt mehr als 16x16 Worte: Transformatoren für die Bilderkennung im Maßstab. In Proceedings of International Conference on Learning Representations (ICLR) (2021).

Carion, N. et al. Durchgehende Objekterkennung mit Transformatoren. In Proceedings of European Conference on Computer Vision (ECCV), 213–229 (2020).

Girdhar, R., Carreira, J., Doersch, C. & Zisserman, A. Video-Action-Transformer-Netzwerk. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 244–253 (2019).

Cui, Y., Jiang, C., Wang, L. & Wu, G. MixFormer: End-to-End-Tracking mit iterativer gemischter Aufmerksamkeit. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13608–13618 (2022).

Chen, B. et al. Backbone ist alles, was Sie brauchen: Eine vereinfachte Architektur für die visuelle Objektverfolgung. In Proceedings of European Conference on Computer Vision (ECCV), 375–392 (2022).

Li, Y., Fu, C., Ding, F., Huang, Z. & Lu, G. AutoTrack: Auf dem Weg zu einer leistungsstarken visuellen Verfolgung für UAV mit automatischer räumlich-zeitlicher Regularisierung. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 11923–11932 (2020).

Marvasti-Zadeh, SM, Khaghani, J., Ghanei-Yakhdan, H., Kasaei, S. & Cheng, L. COMET: Kontextbewusstes IoU-geführtes Netzwerk für die Verfolgung kleiner Objekte. In Proceedings of the Asian Conference on Computer Vision (ACCV), 594–611 (2020).

Szegedy, C. et al. Mit Windungen tiefer gehen. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 1–9 (2015).

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. & Chen, L.-C. MobileNetV2: Invertierte Residuen und lineare Engpässe. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 4510–4520 (2018).

Huang, Z. et al. TAda! zeitlich adaptive Faltungen für das Videoverständnis. In Proceedings of International Conference on Learning Representations (ICLR) (2022).

Zheng, Z. et al. Distanz-IoU-Verlust: Schnelleres und besseres Lernen für die Bounding-Box-Regression. In Proceedings of the AAAI Conference on Artificial Intelligence, Bd. 34, 12993–13000 (2020).

Li, S. & Yeung, D.-Y. Visuelle Objektverfolgung für unbemannte Luftfahrzeuge: Ein Benchmark und neue Bewegungsmodelle. In Proceedings of the AAAI Conference on Artificial Intelligence, Band 31, 1–7 (2017).

Mueller, M., Smith, N. & Ghanem, B. Ein Benchmark und Simulator für UAV-Tracking. In Proceedings of European Conference on Computer Vision (ECCV), 445–461 (2016).

Fu, C., Cao, Z., Li, Y., Ye, J. & Feng, C. Echtzeit-Luftverfolgung an Bord mit effizientem Netzwerk für siamesische Ankervorschläge. IEEE Trans. Geosci. Remote Sens. 60, 1–13 (2022).

Google Scholar

Fan, H. et al. VisDrone-SOT2020: Die Vision erfüllt die Ergebnisse der Drohnen-Einzelobjektverfolgungs-Challenge. In Proceedings of European Conference on Computer Vision Workshops (ECCVW), 728–749 (2020).

Du, D. et al. Der Benchmark für unbemannte Luftfahrzeuge: Objekterkennung und -verfolgung. In Proceedings of European Conference on Computer Vision (ECCV), 370–386 (2018).

Lukezic, A., Vojir, T., Cehovin Zajc, L., Matas, J. & Kristan, M. Diskriminierender Korrelationsfilter mit Kanal- und räumlicher Zuverlässigkeit. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 6309–6318 (2017).

Wang, N. et al. Multi-Cue-Korrelationsfilter für robustes visuelles Tracking. In Proceedings of IEEE Computer Vision and Pattern Recognition (CVPR), 4844–4853 (2018).

Li, F., Tian, ​​C., Zuo, W., Zhang, L. & Yang, M.-H. Erlernen räumlich-zeitlich regulierter Korrelationsfilter für die visuelle Verfolgung. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4904–4913 (2018).

Wang, N. et al. Unbeaufsichtigtes Deep Tracking. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 1308–1317 (2019).

Mayer, C., Danelljan, M., Paudel, DP & Van Gool, L. Zielkandidaten-Assoziation lernen, um den Überblick darüber zu behalten, was nicht verfolgt werden sollte. In Proceedings of IEEE International Conference Computer Vision (ICCV), 13444–13454 (2021).

Sosnovik, I., Moskalev, A. & Smeulders, AW Skalenäquivarianz verbessert die Verfolgung von Siamesen. In Proceedings of the IEEE Winter Conference on Applications of Computer Vision (WACV), 2765–2774 (2021).

Lin, T.-Y. et al. Microsoft COCO: Gemeinsame Objekte im Kontext. In Proceedings of European Conference on Computer Vision (ECCV), 740–755 (2014).

Huang, L., Zhao, X. & Huang, K. GOT-10k: Ein großer High-Diversity-Benchmark für generische Objektverfolgung in freier Wildbahn. IEEE Trans. Muster Anal. Mach. Intel. 43, 1562–1577 (2019).

Artikel Google Scholar

Fan, H. et al. LaSOT: Ein hochwertiger Benchmark für die groß angelegte Einzelobjektverfolgung. In Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 5374–5383 (2019).

Wu, Y., Lim, J. & Yang, M.-H. Online-Objektverfolgung: Ein Benchmark. In Proceedings of IEEE International Conference on Computer Vision (ICCV), 2411–2418 (2013).

Referenzen herunterladen

Diese Arbeit wurde teilweise durch den von der koreanischen Regierung (MSIT) finanzierten Zuschuss des Institute of Information and Communications Technology Planning and Evaluation (IITP) [2021-0-01341, Artificial Intelligent Graduate School Program (Chung-Ang University)] und teilweise durch unterstützt Feldorientiertes Technologieentwicklungsprojekt für die Zollverwaltung durch die National Research Foundation of Korea (NRF), finanziert vom Ministerium für Wissenschaft und IKT und dem Korea Customs Service (2021M3I1A1097911).

Abteilung für Bild, Chung-Ang-Universität, 84 Heukseok-ro, Seoul, 06974, Korea

Hasil Park, Dasol Jeong & Joonki Paik

Abteilung für Künstliche Intelligenz, Chung-Ang-Universität, 84 Heukseok-ro, Seoul, 06974, Korea

Injae Lee & Joonki Paik

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

HP hat den Algorithmus entworfen und entwickelt und ein Experiment durchgeführt. IL führte Experimente und Datenanalysen durch. DJ führte eine Datenanalyse durch. JP leitete das Projekt und schrieb den Originalentwurf. Alle Autoren haben das Manuskript überprüft.

Korrespondenz mit Joonki Paik.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Park, H., Lee, I., Jeong, D. et al. AMST2: Aggregierter mehrstufiger räumlicher und zeitlicher kontextbasierter Transformator für robuste Luftverfolgung. Sci Rep 13, 9062 (2023). https://doi.org/10.1038/s41598-023-36131-2

Zitat herunterladen

Eingegangen: 3. April 2023

Angenommen: 30. Mai 2023

Veröffentlicht: 04. Juni 2023

DOI: https://doi.org/10.1038/s41598-023-36131-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.