SAMOSA framework adapts SAM 2 for advanced visual object tracking

By PulseAugur Editorial · [3 sources] · 2026-05-21 00:00

Researchers have developed SAMOSA, a novel tracking framework that enhances the capabilities of the SAM 2 vision foundation model for complex visual object tracking. SAMOSA explicitly incorporates motion dynamics, geometric consistency, and semantic cues to improve tracking performance, addressing limitations of directly applying SAM 2 to dynamic scenarios. The framework demonstrates superior generalization compared to supervised methods and achieves significant gains on challenging datasets, particularly those involving nonlinear motion like anti-UAV scenarios. AI

IMPACT Enhances visual object tracking by adapting foundation models, potentially improving performance in complex, real-world scenarios.

RANK_REASON The cluster contains an academic paper detailing a new framework for visual object tracking.

Read on Hugging Face Daily Papers →

AI-generated summary · Google Gemini · from 3 sources. How we write summaries →

COVERAGE [3]

Hugging Face Daily Papers TIER_1 English(EN) · 2026-05-21 00:00

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

SAMOSA adapts SAM 2 for visual object tracking by incorporating motion prediction, semantic detection, and geometric constraints to improve robustness and generalization in complex scenarios.
arXiv cs.CV TIER_1 English(EN) · Deyi Zhu, Yuji Wang, Yong Liu, Yansong Tang, Bingyao Yu, Jiwen Lu, Jie Zhou · 2026-05-22 04:00

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

arXiv:2605.22538v1 Announce Type: new Abstract: Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recen…
arXiv cs.CV TIER_1 English(EN) · Jie Zhou · 2026-05-21 14:25

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

Traditional visual object tracking (VOT) methods typically rely on task-specific supervised training, limiting their generalization to unseen objects and challenging scenarios with distractors, occlusion, and nonlinear motion. Recent vision foundation models, exemplified by SAM 2…

COVERAGE [3]

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

Segment Anything with Motion, Geometry, and Semantic Adaptation for Complex Nonlinear Visual Object Tracking

RELATED ENTITIES

RELATED TOPICS