PulseAugur
实时 04:42:25
实体 Qwen2.5-VL

Qwen2.5-VL

PulseAugur coverage of Qwen2.5-VL — every cluster mentioning Qwen2.5-VL across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
10
90 天内 10
发布 · 30天
0
90 天内 0
论文 · 30天
8
90 天内 8
层级分布 · 90 天
情绪 · 30 天

4 天有情绪数据

最近 · 第 1/1 页 · 共 10 条
  1. TOOL · CL_44756 ·

    新框架提升VLMs在自动驾驶汽车中的异常检测能力

    研究人员开发了SAVANT,一个旨在利用视觉语言模型(VLMs)改进自动驾驶系统中语义异常检测的新框架。SAVANT将异常检测重新构建为分层语义一致性验证,增强了现有VLMs识别罕见、分布外驾驶场景的能力。与标准提示方法相比,该框架的召回率提高了约18.5%,并实现了约10,000张真实图像的自动标注。通过使用这个精选数据集,一个微调的7B开源模型在单次异常检测中实现了90.8%的召回率和93.8%的准确率,为该领域的数据稀缺问题提供…

  2. RESEARCH · CL_41802 ·

    UF Gators win AmericasNLP 2026 task with novel captioning system

    Researchers from the University of Florida Gators have won the AmericasNLP 2026 shared task for cultural image captioning of Indigenous languages. Their two-stage system uses Qwen2.5-VL for an intermediate Spanish capti…

  3. RESEARCH · CL_42261 ·

    字节跳动开源Lance多模态AI模型以供本地使用

    字节跳动已开源Lance,这是一款原生多模态AI模型,旨在单一系统中处理图像和视频的理解、生成和编辑。该模型拥有30亿激活参数,采用了统一上下文建模和解耦能力路径架构。Lance可在仅需40GB显存的本地设备上运行,其量化版本支持24GB GPU,并在Hugging Face上迅速获得关注。

  4. TOOL · CL_32566 ·

    Video2GUI generates 12M GUI trajectories from unlabeled videos

    Researchers have developed Video2GUI, an automated framework designed to generate large-scale interaction trajectories for training GUI agents. This system extracts data from unlabeled internet videos, converting them i…

  5. TOOL · CL_22434 ·

    New DICModel enhances ICT image captioning with multi-modal LLMs

    Researchers have developed a novel Domain-specific Image Captioning Model (DICModel) designed for the ICT industry, utilizing a multi-stage progressive training strategy. This approach combines synthesized image-text pa…

  6. TOOL · CL_22400 ·

    医学视觉语言模型难以处理否定回答,新基准揭示问题

    研究人员开发了CXR-ContraBench,这是一个新的基准,旨在评估医学视觉语言模型(VLMs)在胸部X光片分析中正确解释否定陈述方面的性能。该基准突显了一个重大问题,即模型会被否定选项所吸引,导致临床上存在风险的矛盾。虽然MedGemma和Qwen2.5-VL等模型显示出相当高的失败率,但一种名为QCCV-Neg的新方法已证明能够在不重新训练的情况下,确定性地纠正这些极性混淆的子集。

  7. RESEARCH · CL_09753 ·

    DenseStep2M pipeline automates video annotation for improved understanding

    Researchers have developed DenseStep2M, a novel pipeline that automatically extracts detailed procedural annotations from instructional videos without requiring training data. This system segments videos, filters irrele…

  8. RESEARCH · CL_08185 ·

    OcularChat MLLM accurately diagnoses age-related macular degeneration with interactive explanations

    Researchers have developed OcularChat, a multimodal large language model (MLLM) fine-tuned from Qwen2.5-VL, designed to diagnose age-related macular degeneration (AMD) using color fundus photographs. The model was train…

  9. TOOL · CL_47693 ·

    Arcee AI 迁移至 Together 端点以实现成本高效的 SLM

    Arcee AI 已将其专业小型语言模型 (SLM) 从 AWS 迁移到 Together 专用端点,以寻求改进成本、性能和运营敏捷性。该公司专注于训练参数量在 720 亿以下的、用于编码和通用文本生成等特定任务的高效模型。Arcee AI 还开发了 Arcee Conductor,这是一个推理路由系统,可将查询定向到最合适的模型,包括 GPT-4.1 和 Claude 3.7 Sonnet 等第三方选项,以优化成本和性能。

  10. RESEARCH · CL_04681 ·

    新研究通过新颖的检测和缓解技术解决大语言模型幻觉问题

    2026年5月发布的多篇研究论文提出了检测和缓解大语言模型(LLMs)幻觉的新方法。这些方法包括内部重建技术(如SIRA)、问答分解(QAOD)和隐藏状态轨迹分析。其他方法侧重于token级检测、按时间顺序的事实核查以及使用指令嵌入作为检测器。一项研究还量化了大语言模型生成的科学论文中不存在引用的普遍问题,突显了问题的规模。