PulseAugur
实时 02:38:26
实体 Bleu

Bleu

PulseAugur coverage of Bleu — every cluster mentioning Bleu across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
5
90 天内 5
发布 · 30天
0
90 天内 0
论文 · 30天
5
90 天内 5
层级分布 · 90 天
最近 · 第 1/1 页 · 共 5 条
  1. RESEARCH · CL_20329 ·

    New DiffCap-Bench benchmark evaluates multimodal LLMs on image difference captioning

    Researchers have introduced DiffCap-Bench, a new benchmark designed to evaluate image difference captioning capabilities in multimodal large language models. This benchmark addresses limitations in existing datasets by …

  2. RESEARCH · CL_18262 ·

    RAG+提示系统通过语言分析提高日语-中文翻译准确性

    研究人员开发了一种结合了检索增强生成(RAG)技术和提示工程的系统,以提高日语-中文机器翻译的准确性,特别是在处理名词修饰从句结构(NMCCs)的句子时。该系统集成了语言分析、基于嵌入的检索和提示工程,以增强GPT-4o等大型语言模型的输出。通过不同知识库大小的测试显示,BLEU分数显著提高,知识库越大效果越好,证明了一种可解释且可审计的翻译改进方法。

  3. RESEARCH · CL_06515 ·

    视觉语言模型(VLMs)过度修正数学OCR,掩盖学生错误;新指标PINK改进评估

    研究人员发现,在评估手写数学OCR系统时,尤其是在使用视觉语言模型(VLMs)的情况下,存在一个重大问题。这些模型经常过度修正学生的错误,而不是准确地转录它们,从而掩盖了学习机会。为了解决这个问题,开发了一种名为PINK的新语义评估指标,该指标使用大型语言模型(LLMs)来评分并惩罚这种过度修正。在FERMAT数据集上的评估表明,与BLEU等传统指标相比,PINK显著改变了模型排名,其中Gemini 2.5 Flash在忠实转录方面表现更好。

  4. RESEARCH · CL_06260 ·

    New study compares pose estimators for sign language translation systems

    A new paper evaluates various pose estimation systems for their effectiveness in sign language translation (SLT). Researchers compared common tools like MediaPipe Holistic and OpenPose against newer models such as SDPos…

  5. RESEARCH · CL_06298 ·

    LLM大脑对齐随训练数据和任务特异性而变化

    研究人员正在探索大型语言模型(LLM)如何在不同语言和任务中与人类大脑活动对齐。研究表明,LLM的中间层最能预测大脑反应,并且这种对齐受训练数据语言主导地位的影响,而非模型本身的类型。此外,经过指令微调的多模态LLM表现出更强的大脑对齐能力,尤其是在围绕特定任务需求而非仅仅表面语义进行组织时。