Royal Galician Academy

RAG+提示系统通过语言分析提高日语-中文翻译准确性

研究人员开发了一种结合了检索增强生成（RAG）技术和提示工程的系统，以提高日语-中文机器翻译的准确性，特别是在处理名词修饰从句结构（NMCCs）的句子时。该系统集成了语言分析、基于嵌入的检索和提示工程，以增强GPT-4o等大型语言模型的输出。通过不同知识库大小的测试显示，BLEU分数显著提高，知识库越大效果越好，证明了一种可解释且可审计的翻译改进方法。

TOOL · CL_16134 · May 5 · 04:00

Autonomous QA Agent 使用 RAG 生成可靠的 Selenium 测试脚本

研究人员开发了一个 Autonomous QA Agent，这是一个检索增强生成 (RAG) 系统，旨在提高自动化软件测试脚本的可靠性。该系统将 Selenium 脚本生成与项目特定文档和 HTML 结构相结合，解决了 LLM 幻觉出不存在的 UI 元素的问题。评估表明，与标准的 LLM 生成相比，语法有效性和执行成功率有了显著提高，凸显了 RAG 在自动化 UI 测试中的潜力。

TOOL · CL_15992 · May 5 · 04:00

TagRAG框架改进了语言模型的知识图谱检索

研究人员开发了TagRAG，一种新颖的检索增强生成（RAG）框架，该框架利用由对象标签引导的分层知识图谱。该方法旨在通过实现更高效的全局推理和更易于维护知识图谱来改进现有的RAG方法。TagRAG从文档中提取标签及其关系，以创建结构化知识，然后在生成过程中使用该知识来定位和综合相关信息，与以前的基于图的RAG系统相比，显示出显著的效率提升。

TOOL · CL_15586 · May 5 · 04:00

新的OCR基准测试揭示准确性不能保证RAG性能

开发了一个新的基准测试，用于评估光学字符识别（OCR）系统在检索增强生成（RAG）应用中的鲁棒性。目前使用字符级指标的OCR基准测试未能捕捉OCR错误如何影响现实世界工业场景中的下游RAG性能。该基准测试包含11种具有挑战性的文档类型，并揭示了高OCR准确性并不能保证有效的RAG，因为结构性和语义性错误会导致严重的检索失败。

TOOL · CL_15483 · May 5 · 04:00

AI 助手数字化实验室知识以提高安全性和减少错误

研究人员开发了一种 AI 助手，旨在弥合正式的实验室文档与实际、安全的实验执行之间的差距。该系统利用第一人称视频和多模态 AI 从记录的操作中提取隐性知识，例如当地规则和安全检查。然后，它提供基于事实的查询响应，并采用两层安全设计来防止不支持的输出和幻觉，确保它支持而非取代人类判断。

TOOL · CL_15135 · May 5 · 00:11

Mastodon 服务器为 RAG 和 AI 管道获得额外内存

一项新开发允许增加内存容量，这可以使检索增强生成 (RAG) 和复杂处理管道等应用程序受益。这种增强为 AI 和生成式 AI 任务提供了更大的操作灵活性。

RESEARCH · CL_15900 · May 4 · 12:21

新的RAG研究解决偏见问题并对检索进行基准测试以提高AI准确性

两篇新的arXiv论文探讨了专业领域检索增强生成（RAG）的进展。第一篇论文对生物医学问答的五种检索策略进行了基准测试，发现Cross-Encoder Reranking产生了最佳结果。第二篇论文介绍了HeteroRAG，这是一个旨在通过实现跨异构源（如多模态报告和文本语料库）的有效检索来改进医学视觉语言模型的框架。

TOOL · CL_24186 · May 4 · 09:16

新的对抗性训练提高了机器生成文本的检测能力

研究人员开发了一个名为REACT的新型对抗性训练框架，以提高机器生成文本的检测能力，尤其是在少样本场景下。该方法使用检索增强生成（RAG）攻击者来创建旨在规避检测的类人文本。然后，检测器使用对比目标从这些对抗性样本中学习，从而增强其鲁棒性和少样本性能。实验表明，REACT显著提高了检测准确率，并降低了规避攻击的成功率。

RESEARCH · CL_15932 · May 4 · 09:16

新的REACT框架提升少样本机器生成文本检测能力

研究人员开发了一个名为REACT的新型对抗性训练框架，以提高机器生成文本的检测能力，特别是在数据有限的少样本场景下。该框架让一个以人性化为导向的攻击者（使用检索增强生成（RAG）来创建规避性文本）与一个学习识别这些对抗性样本的检测器进行对抗。通过交替更新这两个组件，REACT提高了检测器在面对复杂攻击时的性能和鲁棒性。

RESEARCH · CL_14492 · May 4 · 04:00

新的LEGIT数据集使用问题树评分标准评估LLM法律推理

研究人员开发了LEGIT，这是一个包含24,000个法律推理实例的新数据集，旨在评估LLM生成的法律论证的质量。该数据集将法院判决转化为论证和结论的层级树，作为评估推理痕迹的评分标准。使用LEGIT进行的实验表明，LLM的法律推理受到问题覆盖率和正确性的显著影响，并且检索增强生成（RAG）和强化学习（RL）提供了互补的优势，RAG增强了整体能力，而RL以覆盖率为代价提高了正确性。

RESEARCH · CL_15887 · May 4 · 03:58

ARGUS系统使用对抗性裁判进行策略自适应广告治理

研究人员开发了ARGUS，一个旨在使在线广告治理适应不断变化的监管政策的新系统。该系统采用了一个三阶段框架，包括策略播种、使用检察官-辩护人-裁判架构的对抗性标签纠正以及潜在知识发现。ARGUS利用RAG增强的策略知识和思维链合成来同步其推理与新指令，在各种数据集上表现优于传统的微调方法。

RESEARCH · CL_12511 · May 1 · 19:24

检索增强生成（RAG）详解：将 LLM 固定在外部数据中

检索增强生成（RAG）是一种通过允许语言模型访问和整合其原始训练集中不存在的外部数据来增强语言模型的技术。此方法将模型的响应固定在最新或特定的信息上，从而提高准确性和相关性。RAG 对于需要事实一致性和访问当前知识库的应用程序至关重要。

RESEARCH · CL_14110 · May 1 · 17:29

医疗 RAG 聊天机器人通过浏览器检查暴露患者数据和系统配置

arXiv 上最近发表的一项研究详细介绍了在利用检索增强生成 (RAG) 的面向患者的医疗聊天机器人中发现的重大隐私和安全漏洞。该研究使用 Claude Opus 4.6 协助评估，发现敏感的系统配置和患者对话数据通过客户端-服务器通信暴露，并且无需身份验证即可检索。研究结果表明，可以使用基本的浏览器检查工具识别此类故障，这凸显了在医疗保健领域部署生成式人工智能之前进行独立安全审查的必要性。

RESEARCH · CL_14215 · May 1 · 06:51

CleanBase方法检测RAG知识库中的恶意文档

研究人员开发了CleanBase，一种识别检索增强生成（RAG）知识库中恶意文档的新颖方法。该系统利用为提示注入攻击精心制作的恶意文档之间通常存在的高度语义相似性。CleanBase构建一个相似性图，其中形成团块的文档被标记为恶意，从而增强RAG系统的安全性和完整性。

TOOL · CL_10362 · Apr 30 · 07:50

嵌入式模型弃用时，生产 RAG 管道的实践者指南

本指南解决了生产检索增强生成 (RAG) 管道中使用的嵌入式模型不可避免的弃用问题。它提供了迁移这些系统的实用建议，以维持搜索质量和控制成本。重点是当嵌入式模型不再受支持时，确保平稳过渡的策略。

RESEARCH · CL_10120 · Apr 30 · 04:00

New method distills enterprise knowledge into navigable agent skills for QA

Researchers have developed a new method called Corpus2Skill that enhances Retrieval-Augmented Generation (RAG) by allowing LLM agents to navigate a hierarchical skill directory derived from a document corpus. This appro…

RESEARCH · CL_10114 · Apr 30 · 04:00

确定性法律代理API实现时序知识图谱的可审计推理

研究人员推出了一种名为SAT-Graph API的新API，用于在时序知识图谱上进行可审计推理，特别是在法律领域。该API旨在克服标准检索增强生成（RAG）的局限性，确保法律信息检索不仅保留语义相关性，还保留法律规范的层级、时序和来源。该系统从简单的检索-生成模型转变为主动的推理-行动-观察循环，允许代理分解问题、执行确定性的图操作，并生成基于可审计日志的答案。

RESEARCH · CL_10113 · Apr 30 · 04:00

研究人员推出Auto-ARGUE用于LLM报告生成评估

研究人员推出Auto-ARGUE，一个用于评估大型语言模型（LLM）生成报告质量的新框架，特别关注使用检索增强生成（RAG）的模型。该系统旨在评估引用支持的报告，这是RAG的一个常见应用。在TREC 2024任务上的初步测试表明，Auto-ARGUE与人类判断高度相关，并且发布了一个名为ARGUE-Viz的可视化工具来辅助分析。

RESEARCH · CL_10107 · Apr 30 · 04:00

检索增强型大语言模型通过在电子健康记录中定位证据来改善临床试验招募

研究人员探索了使用检索增强型大语言模型（LLMs）从电子健康记录中识别适合临床试验的患者。该研究评估了包括通用版本和医学适应版本在内的各种LLMs，并测试了处理长文档的策略，例如默认上下文窗口、基于NER的摘要和动态证据检索（RAG）。MedGemma模型结合RAG实现了最高性能，证明了LLMs在提高试验招募效率方面的潜力，特别是对于需要长期推理的标准。

RESEARCH · CL_10084 · Apr 30 · 04:00

LLMs 表现出“锚定虚构”，部分证据会放大自信的幻觉

研究人员发现了一种大型语言模型中的新现象，称为“锚定虚构”（anchored confabulation），其中提供部分证据会适得其反地增加模型自信地产生幻觉的倾向。这种效应被正式表述为参数幻觉置信度（Parametric Hallucination Confidence, PHC），在多个模型家族中均有观察到，并由一项新定律——锚定阈值定律（Anchoring Threshold Law）进行预测。研究结果对检索增强生成（RAG）系…