PulseAugur
实时 16:16:29
实体 Royal Galician Academy

Royal Galician Academy

PulseAugur coverage of Royal Galician Academy — every cluster mentioning Royal Galician Academy across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
106
90 天内 106
发布 · 30天
0
90 天内 0
论文 · 30天
69
90 天内 69
层级分布 · 90 天
关系
情绪 · 30 天

7 天有情绪数据

最近 · 第 3/6 页 · 共 106 条
  1. TOOL · CL_21653 ·

    医疗 RAG AI 失败,检索到错误的患者数据并导致 85 万美元 HIPAA 罚款

    一个使用检索增强生成 (RAG) 的医疗 AI 系统因姓名和医学术语相似,错误地将一名患者的治疗建议提供给了另一名患者。该系统使用了 OpenAI 的 text-embedding-3-large 模型和 Pinecone 作为其向量数据库,在查询 John Smith 的信息时检索到了 Mary Johnson 的糖尿病病史。此错误导致了 85 万美元的 HIPAA 违规,并凸显了纯语义搜索在敏感行业中的风险。

  2. TOOL · CL_21438 ·

    RAG分块边界错误导致检索器返回不完整的句子

    本文讨论了检索增强生成(RAG)系统中一个常见的问题,即分块边界可能导致检索结果不完整或“半句话”。文章解释了文档如何被分割成更小的片段以供检索,这可能导致系统返回信息碎片而不是完整、连贯的信息。作者认为,仔细管理这些分块边界对于提高RAG应用的准确性和实用性至关重要。

  3. TOOL · CL_21303 ·

    Firecrawl 和 Crawl4AI 为 RAG 提供新的网络抓取方法

    文章比较了两种专为检索增强生成 (RAG) 管道设计的网络抓取工具 Firecrawl 和 Crawl4AI。文章强调了由于令牌限制、成本和注意力衰减,将原始 HTML 输入 LLM 的挑战。这两种工具都将 DOM 转换为语义 Markdown,但 Firecrawl 为无服务器环境提供了一种托管 API 方法,处理浏览器渲染并提供诸如使用 JSON 模式进行 LLM 内部提取等功能。

  4. COMMENTARY · CL_21090 ·

    AI原生开发将焦点从编码转向自然语言提示

    AI原生开发正作为一种新范式出现,开发者用自然语言描述期望的结果,而非编写显式代码。这种方法利用提示工程、检索增强生成(RAG)、代理工作流和微调来构建AI驱动的应用程序。虽然不会完全取代开发者,但这种转变将他们定位为专注于AI控制和集成的系统架构师。

  5. TOOL · CL_20634 ·

    ROZA Graphs通过以证据为中心的反馈提高RAG的准确性和效率

    研究人员开发了ROZA Graphs,这是一种通过整合以证据为中心的反馈来增强检索增强生成(RAG)系统的新方法。该方法将每个证据的思维链存储为结构化边,使系统能够从过去对特定证据项的判断中学习。该系统通过重用推理路径来提高准确性,并通过修剪一致被拒绝的候选者来提高效率,从而在不改变基础语言模型的情况下,显著提高准确性并降低成本和延迟。

  6. TOOL · CL_20554 ·

    LoRA 作为 LLM 的可行参数知识记忆出现,是对 RAG 和 ICL 的补充

    一篇新论文探讨了使用低秩适应(LoRA)作为持续更新大型语言模型知识的方法。该研究实证分析了 LoRA 的容量、可组合性以及用于存储和整合信息的优化,并将其与现有的推理时方法(如上下文学习(ICL)和检索增强生成(RAG))进行了对比。研究结果表明,LoRA 提供了一种独特的参数化知识记忆方法,为其操作边界提供了实际指导。

  7. TOOL · CL_19089 ·

    开发者使用Ollama和Kimi在C#中构建本地LLM Wiki,作为RAG的替代方案

    本教程指导开发者使用C#、Ollama和Kimi模型构建本地LLM Wiki。它将这种方法与检索增强生成(RAG)进行了对比,认为对于小型、稳定的知识库而言,Wiki方法更简单。该过程包括准备文档、通过Ollama将文档发送给LLM以生成结构化内容、将其保存为markdown,然后查询Wiki内容。

  8. TOOL · CL_18779 ·

    AutoRAGTuner 框架自动化 RAG 流水线优化并减少代码变更

    研究人员开发了 AutoRAGTuner,一个旨在自动化检索增强生成 (RAG) 流水线优化的新框架。这个声明式系统简化了 RAG 架构的构建、执行、评估和调优过程,而这些架构通常很复杂且需要大量手动配置。通过采用模块化设计和自适应贝叶斯优化引擎,AutoRAGTuner 旨在减少工程开销并提高 RAG 系统的可重用性。

  9. TOOL · CL_18659 ·

    检索增强LLM提高网络安全事件分析效率

    研究人员开发了一个检索增强生成(RAG)系统,以自动化网络安全事件的分析。该系统使用有针对性的查询和MITRE ATT&CK技术库从日志数据中提取指标,然后利用LLM进行语义推理以重建攻击序列。评估显示,不同LLM配置在性能和成本之间存在不同的权衡,Claude Sonnet 4实现了高召回率,而DeepSeek V3提供了显著更低的成本,并且本地部署的Llama 3.1模型提供了零查询成本。

  10. TOOL · CL_18591 ·

    新的 E-MIA 攻击通过考试风格查询探测 RAG 系统中的敏感数据

    研究人员开发了 E-MIA,一种针对检索增强生成 (RAG) 系统进行成员推理攻击的新颖方法。该技术将目标文档中的可验证证据转换为四种问题类型的考试形式,并使用汇总的考试分数作为信号来推断该文档是否是 RAG 系统知识库的一部分。E-MIA 旨在提高在严格设置下成员和非成员分数的区分度,同时保持隐蔽查询,其性能优于依赖不稳定信号或显眼探测的现有方法。

  11. RESEARCH · CL_20598 ·

    DoGMaTiQ 管道自动化生成用于报告评估的问答片段

    研究人员开发了 DoGMaTiQ,这是一个新管道,旨在自动生成用于评估长篇报告的问答(QA)片段,特别是那些由检索增强生成(RAG)系统生成的报告。这一过程解决了手动整理这些评估片段的重大挑战,尤其是在跨语言环境中,这种挑战尤为困难。DoGMaTiQ 系统分三个阶段进行:生成基于文档的片段、对释义进行聚类以及根据质量标准进行子选择。在 TREC 共享任务上的实验表明,DoGMaTiQ 生成的 QA 片段与人类判断具有良好的相关性,并且…

  12. TOOL · CL_17515 ·

    Agentic RAG 增强 LLM 检索能力,应对复杂的企业查询

    Agentic Retrieval-Augmented Generation (RAG) 通过赋予大型语言模型对检索过程更多的控制权,来增强传统的 RAG 系统。与单一检索步骤不同,Agentic RAG 涉及一个规划和精炼循环,模型可以在其中分解查询、迭代检索信息、选择合适的工具并反思证据。这种方法旨在提高 AI 系统处理复杂、多步骤企业问题的鲁棒性和能力,尽管它也带来了延迟、成本和调试方面的挑战。

  13. TOOL · CL_17112 ·

    Agentic RAG 增强 LLM 检索能力,以应对复杂的企业查询

    Agentic Retrieval-Augmented Generation (RAG) 通过赋予 LLM 对检索过程更多的控制权来增强传统的 RAG 系统。Agentic RAG 不仅限于单一检索步骤,而是涉及理解、规划、检索、检查和优化等一系列循环。这种方法旨在使 AI 系统在处理复杂、多步骤的企业查询时更强大、更健壮,尽管它可能会增加延迟和成本。

  14. TOOL · CL_16965 ·

    IBM 详解保护 AI RAG 工作流的加密方法

    IBM 的 Alex Soto 发表了一篇博文,详细介绍了近似距离保持加密 (ADCPE) 如何保护检索增强生成 (RAG) 系统和 AI 应用中的数据。该博文解释了 ADCPE 在这些过程中保护敏感信息的方法。

  15. RESEARCH · CL_17516 ·

    RAG评估系统衡量检索、事实依据和答案忠实度

    检索增强生成(RAG)系统虽然因减少幻觉而广受欢迎,但需要超越简单检索指标的强大评估。这些系统包含两个耦合组件:检索器和生成器,两者都可能独立失败。全面的评估应衡量检索质量、上下文相关性、忠实度(答案是否得到上下文支持)、答案正确性和幻觉率。RAGAS等框架提供基于LLM的指标来量化这些方面,确保改进是数据驱动的,并识别出诸如无事实依据的答案或忽略上下文之类的问题。

  16. TOOL · CL_17118 ·

    免费工具将网站转换为Markdown,适用于LLM和RAG管道

    一位开发者创建了一个免费工具,可以将网站内容转换为Markdown格式,这对于为LLM和RAG管道准备数据至关重要。该工具运行在Apify上,可自动提取干净的Markdown,保留结构、标题、链接和元数据,这与手动解析或其他付费解决方案不同。它旨在简化收集和组织网络数据以用于AI模型训练和内容分析的过程。

  17. TOOL · CL_17509 ·

    TERSE Tool Catalog 将 AI Agent 的 Token 使用量减少了 66.6%

    一项名为 TERSE Tool Catalog (TTC) 的新规范已被引入,以显著减少 AI Agent 工具目录的 Token 使用量。当前的 Model Context Protocol (MCP) JSON Schema 定义冗长且消耗过多的 Token,影响成本和性能。TTC 提供了一种更具语义和更精简的格式,包括明确的用途、触发条件、错误处理和标签字段,平均 Token 减少了 66.6%,同时提高了工具选择的准确性。

  18. TOOL · CL_17467 ·

    机器学习面试准备促使对检索增强生成(RAG)的理解

    作者通过类比推荐系统来解释检索增强生成(RAG)。他们描述了推荐系统如何学习用户偏好并推荐相关项目,这与RAG如何检索相关信息来增强语言模型的响应类似。这种方法旨在为准备机器学习面试的人们阐明RAG的底层机制。

  19. TOOL · CL_17302 ·

    Databricks Vector Search: 优化 embeddings,控制结果,并为 RAG 使用 reranking

    本文概述了在检索增强生成 (RAG) 管道中优化向量搜索的最佳实践,特别是在 Databricks Mosaic AI Vector Search 上。它强调了最小化 embedding 维度、保持适度的结果数量以及选择合适的端点 SKU。该帖子还强调了使用元数据进行过滤的重要性,并解释了何时优先选择近似最近邻 (ANN) 搜索而非混合搜索。

  20. TOOL · CL_17303 ·

    Databricks RAG 管道增加内容陈旧性跟踪以获得更新的结果

    检索增强生成 (RAG) 系统通常无法区分新旧信息,导致用户收到过时的内容。本文提出了一种解决方案,将陈旧性跟踪和新近度加权检索集成到 Databricks RAG 管道中。该方法涉及使用变更数据捕获 (CDC) 对向量搜索索引进行增量更新,并实施识别和优先处理被取代的新文档的机制。