PulseAugur
实时 02:43:53
实体 large-language models

large-language models

PulseAugur coverage of large-language models — every cluster mentioning large-language models across labs, papers, and developer communities, ranked by signal.

Show in brief
总计 · 30天
474
90 天内 474
发布 · 30天
0
90 天内 0
论文 · 30天
362
90 天内 362
层级分布 · 90 天
关系
时间线
  1. 2026-05-25 research_milestone A study found that large language models exhibit persistent biases when providing guidance on religious conversions. 来源
  2. 2026-05-22 research_milestone A study evaluated LLM performance in psychiatric screening, finding varying accuracy and a tendency to discount symptom evidence in certain contexts. 来源
  3. 2026-05-21 research_milestone A new framework was proposed to improve cross-lingual cultural knowledge alignment in LLMs. 来源
  4. 2026-05-18 research_milestone A paper was published detailing multilingual jailbreaking vulnerabilities in LLMs using low-resource languages.
  5. 2026-05-18 research_milestone A study found that LLMs corrupt document content in delegated workflows. 来源
  6. 2026-05-18 research_milestone Large language models demonstrated zero-shot goal recognition capabilities in a new study.
  7. 2026-05-16 research_milestone A new benchmark and dataset are introduced for evaluating LLMs on legal precedent classification.
  8. 2026-05-15 research_milestone A new paper proposes using LLMs for data augmentation to improve cognitive score prediction from speech. 来源
  9. 2026-05-15 research_milestone A study was published on arXiv evaluating LLM reasoning in tax law and proposing neuro-symbolic alternatives. 来源
  10. 2026-05-15 research_milestone Development of a new framework for AI value alignment and introduction of the DailyDilemmas test by Cornell University. 来源
  11. 2026-05-15 research_milestone Researchers identified an implementation fidelity gap in LLMs, showing they can understand algorithms but struggle to code in unseen languages. 来源
  12. 2026-05-13 research_milestone LLMs demonstrated superior accuracy, speed, and cost-effectiveness in transcribing historical handwriting compared to specialized software. 来源
  13. 2026-05-13 research_milestone A new method for LLM adaptation using active information seeking was published on arXiv. 来源
  14. 2026-05-12 research_milestone A research paper demonstrates that LLMs exhibit bias towards sponsored products, but this can be mitigated with specific user prompts. 来源
  15. 2026-05-12 research_milestone A new paper proposes a behavior-based approach for federated fine-tuning of LLMs. 来源
情绪 · 30 天

26 天有情绪数据

最近 · 第 1/10 页 · 共 200 条
  1. COMMENTARY · CL_50075 ·

    针对AI工程工作负载评估Python并发模型

    本文探讨了Python的并发模型——asyncio、线程和多进程——以及它们在AI工程任务中的有效性。文章提供了基准测试,展示了每种方法在本地大型语言模型上的表现。目的是指导AI工程师为其特定工作负载选择最合适的并发策略。

  2. COMMENTARY · CL_49823 ·

    人工智能模型可能正在侵蚀我们消费长篇内容的能力

    作者认为,现代人工智能模型,特别是大型语言模型,正在导致社会处理长篇内容的能力下降。这种转变的特点是偏爱更短、更易于理解的信息,可能导致深度理解和批判性思维能力的丧失。

  3. COMMENTARY · CL_48611 ·

    AI时代的核心风险:高级工程师的价值计算,LLM优化技术支持

    根据对Ben Horowitz《*创业维艰*》一书的引用讨论,一位高级AI工程师的价值计算能力是AI时代的主要风险。核心原则是员工的产出和个人收益必须平衡;然而,AI将个人产出提高十倍的潜力打破了这种平衡。这种不平衡对在不断发展的技术格局中维持动力和公平薪酬构成了重大挑战。此外,另一篇文章探讨了大型语言模型如何在一个大型控股公司中优化技术支持运营,并审视了这种整合的潜在长期后果。

  4. MEME · CL_48490 ·

    AI对齐问题被比作洛夫克拉夫特式怪物

    大型语言模型的对齐问题正被比喻为洛夫克拉夫特式的怪物,通常是克苏鲁,并带有象征人类界面的笑脸。最近,前谷歌CEO埃里克·施密特因推广AI而在亚利桑那大学毕业典礼上被嘘的事件,进一步为这种意象提供了背景。

  5. COMMENTARY · CL_48471 ·

    大型语言模型引发对开源代码训练的伦理担忧

    文章讨论了大型语言模型(LLMs)如何使用包括开源代码在内的大量数据进行训练,这引发了伦理和法律问题。虽然从传统意义上讲并非技术上的“盗窃”,但在未经明确许可的情况下,将受版权保护或已获得许可的代码用于商业人工智能训练,已成为日益增长的担忧。这种做法可能会破坏开源社区及其许可模式。

  6. TOOL · CL_48898 ·

    新的大型语言模型(LLM)引导方法使用稀疏查询特征实现精确控制

    研究人员开发了一个名为“基于原型的稀疏引导”(Prototype-Based Sparse Steering)的新框架,以增强对大型语言模型(LLMs)的控制。该方法利用稀疏自编码器(SAEs)分析注意力机制内的查询激活,从而能够更精确地操纵LLM的输出。该框架已在受控环境中证明了其满足逻辑规划约束的能力,并在教育环境中调整反馈的认知复杂性,展示了其在控制生成逻辑和风格方面的多功能性。

  7. TOOL · CL_48880 ·

    新框架指导LLM层更新以实现高效的预训练

    研究人员开发了LayerTracer,一个用于指导大型语言模型层在持续预训练过程中选择性更新的新框架。该方法分析层的表示演变和敏感性,以识别哪些层对于任务执行和稳定性至关重要。实验表明,与全参数微调或反向策略相比,冻结深层而训练浅层在C-Eval和CMMLU等基准测试上能带来更好的性能。

  8. TOOL · CL_48874 ·

    新的SFT目标在有能力的LLM上优于NLL

    研究人员探索了大型语言模型监督微调(SFT)的替代目标,超越了标准的负对数似然(NLL)。他们的研究通过在各种模型和基准上进行大量实验,揭示了不同的目标根据模型的性能表现更好。对于能力更强的模型,降低低概率token权重的目标更有效,而对于能力较弱的模型,NLL表现最佳。

  9. TOOL · CL_48871 ·

    InfiGFusion 通过图对logit蒸馏融合大语言模型

    研究人员开发了InfiGFusion,一个用于融合异构开源大语言模型的新框架。该方法使用图对logit蒸馏(GLD)损失来模拟token间的语义依赖关系,这是先前方法所忽略的。InfiGFusion显著提高了融合质量和稳定性,在11个基准测试中表现优于最先进的基线模型,尤其是在复杂推理任务方面。

  10. TOOL · CL_48839 ·

    新框架通过知识注入提升低资源Text-to-SQL模型性能

    研究人员开发了一个新的知识感知框架,以改进Text-to-SQL模型,特别是在低资源环境下。该方法构建了一个包含模式语义、业务逻辑和查询模式的任务特定知识库。通过在训练和推理中注入这些知识,该框架生成多样化的合成数据并提高模型性能,在开源和闭源大型语言模型的七个基准测试中均显示出显著改进。

  11. TOOL · CL_48817 ·

    新的VI-CuRL框架在无外部验证器的情况下稳定大型语言模型推理

    研究人员开发了VI-CuRL,一个旨在稳定大型语言模型强化学习的新框架,无需依赖外部验证器。该方法利用模型内部的置信度来指导训练,有效减少方差并防止常见的训练崩溃。VI-CuRL在各种推理基准测试中已显示出比现有方法更高的稳定性和性能。

  12. TOOL · CL_48811 ·

    ZipMoE 系统实现了大型语言模型的高效设备端服务

    研究人员开发了 ZipMoE,这是一个旨在提高混合专家(MoE)大型语言模型在设备端部署效率的系统。ZipMoE 利用无损压缩和缓存亲和调度方法,在不牺牲模型准确性的前提下,减小了内存占用并提高了推理速度。实验表明,在边缘设备上,延迟显著降低,吞吐量显著提高,推理瓶颈从 I/O 转移到了计算。

  13. TOOL · CL_48802 ·

    GILT模型提供无LLM、无微调的图学习

    研究人员推出GILT,这是一种新颖的图基础模型,旨在克服处理异构图数据的局限性。与依赖大型语言模型或需要大量每图微调的现有模型不同,GILT在没有LLM的情况下运行,并从上下文中动态适应新任务。这种无需微调的方法使GILT能够处理通用数值特征,并比现有方法更有效地实现强大的少样本性能。

  14. TOOL · CL_48800 ·

    新框架解耦大型语言模型意见偏见

    已开发出一个新的贝叶斯框架,用于解耦模拟人类意见动态的大型语言模型中的交互和偏见效应。该框架量化了主题、一致性和锚定偏见,发现虽然意见轨迹会随着时间收敛,但不同大型语言模型之间的偏见各不相同。研究还表明,在有观点的陈述上对大型语言模型进行微调可以改变其默认立场,突显了使用大型语言模型作为人类行为代理的潜力和局限性。

  15. TOOL · CL_48782 ·

    新的LLM系统利用跨会话证据检测直播风险

    研究人员开发了CS-VAR,一个旨在检测直播平台上的诈骗和恶意行为等风险的新颖系统。该系统利用检索增强型大型语言模型(LLM)来分析不同直播会话中的证据,识别可能被忽视的重复模式。CS-VAR采用两层方法,一个轻量级模型在LLM的广泛洞察指导下进行快速、实时的风险推断,从而实现高效且可解释的审核。

  16. TOOL · CL_48779 ·

    新的基准评估多模态RAG系统

    研究人员开发了FATHOMS-RAG,这是一个旨在评估检索增强生成(RAG)系统端到端性能的新基准。该框架评估RAG管道在文本、表格和图像等各种数据模态中摄取、检索和推理的能力。研究发现,闭源RAG管道的性能通常优于开源管道,尤其是在处理复杂的多模态和跨文档信息时。

  17. TOOL · CL_48740 ·

    研究发现:LLM 生成的代码包含严重安全漏洞

    一项新的研究论文分析了七种流行的大型语言模型(LLM)生成的代码的安全性。研究发现,所有评估的 LLM 都生成了包含漏洞的代码,其中相当一部分是严重或高危级别的。这项研究强调了将 AI 生成的代码集成到生产环境中可能存在的安全风险,即使是在大型科技公司内部。

  18. TOOL · CL_48731 ·

    AI框架MadEvolve使用LLM优化交易系统

    研究人员开发了MadEvolve,一个受DeepMind的Alpha-Evolve启发的框架,用于使用大型语言模型优化交易系统。该方法在量化金融任务中显示出显著的改进,包括进化用于信号生成的特征集和优化交易策略组件。MadEvolve与Claude Code等其他智能体搜索方法进行了比较,有力地支持了AI驱动的进化算法在算法交易中的应用。

  19. TOOL · CL_48720 ·

    开源LLM显示出政治偏见,一项新的红队测试研究发现

    研究人员开发了一个新框架,用于测试开源大型语言模型(LLM)如何被用于在线传播政治影响力。他们的研究评估了来自不同家族和国家的30多个LLM,发现这些模型普遍更愿意生成倾向左翼的内容。研究还表明,更大的模型往往具有更窄的政治表达范围,并且其输出存在显著的地区差异。

  20. TOOL · CL_48707 ·

    新AI工作流可自动从服务描述中计算KVI

    研究人员开发了KPI2KVI,这是一种新颖的多智能体工作流,旨在从非结构化的服务描述中自动计算关键价值指标(KVI)。该系统利用大型语言模型提取相关的KVI类别,生成特定的关键绩效指标(KPI),收集或估算KPI值,并计算具有可追溯解释的区间值KVI输出。模拟表明,KPI2KVI能够一致地将服务描述映射到KVI区间,为审计和咨询提供透明的叙述。