Association for Computational Linguistics
PulseAugur coverage of Association for Computational Linguistics — every cluster mentioning Association for Computational Linguistics across labs, papers, and developer communities, ranked by signal.
2 天有情绪数据
-
教育自然语言处理研究忽视教师需求,偏向私营部门
对2024-2025年教育自然语言处理(EduNLP)研究的204篇论文进行的系统性回顾,揭示了私营部门激励机制与教育需求之间的脱节。回顾发现,尽管教师受到重大影响,但他们在该研究的受益者中代表性不足。此外,这些技术的实际部署仍然 infrequent,并且伦理考量常常被承认而非积极实施。
-
机器学习研究员质疑参加非存档ICML研讨会的价值
一位机器学习研究员正在寻求建议,询问是否值得参加ICML的一个非存档研讨会,考虑到注册费和个人开销。该研究员的论文已被该研讨会录用,并正在考虑其对即将到来的博士申请的好处。他们还询问了关于非存档研讨会的一般惯例,例如典型的作者出席情况和注册要求。
-
GPT-3.5-Turbo在长提示中处理中间信息时遇到困难
一项研究发现,当答案位于长提示(特别是20k token上下文窗口)的中间时,GPT-3.5-Turbo的准确率会显著下降。这一现象在论文“Lost in the Middle: How Language Models Use Long Contexts”中有记载,归因于Transformer模型中的注意力模式,这种模式偏好提示的开头或结尾的信息,而忽略中间部分。这个问题并非检索错误,而是由于训练数据限制导致模型注意力权重在中心区域衰减。
-
机器学习研究人员寻求匿名数据上传方法以供会议投稿
一位 Reddit r/MachineLearning 版块的用户正在寻求关于如何匿名上传数据集以供 ACL 和 EMNLP 等会议学术投稿的建议。他们担心 Hugging Face 等平台即使在付费套餐中也提供下载跟踪,这可能会违反这些会议的匿名政策。该用户正在寻找匿名数据共享的研究替代方法或关于可接受实践的澄清。
-
影子 LLM API 用更便宜的模型欺骗研究人员
CISPA 的研究人员审计了 17 个第三方“影子”LLM API,并发现了与其声称代表的官方模型相比,存在显著的性能差异。这些服务通常提供更便宜或完全不同的模型访问权限,导致学术研究的准确性下降。该研究确定了三种常见的替换模式:静默降级、跨供应商替换和基于上下文长度的部分路由,简单的指纹测试能够检测到其中许多欺骗行为,但并非全部。
-
ACL 和 arXiv 禁止包含 AI 幻觉的论文
计算语言学协会 (ACL) 和 arXiv 都实施了新政策,禁止包含 AI 生成幻觉的研究论文。此举旨在维护学术诚信,防止研究界传播错误信息。这些政策将影响未来会议和预印本档案的投稿。
-
LLMs在文献综述中普遍使用,但人工监督仍至关重要
大型语言模型(LLMs)的使用在进行文献综述的过程中现已广泛普及。然而,这些工具不能替代作者细致的人工监督和责任。无论是直接还是通过自动化系统,伪造引文都构成严重的道德违规。
-
新的 AI 工具探查 LLM 的不确定性和事实性弱点
研究人员开发了两种评估大型语言模型(LLM)的新方法。SelfReflect 评估 LLM 报告的自身不确定性是否与其真实的响应变异性一致,发现通常不一致,除非模型经过自身答案示例的专门训练。另一方面,KGLens 将知识图谱转化为测试问题,以查明模型的知识弱点并绘制其在不同知识领域的可靠性。
-
新研究批评数据标注中的“共识陷阱”和“真实依据”幻觉
一篇新论文批评了机器学习数据标注中“真实依据”的概念,认为人类的分歧常常被视为噪音而非有价值的信号。研究强调了位置可读性、对模型辅助标注的依赖以及地理霸权等因素如何导致“共识陷阱”。作者提出,应从寻求单一正确答案转变为描绘人类经验的多样性,以构建更具文化适应性的AI模型。