Eugene Yan · PulseAugur

Eugene Yan shares insights on LLM system building and AI engineering trends

Eugene Yan presented key learnings from building with Large Language Models (LLMs) at the AI Engineer World's Fair 2024. The keynote, co-authored with others, focused on practical aspects of LLM system development, incl…

RESEARCH · CL_04682 · Sep 3 · 00:00

Eugene Yan 探讨生成式摘要的评估挑战及幻觉检测

对生成式摘要（即非逐字复制原文句子，而是进行意译重述）的评估存在挑战，尤其是在衡量相关性和事实一致性方面。虽然现代语言模型在流畅性和连贯性方面已基本解决问题，但相关性的衡量仍然主观。事实不一致性，即幻觉的检测是关键焦点，研究表明生成摘要存在显著的错误率，例如在CNN/DailyMail数据集上高达30%。常见的评估方法包括基于n-gram的指标（如ROUGE）和基于嵌入的指标，以及用于幻觉检测的自然语言推理和问答技术。

TOOL · CL_04684 · Jun 11 · 00:00

Eugene Yan builds Obsidian-Copilot to assist writing and reflection

Eugene Yan has developed a prototype tool called Obsidian-Copilot, designed to assist with writing and personal reflection. The tool functions by first chunking documents, prioritizing top-level bullets for notes, and t…

TOOL · CL_04686 · May 7 · 00:00

Eugene Yan 编译可商用开源大型语言模型列表

Eugene Yan 编译了一个可供商业用途的开源大型语言模型（LLMs）列表。该资源旨在满足对具有商业许可的 LLMs 的需求，特别是对于关注法律和隐私问题的应用。该列表已获得社区贡献，包括新增模型以及对许可和上下文长度等技术细节的澄清。

COMMENTARY · CL_04687 · Apr 30 · 00:00

Eugene Yan 探讨超越聊天的 LLM 界面以获得更好的用户体验

Eugene Yan 提出了与大型语言模型进行交互的替代用户体验，超越了传统的聊天界面。他建议，对于在线购物等任务，用户可能更喜欢视觉和交互式方法，而 LLM 则提供上下文感知帮助，而不是仅仅依赖文本输入。Yan 的原型演示了一个结合了推荐引擎和 LLM 的系统，允许用户根据他们过去的行为和偏好过滤商品并获得个性化建议，从而最大限度地减少了大量聊天的需求。

RESEARCH · CL_04688 · Apr 16 · 00:00

Eugene Yan builds Raspberry-LLM to add AI smarts to low-resource Pico

Eugene Yan developed Raspberry-LLM, a project that integrates a large language model with a Raspberry Pi Pico, a low-resource microcontroller. This setup allows the device to interact with external data sources like RSS…

COMMENTARY · CL_04689 · Mar 19 · 00:00

LLM-powered Biographies

Eugene Yan experimented with several large language models, including GPT-4, Claude-v1.2, and Cohere-xlarge, by asking them to generate his biography. He observed that while the models captured the general essence of hi…

RESEARCH · CL_04690 · Mar 12 · 00:00

Eugene Yan 详述如何撰写有效的数据标注指南

撰写有效的数据标注指南需要仔细考虑几个关键问题，以确保准确性和一致性。这些指南应清晰阐述任务的重要性，定义其范围和术语，并为标注员提供分步说明。包含示例、用户意图解释以及诸如“查询”和“区域设置”等术语的定义，有助于校准标注员并提高评估者之间的一致性。该过程还包括解释如何使用标注工具和平台，以及处理任务的后勤方面。

COMMENTARY · CL_04691 · Feb 26 · 00:00

Content moderation and fraud detection rely on human-in-the-loop and ML patterns

Eugene Yan's article outlines five key patterns for building effective content moderation and fraud detection systems. These patterns emphasize collecting ground truth data through human input, augmenting this data, bre…

COMMENTARY · CL_04692 · Feb 5 · 00:00

高效技术团队的机制

Eugene Yan 的文章概述了提高技术团队（尤其是参与机器学习的团队）生产力和有效性的几种机制。关键实践包括用于非正式知识共享和反馈的周终汇报（EOWDs），以及用于深入探讨特定机器学习技术、工具或技能的学习会议。文章还强调了季度回顾的重要性，以确保团队与更广泛的业务和产品优先事项保持一致，并借鉴了 Netflix“高度一致、松散耦合”的理念。

TOOL · CL_04693 · Jan 15 · 00:00

Eugene Yan 从 Roam Research 转向 Obsidian 进行笔记记录

Eugene Yan 详细介绍了他从 Roam Research 迁移到 Obsidian 的过程，他发现这个过程出奇地简单，并且在一个小时内就完成了。他概述了涉及的步骤，包括下载笔记、整理图片以及使用正则表达式修复标签格式问题。Yan 还讨论了设置 obsidian-git 以实现跨设备同步，并分享了他对 Obsidian 相较于 Roam Research 在性能和可定制性方面的初步积极印象。

COMMENTARY · CL_04694 · Jan 8 · 00:00

Eugene Yan 提供了团队面对不合作依赖团队的策略

Eugene Yan 的文章讨论了团队间依赖的常见挑战，特别是当机器学习团队需要数据或基础设施团队的协助时。文章建议超越简单的升级，首先寻求理解依赖团队的限制和优先级。Yan 提出了一些策略，例如协作解决问题、建立信任以及将请求视为投资，以促进互利共赢并解除进展障碍。

COMMENTARY · CL_04695 · Dec 24 · 00:00

Eugene Yan reviews 2022, detailing career growth, writing goals, and investment thesis

Eugene Yan's 2022 review highlights personal and professional achievements, including writing 18 posts on technical topics like text-to-image and machine learning techniques. He was promoted from L5 to L6, focusing on M…

COMMENTARY · CL_04697 · Sep 23 · 00:00

RecSys 2022 主旨演讲 - 值得付出努力吗？

Eugene Yan 在 RecSys 2022 在线推荐系统与用户建模研讨会上发表了主旨演讲。他的演讲题为“在线推荐系统：值得付出努力吗？”，探讨了批处理推荐系统与在线推荐系统之间的权衡。Yan 先生通过亚马逊图书的三个案例研究，阐述了在线推荐系统的优势，并分享了其在实施过程中吸取的经验教训。

RESEARCH · CL_04698 · Sep 4 · 00:00

Eugene Yan 详细介绍了数据和机器学习管道的健壮测试策略

Eugene Yan 的文章探讨了为数据和机器学习管道创建更具韧性的测试的方法。作者讨论了为什么即使新代码是正确的，现有测试也经常失败，并将其归因于测试本身脆弱的性质。Yan 通过检查单元测试和集成测试等不同的测试范围，并分析新数据和逻辑对测试有效性的影响，提出了改进管道测试的策略。

COMMENTARY · CL_04699 · Aug 14 · 00:00

Complexity bias favors complex ideas over simpler ones, despite benefits of simplicity

Eugene Yan argues that complexity is often favored over simplicity in technical fields due to a bias that equates complexity with effort, mastery, innovation, and more features. This bias leads to complex systems being …

COMMENTARY · CL_04701 · Jun 26 · 00:00

Eugene Yan advocates for weekly 15-5 updates to boost team visibility and trust

Eugene Yan advocates for a weekly 15-5 update, a brief report designed to take 15 minutes to write and 5 minutes to read. This practice enhances team visibility by tracking work, outcomes, and blockers, thereby reducing…

COMMENTARY · CL_04702 · May 22 · 00:00

Eugene Yan 分享关于科技岗位有效入职的建议

Eugene Yan 的文章为有效入职新科技岗位提供了建议，强调了个人对入职过程的掌控。他建议主动明确期望、制定100天计划并与同事建立关系。Yan 还提倡采用“初学者心态”，在不立即试图改变现有实践的情况下对其提出疑问，并在提出修改建议之前尊重既有系统。

RESEARCH · CL_04703 · Apr 17 · 00:00

Eugene Yan 解释了如何衡量和缓解推荐中的位置偏差

位置偏差是指排名靠前的项目无论相关性如何都会获得更多参与度，这对推荐系统提出了挑战。这种偏差可能源于用户对算法的信任、展示效果或在找到满意结果后停止搜索的倾向。为了解决这个问题，可以采用随机化结果位置或利用日志数据中固有的随机性等方法来衡量和缓解位置偏差的影响，确保真正相关的项目不会被忽视。

RESEARCH · CL_04704 · Apr 10 · 00:00

Eugene Yan 解释推荐系统的反事实评估

Eugene Yan 的文章讨论了推荐系统传统离线评估的局限性，认为它们将干预性问题视为观察性问题。当前方法评估推荐与历史数据的匹配程度，而不是预测用户对新推荐的行为。作者提出反事实评估，特别是使用逆倾向评分（IPS），作为一种在没有实时 A/B 测试的情况下估计新推荐影响的方法。