Eugene Yan · PulseAugur

Eugene Yan 分享来自 David Perell 和 Sahil Lavingia 的写作建议

Eugene Yan 的文章提炼了在与 David Perell 和 Sahil Lavingia 的工作坊中学到的关于有效写作的建议。关键要点包括：写你真正感兴趣的话题，保持简洁以实现清晰沟通，以及在成为专家之前就开始写作以分享独特经验。建议还强调为特定受众写作以最大化影响力，并创作充实、有价值的内容而非肤浅的帖子。

COMMENTARY · CL_04773 · May 3 · 00:00

黑客马拉松评委偏爱简单、可执行的点子而非复杂点子

Eugene Yan 回顾了他观察 Lazada 2017 年黑客马拉松的经历，其中一个看似简单的点子——为现有的心愿单功能添加通知——战胜了更复杂、更具野心的项目。获胜团队发现，顾客经常将缺货或价格过高的商品添加到心愿单。他们提出的解决方案将通知买家降价或补货，并通知卖家产品需求，有可能带来显著的销售增长。评委们因为该点子的简单性、可行性及其对执行的直接影响而青睐它，并强调一个专注的调整可以胜过许多雄心勃勃的功能。

COMMENTARY · CL_04775 · Apr 18 · 00:00

Eugene Yan 分享了关于进行有影响力的数据科学演讲的技巧

Eugene Yan 的文章提供了关于进行有效数据科学演示的指导，强调了分享个人经验和教训的价值。他鼓励演讲者不仅要讨论成功，也要讨论失败，因为这些往往能为听众提供更深刻的学习机会。Yan 还强调了包含实证结果和指标来验证所呈现工作的重要性，超越了理论概念。

COMMENTARY · CL_04776 · Apr 12 · 00:00

Eugene Yan 用军事角色来构架初创公司的职业选择

Eugene Yan 使用军事隐喻来描述产品开发和市场探索中的职业选择。他将早期、高风险的未知领域探索比作“突击队员”，他们建立最初的立足点并收集信息。一旦市场显示出潜力，“士兵”就会扩大行动，进行规模化扩张并占领市场份额。最后，引入“警察”来维护成熟市场的稳定、秩序和效率。

COMMENTARY · CL_04777 · Apr 5 · 00:00

Eugene Yan提倡使用Zettelkasten构建互联笔记

Eugene Yan提倡使用Zettelkasten笔记法，并将其与导致想法分散、不连贯的传统方法进行对比。他强调了社会学家Niklas Luhmann的生产力，后者利用一个包含90,000张手写笔记的Zettelkasten系统，发表了大量著作。Yan解释说，Zettelkasten强调在个体想法之间创建链接，从而更容易检索和综合知识，并建议使用Roam Research等数字工具来实现。

COMMENTARY · CL_04778 · Mar 28 · 00:00

Eugene Yan 分享一种新的写作方法，强调写作即学习，而非仅仅是分享

Eugene Yan 提出了一个新的写作框架，强调学习和思考，而不仅仅是内容创作。他建议了一个阅读、笔记和写作的过程，其中笔记是消费和创作之间的关键环节。Yan 提倡持续的阅读习惯，即使是短暂的阅读，并带着写作的目的去阅读以增强理解和专注力。他还强调了有条理的笔记记录的重要性，并提到了 Zettelkasten 方法，以建立一个互联的知识库。

RESEARCH · CL_04779 · Mar 15 · 00:00

Eugene Yan 详细介绍了使用 Jupyter、Papermill 和 MLflow 进行更简单机器学习实验的工作流程

Eugene Yan 的文章详细介绍了一个使用 Jupyter、Papermill 和 MLflow 进行机器学习实验的简化工作流程。这种方法通过使用 Papermill 参数化笔记本以运行多个实验并记录结果，从而避免了笔记本重复和手动跟踪。MLflow 然后集中管理指标和工件，为管理和引用实验结果提供了一个统一的界面，这对于诸如不同地区的欺诈检测或股票指数预测等任务特别有用。

COMMENTARY · CL_04780 · Feb 27 · 00:00

心理学毕业生通过自学在Lazada领导数据科学团队

拥有心理学学位的Eugene Yan分享了他成为Lazada数据科学领导者的非传统道路。尽管缺乏传统的技术背景，Yan通过在线课程和Kaggle竞赛等自学方式获得了Python和机器学习技能。他的职业生涯涉及为了加入IBM培训项目而大幅降薪，并在该项目中表现出色，最终转向数据科学领域，这证明了有效沟通和技能实际应用的重要性。

RESEARCH · CL_00390 · Jan 27 · 21:00

Eugene Yan 和 Practical AI 讨论测试机器学习系统和代码

Eugene Yan 的文章详细介绍了一种测试机器学习系统的综合方法，区分了传统软件测试和特定于机器学习的测试。机器学习测试进一步分为用于实现正确性的预训练测试、用于预期学习行为的后训练测试以及用于性能评估的评估指标。作者使用 DecisionTree 实现和泰坦尼克号数据集来演示这些测试方法，并结合了单元测试、代码覆盖率、代码风格检查和类型检查等实践。

RESEARCH · CL_04782 · Jan 6 · 00:00

Eugene Yan 使用图和 NLP 技术增强推荐系统

Eugene Yan 的博客文章详细介绍了构建优于基线矩阵分解模型的推荐系统的方法。该方法涉及使用自然语言处理 (NLP) 技术，特别是 word2vec，根据产品之间的关系生成产品向量表示。然后，借鉴 DeepWalk 等基于图的学习方法，通过识别相似项来使用这些产品嵌入进行推荐。

COMMENTARY · CL_04785 · Oct 3 · 00:00

Eugene Yan 在 OLX 主旨演讲中讨论亚洲科技巨头和超级应用战略

Eugene Yan 于 2019 年 10 月在 OLX Group 产品与技术会议上发表了主旨演讲，重点关注亚洲科技巨头的战略和超级应用现象。演讲探讨了阿里巴巴和 Grab 等公司如何在多个垂直领域和国家扩展其平台，并将其与美国的解绑趋势进行了对比。Yan 还以 Lazada 为例，讨论了阿里巴巴整合收购的方法。

TOOL · CL_04786 · Aug 25 · 00:00

Eugene Yan 将个人博客从 WordPress 迁移到 Jekyll 以实现免费托管

Eugene Yan 详细介绍了他如何将个人博客从 WordPress 迁移到 Jekyll，目标是在 GitHub Pages 上实现免费托管。他指出，像 LaTeX 支持、可折叠内容和语法高亮等功能已成功集成到新的 Jekyll 网站中。Yan 还提供了其博文的引用信息，并邀请读者订阅以获取机器学习及相关主题的更新。

COMMENTARY · CL_04787 · May 11 · 00:00

Eugene Yan 回顾 OMSCS 交易机器学习课程，重点介绍作业和编码。

Eugene Yan 分享了他对 OMSCS CS7646 (交易机器学习) 课程的经验和见解。他强调了该课程对序列建模的关注及其在金融市场以外的应用，例如在医疗保健领域。Yan 详细介绍了课程结构，强调了 Python 中的八个编码作业以及面向对象编程的重要性，评分脚本提供了初步反馈。

COMMENTARY · CL_04788 · Apr 30 · 00:00

专家称数据科学家做的事情远不止机器学习

Eugene Yan 的文章挑战了对数据科学家的普遍看法，认为该领域常被误解。许多人认为深厚的技术技能、高等数学和博士学位是必不可少的，并且主要职责涉及广泛的机器学习研究。Yan 认为，虽然机器学习是其中一个组成部分，但它通常只占数据科学家日常任务的 20% 以下，而且人们认为的要求往往是不切实际的。

RESEARCH · CL_04784 · Mar 6 · 00:00

Eugene Yan 详述 Parkway Pantai 的账单预测机器学习系统

Eugene Yan 介绍了 uCare.ai 为东南亚最大的医疗保健提供商 Parkway Pantai Group 开发的机器学习系统的案例研究。该系统可估算患者入院前费用，提高透明度和患者体验。该系统的实施显著降低了预测误差，平均绝对误差降低了 55%，均方根误差降低了 60%。Yan 强调，构建此类数据产品是一项团队努力，机器学习仅占整体工作的约 20%，这凸显了工程和方法论的重要性。

COMMENTARY · CL_04781 · Jan 17 · 00:00

Eugene Yan 分享关于推荐系统和数据角色的见解

Eugene Yan 分享了两次 DataScience SG 会议的见解，一次侧重于推荐系统，另一次侧重于数据领域的各种角色。推荐系统讲座探讨了基线方法以及新颖的图和 NLP 技术，详细介绍了从数据采集到结果比较的端到端流程。关于数据角色的小组讨论强调了逻辑思维和编程等基本技能，并强调了好奇心、毅力和谦逊对于职业成功的重要性。两次活动都强调了在快速发展的数据行业中持续自我学习的必要性。

RESEARCH · CL_00333 · Nov 16 · 15:30

探讨机器学习研究进展、系统设计模式及战略性问题选择

Eugene Yan 的系列文章探讨了在实际系统中应用机器学习的实用方面。他强调在实施机器学习之前，应先从启发式方法开始项目，设计模式对于高效的数据处理和系统维护的重要性，以及基于成本效益分析仔细选择问题的必要性。Yan 还详细介绍了部署机器学习模型后遇到的常见挑战，如数据污染和反馈循环，并提出了有效的项目管理和系统维护策略。

COMMENTARY · CL_04790 · Oct 28 · 00:00

Eugene Yan 探讨敏捷和 Scrum 框架在数据科学中的应用以提高效率

Eugene Yan 的文章探讨了敏捷和 Scrum 框架在数据科学团队中的应用，强调了它们的优点和挑战。虽然敏捷的迭代方法、清晰的任务定义和反馈循环很有价值，但数据科学固有的研究导向性质会使估算和范围管理复杂化。Yan 建议采用时间盒迭代、前期项目概述和专门的创新时间等有效方法，以弥合敏捷原则与数据科学现实之间的差距。

COMMENTARY · CL_04791 · Jun 21 · 00:00

大数据与分析峰会 - Lazada 的数据科学挑战

Eugene Yan 分享了他关于在 Lazada 构建和扩展数据科学团队的经验见解，重点指出了三个关键挑战。这些挑战包括：确定业务输入与自动化决策的适当平衡点、管理开发速度与生产稳定性之间的关系，以及如何与业务利益相关者有效确定任务优先级。Yan 详细阐述了在产品排名等领域过度手动干预可能对网站性能产生的负面影响，因此需要通过数据驱动的 A/B 测试来确定手动调整的最佳阈值。

COMMENTARY · CL_04792 · Apr 25 · 00:00

Eugene Yan 分享 Lazada 如何利用数据科学促进电子商务

数据科学副总裁 Eugene Yan 近日在 INSEAD 发表讲座，介绍了 Lazada 在电子商务中应用数据科学和机器学习的案例。他重点介绍了两个关键用例：自动化的用户评论分类，显著减少了人力和成本；以及产品排名，提高了转化率和收入。Yan 还分享了他个人进入数据科学领域的历程，并就如何掌握相关技能和工具提供了建议，包括免费在线课程和实践项目经验。