Eugene Yan · PulseAugur

Eugene Yan 详解如何通过 Utterances 将网站评论迁移至 GitHub Issues

Eugene Yan 详解了一个将网站评论迁移至 Utterances 的过程，Utterances 是一个使用 GitHub Issues 来管理评论的系统。迁移过程包括创建一个专用仓库、配置 Utterances，并使用 GitHub API 从之前的 Commento 系统导入评论。关键一步是将 Commento 的 JSON 导出转换为 GitHub API 创建 Issue 所需的格式。此方法允许评论以 GitHub Iss…

COMMENTARY · CL_04753 · Sep 4 · 00:00

开发者询问是否需要机器学习来实现99%准确率的PDF数据提取

一位开发者询问是否应使用机器学习来改进PDF数据提取，特别是处理导致提取失败的报价单中的拼写错误和打字错误。作者建议不要使用机器学习，并提出使用诸如Levenshtein距离进行单词匹配和仔细的数据库查找等确定性逻辑会更有效、更简单。作者强调，并非总是需要达到100%的准确率，而当前的99%召回率已经是一个很强的性能。

COMMENTARY · CL_04717 · Sep 3 · 00:00

Eugene Yan 详述其非传统的数据科学领导之路

数据科学专业人士 Eugene Yan 分享了他的职业生涯见解，他最初的心理学背景，后来转型到 IBM、Lazada 和 Amazon 等公司的数据科学岗位。他强调了持续学习、自主项目以及抓住机会的重要性，即使这些机会是意料之外的。Yan 还讨论了他通过写作和演讲分享知识的方法，强调真实性和为听众提供有价值的实用细节。

RESEARCH · CL_04754 · Aug 30 · 00:00

研究比较BERT和T5在NER上的表现；文章推崇论文阅读对数据科学家的益处

一篇新的arXiv论文详细介绍了一项研究，该研究比较了BERT和T5模型在命名实体识别（NER）上的表现，分析了它们在不同标签方案和超参数下的性能。研究旨在提供对常见错误的见解，并比较这两种架构在实际应用中的优劣。另外，一篇文章讨论了阅读研究论文对数据科学家的好处，强调了通过学习现有工作和了解最新进展来提高效率。

COMMENTARY · CL_04755 · Aug 27 · 00:00

一位高级数据科学家分享如何应对冒名顶替综合症的建议

高级数据科学家 Eugene Yan 回应了一位名叫 J 的读者，J 在晋升到高级职位后表达了冒名顶替综合症。Yan 建议 J，高级职位的期望包括成为榜样、参与设计讨论以及实施最佳实践。他还分享说，他个人专注于服务客户，头衔是在他表现出色之后才获得的，而不是相反。

COMMENTARY · CL_04756 · Aug 23 · 00:00

“专家新手”因将狭隘成功误认为真正专业知识而面临停滞风险

Eugene Yan 的文章讨论了“专家新手”的概念，即在狭窄领域取得一定成功，但未能认识到更广泛的背景和持续学习的必要性。这可能导致停滞不前、抵触新想法以及更有野心的团队成员的离开。作者以一位 HR 数据科学家为例，他使用 R 和 Shiny 自动化任务，被视为专家，但却不理解更深层次的验证或部署原则。这种现象可能导致团队由技能有限、实践过时的个体组成，阻碍创新和增长。

COMMENTARY · CL_04757 · Aug 9 · 00:00

不受欢迎的观点：数据科学家应该更加端到端

Eugene Yan 认为，数据科学家应该在其工作中采取更端到端的方法，涵盖问题定义、数据工程、模型开发和部署。他认为专业化会导致协调开销和对全局背景的丢失，可能导致次优解决方案。通过采用端到端的方法，数据科学家可以更好地识别根本原因，开发更全面的解决方案，并最终提供更大的价值。

RESEARCH · CL_04673 · Aug 5 · 00:00

Eugene Yan 使用 FastHTML、Next.js 和 SvelteKit 构建 Web 应用

Eugene Yan 详细介绍了使用包括 FastHTML、Next.js 和 SvelteKit 在内的各种现代框架构建 Web 应用程序的经验。他通过在每个框架中实现相同的数据操作应用程序来比较它们的开发者体验。Yan 还探讨了使用交互式元素（如复选框和下载按钮）扩展 FastAPI 应用程序，演示了如何处理表单提交和文件响应。

COMMENTARY · CL_04759 · Aug 2 · 00:00

我在学校里没学到的写作技巧

Eugene Yan 分享了关于提高非虚构写作的见解，强调有效的写作需要大量的准备工作，而不仅仅是写作本身。他指出，大部分工作发生在起草之前，通过阅读、交流和经验来完成，其中做笔记和建立联系是关键步骤。Yan 还讨论了写作的固有难度，引用了 Roy Peter Clark、Nick Maggiulli、William Zinsser 和 Stephen King 等知名作家提出的建议，说明掌握写作技巧来自于持续的努力和克服挑战，而不是天生的轻松。

RESEARCH · CL_04761 · Jul 23 · 00:00

Eugene Yan 详细介绍FastAPI、Jinja和HTML表单集成以构建Web应用

Eugene Yan 发布了一篇指南，详细介绍了如何使用FastAPI、Jinja和HTML表单创建HTML应用程序。该文章通过解释如何使用Yan最近从Flask迁移过来的框架FastAPI来提供HTML内容，填补了现有文档的空白。本教程包括设置必要依赖项、创建基本REST API以及集成Jinja模板以实现动态网页的代码示例，并提供了一个GitHub仓库供参考。

COMMENTARY · CL_04762 · Jul 19 · 00:00

数据科学家必须记录项目以实现可重复性和知识共享

数据科学项目常常因版本控制不佳和可重复性问题而受阻，尤其是在使用像Git这样的工具处理Jupyter notebooks时。虽然在notebooks中包含单元格输出对于共享很有用，但它会产生巨大的差异，模糊代码更改并阻碍协作。为解决这个问题，实践者可以将notebooks转换为Python脚本，使用nbdime或jupytext等专用工具，或采用将Python文件作为notebook运行的工作流程。通过文档记录和知识共享对已完成的项目…

TOOL · CL_04764 · Jul 11 · 00:00

Eugene Yan 使用 Python 和 Actions 自动化 GitHub Profile README 更新

Eugene Yan 详细介绍了一种通过自动更新 GitHub Profile README 来展示最新博文的方法。该过程涉及使用 Python 的 feedparser 库从 Atom feed 获取条目，然后更新 README 文件中的特定注释块。GitHub Actions 被配置为每天自动执行此更新，确保个人资料始终显示最新内容，无需手动干预。

COMMENTARY · CL_04765 · Jul 9 · 00:00

Eugene Yan 探讨最佳表现和福祉的“85%法则”

Eugene Yan 的文章讨论了“85%法则”，这是一个由休·杰克曼（Hugh Jackman）和蒂姆·费里斯（Tim Ferriss）推广的概念，该概念表明，有时付出100%的努力会带来收益递减，而以85%的 क्षमता 运作则能获得更好的结果。这种方法强调放松、最佳状态和肌肉效率，并与运动表现进行类比，因为过度劳累会导致倦怠和受伤。该法则提倡一种更可持续、更愉快的工作方式，鼓励休息和放松以获得更好的长期成果。

RESEARCH · CL_04766 · Jun 28 · 00:00

Spark+AI Summit 2020：笔记涵盖特征工程、数据质量和模型效率

Eugene Yan 撰写的 Spark+AI Summit 2020 笔记涵盖了深度学习和数据工程中的实际应用和通用性会谈。特定应用会话重点介绍了 Airbnb 的 Zipline 等特征工程框架和 Sputnik 数据工程框架，以及 Gojek 的 Feast 和 Netflix 的数据质量方法。通用性会谈则侧重于通过模型剪枝、量化和蒸馏等技术提高深度学习效率，并引用了 IBM 和 Instagram 的示例。

COMMENTARY · CL_04768 · Jun 21 · 00:00

Eugene Yan 探讨数据科学与业务整合及模型开发问题

Eugene Yan 的最新博文解答了关于数据科学在商业环境中实际应用中的常见问题。他澄清说，项目早期会确定业务需求和期望成果，以确保交付物得到利用。Yan 指出，虽然最初倾向于使用更简单的模型，但随着信任的建立，更复杂的“黑箱”方法也变得可以接受。他还谈到了特征工程、数据工程角色以及确定模型何时足够优化的挑战。

TOOL · CL_04767 · Jun 21 · 00:00

如何为自动化和协作设置 Python 项目

Eugene Yan 的文章概述了一种强大的 Python 项目设置方法，以增强自动化和协作。该方法侧重于集成自动化检查，如单元测试、类型检查和代码 linting，这些检查可以通过单个命令在本地触发，或在每次 Git 推送时在远程触发。关键步骤包括使用 pyenv 等 Python 版本管理器、使用 venv 和 pip 设置虚拟环境，以及建立一致的项目结构以简化开发工作流程。

COMMENTARY · CL_04769 · Jun 17 · 00:00

Eugene Yan 解释 Airflow 的 ETL 作业调度延迟

Eugene Yan 的文章阐明了关于 Airflow 作业调度的一个常见混淆点，解释说 Airflow 作业被设计为在计划时间段结束后“一个时间间隔后”运行。与在精确计划时间执行的 cron 作业不同，Airflow 的设计确保了计划用于特定日期的作业，例如，要等到该日期结束后才会开始处理。这种方法对于 ETL 等任务非常有利，因为给定期间的数据需要完全可用后才能开始处理。

COMMENTARY · CL_04763 · Jun 15 · 00:00

Eugene Yan 分享数据科学项目成功策略：规划、执行和沟通

Eugene Yan 概述了执行数据科学项目的最佳实践，强调了清晰计划和有效沟通的重要性。他建议从文献综述开始，以借鉴现有研究，并使用 Jupyter notebooks 等工具进行快速实验。Yan 还强调了每日站会对于保持团队一致和及早发现潜在障碍的价值。

COMMENTARY · CL_04770 · Jun 7 · 00:00

Eugene Yan 发现 Scrum 对数据科学项目有价值

Eugene Yan 分享了他对在数据科学项目中使用 Scrum 方法论不断变化的看法。起初，他抵制其结构化方法，特别是关于估算和迭代返工的可能性，但 Yan 发现，限时迭代、优先级排序和回顾会议变得非常有价值。他强调，限时有助于数据科学团队管理面向研究的任务，这些任务的结果通常不确定，方法是将学习视为可交付成果，并限制资源分配以防止在探索中迷失方向。

COMMENTARY · CL_04771 · May 31 · 00:00

克罗克法则：将反馈视为成长的礼物，而非冒犯

Eugene Yan 的文章探讨了克罗克法则，该法则提倡关注改进内容，而不是对反馈做出情绪化反应。这个概念以维基百科编辑 Crocker 和 Shopify 首席执行官 Tobi Lutke 为例，表明应将反馈视为成长的礼物。文章深入探讨了信念坚持和认知失调等心理现象，解释了为什么人们即使在收到建设性反馈时也常常抵制或忽视反馈，最终强调了接受批评以促进个人发展的重要性，尽管这很困难。