Apache Spark
PulseAugur coverage of Apache Spark — every cluster mentioning Apache Spark across labs, papers, and developer communities, ranked by signal.
6 天有情绪数据
-
探讨机器学习研究进展、系统设计模式及战略性问题选择
Eugene Yan 的系列文章探讨了在实际系统中应用机器学习的实用方面。他强调在实施机器学习之前,应先从启发式方法开始项目,设计模式对于高效的数据处理和系统维护的重要性,以及基于成本效益分析仔细选择问题的必要性。Yan 还详细介绍了部署机器学习模型后遇到的常见挑战,如数据污染和反馈循环,并提出了有效的项目管理和系统维护策略。
-
Data science career guides offer essential tools, skills, and job search advice
Eugene Yan's article outlines essential tools and skills for aspiring data scientists, emphasizing SQL, Python/R, and Spark for data manipulation and analysis. He also highlights the importance of foundational knowledge…
-
Eugene Yan 评述 Martin Odersky 的 Scala 函数式编程课程
Eugene Yan 分享了他学习 Coursera 上一门关于 Scala 函数式编程课程的经历,该课程由语言设计者 Martin Odersky 讲授。这门为期六周的课程涵盖了 Scala 基础知识、函数式编程概念,并强调了单元测试(使用 ScalaTest)等软件工程实践。Yan 发现,尽管他可能不会在数据科学工作中频繁使用递归解决方案,但该课程通过尾递归加深了他对 Scala 的理解和解决问题的能力,最终使他的代码更加健壮和高效。