时光犹如白驹过隙,又到一年末尾,该做点总结了。(译者注:原文有大量抒情文字,我懒得翻译了。。。)
这篇文章总结了16年度本网站上最火的资源,我们把它们分成了指南,短文,职业文和技能测试四个板块以方便阅读。
如果你是个新人,一定会爱死这篇文章,毕竟这是网站一整年的精华。如果你已经是个专家,你也大可以挑选一些感兴趣的随便翻翻。
别了2016,你好2017于我们而言,2016年是现象级的一年。(译者注:后面是成果简介啊,感谢读者啊,未来展望啊,我懒得翻译了。。。)
本文的正确打开方式 本文按照四个板块将资源分类,大家各取所需。(译者注:这段我意译的) 指南类 1. R语言数据科学入门指南如果你是个彻头彻尾的R信任,这篇文章不容错过。它的目标读者就是那些对机器学习毫无概念的人。它会告诉你R的基本知识,如何做探索性数据分析和数据操作,最后也会教会你如何建立一个预测模型。我保证这是R语言界的最棒的手把手数据科学教程
工具:R 技术:完整的案例教学 等级:初学者 2. python数据科学入门指南如果你想以python为工具开始你的数据科学之旅,这篇文章就会是你的引路人。同样,它假定读者没有任何python知识,从基础语法开始教学,同时兼顾常用的python库。在这之后,它会带着你探索,整理数据并建立预测模型。
工具:Python 技术:包括logit模型,决策树和随机森林在内的完整案例 等级:初学者 3. 基于树的模型导论(R和Python)这篇指南将一步步教会你建立基于树的模型,比如决策树,随机森林和梯度提升法这类应用广范的技术。它会告诉你这些算法的思想和应用的方式,同时也不需要你对机器学习有任何先验知识,然而你必须对R或者python比较熟悉。
工具:R & Python 技术:基于树的模型 等级:中级 4. 时间序列预测指南 (python)时间序列是数据科学的重要概念,本文将会带你领略分析时间序列的各种技术,并提供python代码。你将会学到时间序列的特点,如何用Pandas加载并处理时间序列,如何检验平稳性,如何进行平稳化处理并做预测。
工具:Python 技术:时间序列预测 等级:中级 5. PCA操作指南(R和Python)有时你处理的数据集可能包含了非常多的变量,在这里面寻找适宜的子集可能非常麻烦。这时,PCA技术就可以大显神威了,PCA是从一个大集合中提取重要信息的技术。通过本文,你将学会PCA的理论基础,变量规范化,PCA在R与Python中的实现和如何用主成分建模等技术。本文需要读者有基础的统计学知识。
工具:R & Python 技术:Principal Component Analysis(主成分分析) 等级:中级 6. XGBoost调参指南(提供python代码))XGBoost被数据科学家们认为是最强大的算法之一。用XGBoost老建模很容易,但调参却是一个苦力活。这篇指南会结合案例教你如何在python中调节XGBoost的参数,让你知道XGBoost的优势。要读懂这篇文章,你得有python方面的知识。(译者注:我怎么感觉这么反讽。。。)
工具:Python 技术:XGBoost 等级:中级 7. 用Python做岭回归和LASSO很多人对于回归的理解就局限于线性回归和逻辑斯底回归,但回归的范畴其实远大于此。本文就是关于岭回归和LASSO回归的指南,这是最基本两种正则化技术。你讲学会它们的理论基础和相对于线性回归的优势。我保证看完这篇文章,你就能将它们运用于实战。
工具:Python 技术:Ridge & Lasso regression 等级:中级 8. Python中的梯度提升法(GBM)调参指南梯度提升法很容易实现,可调参却很困难。这篇文章会让你了解python中GBM背后的原理。你能学到提升法的工作原理和调参的经验。在对GBM的调参有简单认识后,它会让你掌握通用的调参方法。
工具:Python 技术:Gradient Boosting Model 等级: 中级 9. 数据探索指南你的预测模型的极限取决于你对于数据的理解。数据探索有助于你构建合适的特征,并把数据和背景领域结合。这篇指南会教你数据探索和预处理的步骤,比如缺失值处理,离群值的检测和处理以及特征工程的艺术。我打赌在本文的帮助下你能在下次的机器学习竞赛中提升你的模型表现。
工具:Agnostic 技术:探索性数据分析,缺失值插值,离群值检测 等级:初学者 10. 亚马逊网页服务(AWS)机器学习建模指南云计算是数据科学家工作流的重要部分。如果你要处理的数据量超过了你的笔记本的能力分为,云计算将会是解决方案。本文将会指导你使用AWS的终端和界面,然后你会学会如何配置和加载实例。一旦你熟悉了AWS的工作方式,你就可以使用python构建机器学习模型了。本文对R用户也会有所帮助,你要做的只是改变代码。
工具:R & Python, 云 技术: NA(译者注:原文就是NA) 等级: 初学者 文章类 1. Python中进行数据整理的12项Pandas技术Pandas是Python中用来分析,处理和可视化数据的利器。本文将教会你利用Pandas处理数据的12项技术,同时用机器学习的数据集做案例。你讲了解如何生成逻辑变量,插补缺失值,生成多标签,生成数据透视表,合并数据框和其他有用技能。它也讲解了如何提升每个步骤的执行速度。
工具:Python 技术:数据探索,数据可视化 等级:中级 2. 如何在R中建立XGBoost模型在进来的一些数据竞赛中,XGBoost一直主导着比赛。(译者注:这算官方吐槽吗。。。)本文将指导你如何在R中利用XGBoost建模,XGBoost的参数的意义,它的作用机理和如何检测结果。
工具:R 技术:XGBoost 等级: 中级 3. 人人都该了解的7中误差评价模式本文将会让你深入了解多种模型结果评价模式,包括混淆矩阵,增益提升图,AUC和ROC,基尼系数,K-S图,均方误差,Concordant Discordant 比率和交叉验证。
工具:Agnostic 技术: 模型评价 等级: 初学者 4. 面向小白的贝叶斯统计分析贝叶斯统计始终是统计的重要概念之一,然而很多分析师和数据科学家对其了解并不深入。这方面的数学解释对很多人而言可能挺有必要,因此这篇文章特意用简易英语撰写,帮助你了解贝叶斯统计。(译者注:我就是搞贝叶斯的,大家也可以私信和我交流讨论)
工具:Agnostic 技术: 贝叶斯统计 等级: 中级 5. 5大用来处理缺失值的R包使用指南缺失值插补是建模前的重要预处理步骤,如果你是个R语言用户,这篇指南你应该读一读。本文将会指导你使用5个R包插补缺失值,它们是MICE,Amelia,MissForest,Hmisc和mi。为方便理解,每个包的使用都配合实例讲解。
工具:R 技术: 缺失值插补 等级: 初学者 6. Python推荐引擎构建快速指南如今想Facebook,Amazon和Youte之类的大网站都会用到推荐引擎,而构建推荐引擎的过程好玩但又有挑战性。这篇文章会讲解推荐引擎的类型和程序实现。你讲学到如何建立基于流行度的模型和协同滤波模型,并对电影数据进行实例操作。
工具:Python 内容: 推荐引擎 等级: 中级 7. R语言不平衡数据分类指南不平衡数据集的处理富有技巧性,本文会告诉你为什么机器学习算法的预测金鱼会被数据集的不平衡性降低,同时也提供了处理这一难题的几种方法。为了让你有实际动手经验,本文还利用实例提供了在R中实现不平衡数据分类的实例。(译者注:该文在雪晴数据网上有译文)
工具:R 技术: 不平衡分类 等级: 中级 8. 在Python中利用Theano训练神经网络人工神经网络是近年来的热点,自动驾驶企车,语言识别,图像识别等技术的实现都是依赖于这一模型。本文将会利用Python中的Theano库来实现这一模型,全文会先介绍Theano的功能,如何在其中实现简单表达式,Theano的变量和函数的类型等基础知识。最后会训练一个简单的两层神经网络。
工具:Python Theano 技术: 人工神经网络 等级: 中级 9. 如何在R中实现多项Logit模型和有序Logit模型本文将会指导你建立多项Logit模型和有序Logit模型来对多水平分类变量进行建模。在帮助你深入了解这两类模型的作用机理后,本文还将指导你在R中实现它们。本文需要读者对R语言比较熟悉。
工具:R 技术: 多项Logit模型和有序Logit模型 等级: 初学者 10. 如何利用R中的Boruta包实现特征选择对任何机器学习模型而言特征选择是重要概念,优势删去先关变量会对模型表现产生巨大影响。R中恰好有个包就专攻这一领域,本文会告诉你Boruta包的原理和使用方法,读完本文你就会了解Boruta由于传统特征选择算法的缘由。本文需要R语言方面的先修知识。
工具:R Boruta 技术: 特征选择 等级: 中级 书籍 / 课程类 1.