【机器学习快讯】20150124第一篇机器学习快讯
jopen 10年前
快讯动机
现在每天真的是变化太快,太多的资讯信息铺天盖地而来,要想把每天遇到的大量的优质资讯信息进行学习吸收又非常的困难,所以特此做一个机器学习快讯专题,把平日遇到的优质文章整理罗列出来,等有时间或者遇到类似的问题的时候再看也是有益处的。
机器学习技术
- 12个用好朴素贝叶斯算法的小提示
- 使用随机森林:Use Random Forest: Testing 179 Classifiers on 121 Datasets在很多场景下,可以先用随机森林或高斯SVM试试,因为它们在121个数据集上的179多种算法测试中平均精度占优;小心准备数据;最终确定前用抽查的方法对比多种算法
- 《Tutorials and Winners' Interviews: Learning from the best》摘取了一些Kaggle竞赛获胜者的经验:特征工程往往最重要、越简单可能越好用、和积分榜过拟合是个大问题、模型组合是王道、预测目标要选对、还有一些个人建议,都比较有价值,值得参考
- 《Machine Learning Tutorial: The Max Entropy Text Classifier》关于最大熵文本分类器的介绍
- 《Supervised Machine Learning: A Review of Classification Techniques 》关于分类模型的综述文章,可以作为引入学习的一篇导论
深度学习
- 《A Deep Learning Tutorial: From Perceptrons to Deep Networks》深度学习教程——从感知器到深度网络,相当不错!
- 《What is deep learning, and why should you care?》探讨了深度学习的概念、训练和意义
- 《Neural Networks and Deep Learning》免费在线书,神经网络与深度学习。目前提供了前四章的草稿,第一章通过手写数字识别的例子介绍NN,第二章讲反向传播算法,第三章讲反向传播算法的优化,第四章讲NN为什么能拟合任意函数。大量python代码例子和交互动画,生动有趣,推荐!
学习建议
- 《4 Self-Study Machine Learning Projects》机器学习的学习实践策略:学习一个机器学习工具、学习一个机器学习数据库、学习一个机器学习算法、 实现以额机器学习算法
- 《A Few Useful Things to Know about Machine Learning》总结了12条机器学习的经验,包括:学习=表示+评价+优化、泛化是关键、仅有数据是不够的、不止一面的过拟合、特征往往是关键、数据多胜过算法妙、多训练几个模型试试、简单不意味着准确、可表示不代表可训练等,推荐!
- 《Level-Up Your Machine Learning》机器学习进阶之路,介绍了新手、学徒、熟练工、大师、超级大师五个阶段的成长特点和路径,其根本还是多读书多实践
- 重点推荐《The Full List In One Page Of Data Science Resource》一个数据科学网络资源的列表,号称Full List,确实比较全
有关Python和机器学习
- 《The Top Mistakes Developers Make When Using Python for Big Data Analytics》用Python做大数据分析时最常犯的错误,主要包括:重复造轮子、性能没调优、时间时区没用对、手动集成其他重型技术或脚本、没持续跟踪数据类型和结构、没跟踪数据来源、缺少(回归)测试等
- Learn Data Science - Open content for self-directed learning in data science数据科学Python自学系列,通过一系列IPython Notebooks,向你介绍Linear Regression、Logistic Regression、Random Forests、K-Means Clustering等,简单清楚
- scrapyrt——Scrapy realtimepython下著名的爬虫框架Scrapy的扩展版本,以HTTP服务形式提供API调用接口以使用爬虫服务
- 《Machine learning for facial recognition》基于机器学习的人脸识别,用python实现基本的人脸识别算法
大数据工具
- Real-Time Analytics with Apache Storm -- The "Hadoop of Real-Time"Udacity上的免费新课,介绍Apache Storm上如何进行实时数据分析
转载请注明作者Jason Ding及其出处
Github博客主页(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)