SVM发明者推出的自动机器学习竞赛
http://www.36dsj.com/archives/21071
译者:WZL, (36大数据专稿,转载必须标明来源)
在机器学习界叱咤风云多年的支撑向量机算法(SVM),其发明人不单有奠基统计学习理论的Vapnik(最近跳槽去了非死book 的FAIR人工智能研究实验室),还有Boser和Guyon等人。
Guyon是位女科学家,但许多年来都自由行走在学术圈和工业圈之间,担任机器学习顶级杂志JMLR的评委,也给不少企业做顾问。她持续推进的一个项目,则是通过竞赛平台来推动机器学习的进展:从特征选择竞赛,到因果学习,到生物数据挖掘。
最近她又有新创意,带来一个名为Chalearn 无人工干预全自动机器学习(AutoML)竞赛的东东。
她在邀请信里说:新年伊始,愿你们开年大吉。想必你们各种忙碌,但有个机遇已经来临,数据科学领域许多研究者所梦想的可能将实现,那就是创造出 “完美黑盒”——无需任何人工干预却能从实例中学习。从现在开始到六月,我们将激进地推出30个分类及回归学习任务。这些任务来自不同的领域,有不同的数 据类型和分布。
作为第一轮任务,2月14日前我们准备了两个奖项:
第0轮(预备轮)属于“调优马拉松”:针对知名的样本数据集提交代码和结果。
第1轮(新手轮)属于“自动机器学习”:针对二元分类问题提交结果和代码。
后续则会像图中描绘那样,从新手晋级到中级,从中级到高级,从高级到专家,从专家到大师。
中级轮属于调优马拉松,高级属于自动机器学习轮,依次轮换。
听起来很有意思吧,就像一个不断打怪,成为机器学习高手的养成计划。
让我们看看 http://www.codalab.org/AutoML 更细节的描述:
我们聚焦在机器学习的“监督学习”,从70多个不同组织捐赠的数据集里我们挑选出30个,特征表达已经处理好。而你要攻克的挑战,就是解决这其中的分类和回归分析问题, 无需任何人工干预 。
这些数据类型跟分布非常不一样(有不均衡类别、稠密稀疏特征、有的有遗漏值、有的是非数值特征、衡量指标各个不同、数据量也差异很大)。
这些任务来自不同领域(有的是医疗诊断,有的是语音识别,还有信用打分、药品毒性预测、文本分类、客户满意度估计、模式识别、蛋白质结构分析、视频动作识别等)。
虽然已有的不少机器学习包能处理上述数据,但给定一批数据、任务、衡量指标和计算时间需求,总需要投入相当多的人力来寻找一批方法和超参数。
这次的竞赛独特之处在于: 消除这个循环中的人为干预,创造出“完美黑盒”。
这批比赛有一条路线是提交代码模式:在竞赛服务器上,自动运行你提交的代码,看这些算法在未知的数据集上表现如何,优异者获得奖励。
但你也可以不提交代码。可以只提交预测结果。
比赛分成预备、新手、中级、高级、专家、大师六轮,每轮有5个数据,难度逐步提升。但也可以跳过任何一轮,参与你感兴趣的特定轮比赛。每一轮会单 独设立奖项,颁发600-1500美金的奖励。并采取众包模式合作撰写论文,促进研究成果的传播,组织参与IJCNN/ICML/NIPS研讨会环节。
竞赛还提供上手程序包,尽量减少学习难度,规范竞赛流程。
这的确是个有创意的机器学习竞赛,从易到难,从小到大,是快速成长、提升水平的好平台。并有不少机器学习大神站台,不容错过的观摩和学习的机会。