2016 CCF大数据与计算智能大赛完美收官 九十天携手万名“夜猫子”环游比特世界

2016年12月25日,第四届“大数据与计算智能大赛(Big Data & Computing Intelligence Contest, BDCI)”在青岛完美收官,各奖项、奖金也名花有主,获奖队伍在圣诞节的衬托下更添喜悦。从大赛启动到决赛嘉年华,整整历时九十天,虽然比儒勒·凡尔纳笔下的福格环游地球还多花了十天,但参赛的一万余名“夜猫子”环游比特世界的征程是比走遍山川美景更为独特的智力冒险。

enter image description here

决赛队伍答辩现场

大赛规格猛升,队伍构成更加多元

与上届相比,今年的大赛规模实现了爆发式增长,参与人数、队伍数、境外高校数以及提交作品数均比上年增长3.3倍以上,创下历史新高。“我们又回来了-美林数据”等多个战队的选手之前都参与过多次大数据赛事,且取得了非常好的成绩,为本次大赛增添了几缕“星光”。 从地域、校园、性别等的分布都可以发现参赛队伍多元化特征非常明显。地域上不仅覆盖全国34个省、自治区和直辖市,更吸引了港澳及美国、英国、法国、日本、澳大利亚的海外参赛者。学生来源几乎覆盖了国内所有985/211高校以及众多普通高校、地方院校,甚至包括数个中学。工业界选手也有增多的趋势。性别上,来自两名北京大学“女汉子”组成的“Foo & Bar”队,取得了CCF最佳技术创新奖及对应赛题的一等奖,并且其他获奖参赛队伍骨干中也经常能看到女生的身影。 队名显现活力与趣味。参赛队伍的名称可谓“八仙过海,各显萌通”,比如“打酱油`拎壶冲”、“401数据挖掘施工队”、“SmartRookie”等等,让台下观众都有评一个“最有创意队名奖”的冲动了,当然,名字让人印象深刻的“诗人都藏在水底”还凭借独特的算法商业性,获得了CCF最佳商业潜力奖及对应赛题一等奖。

揭开数据面纱,深度挖掘特征

enter image description here

CCF决赛专家评审组 最终成绩复核现场

在数据挖掘领域有这么一句话广泛流传:“数据和特征工程(Feature Engineering)决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。所谓特征工程,就是最大限度地从原始数据中提取特征以供算法和模型使用。这类似斯坦福大学教授保罗·瓦茨拉维克在《改变》一书中提出的“第一序改变”与“第二序改变”的关系。比如开车的时候,不管你踩多大的油门都是“第一序改变”,只能无限接近档位限定的速度,只有换档才是“第二序改变”。因此,基于领域知识,针对数据本身的深度分析是大赛致胜的关键。各参赛队伍在数据清洗、压缩以及特征提取方面下足了功夫,如分对象抽取的用户、商户、优惠券、Label窗等特征,以及分层次抽取的全局特征、局部特征、元特征等。以“fgo非洲人”战队为例,其通过对“Human or Robot?”赛题的1.5亿条数据进行特征分析,将数据量压缩至500万条,只有原来的三十分之一,极大提升了后续模型训练的时间,取得了“第二序改变”的优势,最终获得CCF最佳算法能力奖,及相应赛题一等奖。

enter image description here

“Fgo 非洲人”队在做决赛答辩

用模型的暖阳唤醒黑暗中沉睡的数据

各战队在特征工程的基础上,也创新了多个算法模型。除了熟练运用XGBoost、随机森林(RandomFore)、卷积神经网络(CNN)、循环神经网络(RNN)等常用数据挖掘模型,参赛队伍还对已有模型进行了优化和创新,如针对小目标检测的R-FCN算法、多任务学习框架的精细化人体属性识别算法。另有战队提出的多通道多窗口CNNs模型,只需54秒即可完成2w数据量的训练。“401数据挖掘施工队”结合地理数据的经验,针对“基于多源数据的青藏高原湖泊面积预测”赛题,引入了数量平衡方程、彭曼蒸发公式等领域模型,利用时空关系构建的湖泊预测模型,实现了很好的效果。 网络、移动终端无处不在的今天,大量未被利用的数据在黑暗中沉睡,这些虽略显稚嫩的模型创新,无疑像一缕暖阳,昭示着唤醒的努力。

夜猫子间的战争,你追我赶

会务组统计时发现一个非常有趣的数据,在近三万份结果中,有超过六分之一的是在22:00-6:00点提交的,足见各参赛选手在学业和工作之余显示出的“拼命三郞”精神,把自己生生逼成了“夜猫子”。 “睡一觉起来榜单就可能产生翻天覆地的变化”,有参赛选手这样感叹比赛的激烈程度。很多人提到,比赛期间的心情起伏非常大,每天都有新想法,尝试后却发现没有效果提升,竞争对手还纷纷赶上,尤其是复赛时,甚至会为实现0.001分的提升焦灼不已。 在这种你追我赶的过程中,很多队伍的指导老师尽职尽责,甘当幕后英雄。比如大连理工大学林鸿飞教授指导的两支队伍都取得了各自赛题的一等奖,让人艳羡之余也更添一份敬佩。

场景落地与开源开放,实现智力侵略

enter image description here

中科院院士梅宏、青岛市副市长张德平为CCF综合特等奖获奖团队“S-LAB”颁奖

九十天的智力冒险最终在两天的决赛嘉年华中完美收官,120万元奖金找到归属。青岛市对决赛的举办给予资金和场地方面的大力支持,青岛市副市长张德平、李沧区委书记王希静、李沧区区长李兴伟等均亲临现场为获奖队伍颁奖。最大赢家是“S-LAB”团队,获得了CCF综合特等奖,在决赛中大放异彩。万国云商的50万元特别奖则授予了石油大数据智能处理平台Chase。共有54支队伍获得了企业单项奖。组委会还另外设置了CCF最佳算法能力奖、CCF最佳技术创新奖、CCF最佳商业潜力奖、优秀指导老师奖和特别贡献奖。

enter image description here

中国工程院院士倪光南 致辞

国网信通、寰景信息等出题企业都对比赛取得的成果赞誉有加,表示将持续支持成绩优异的战队。中国联通研究院甚至准备与参赛队伍签约,以进一步优化结果,应用于真实的业务场景。此外,“Aaron_Hunter”等战队还率先在Github开源了其提出的MUSCLE-LEADER算法,用更开放的心态拥抱未来。倪光南院士在总结发言中也击节叹赏大赛展现的竞技风貌和取得的丰硕成果。 所谓科学,就是你到了任意一个国家、面对任意一种制度,都能很好地生存的能力。而智力侵略,则是你到了任意一个星球、任意一个组织都能够很好地发展的能力。本届的参赛队伍无疑用科学严谨的态度、积极有效的行动诠释并展现了如何对比特世界进行“智力侵略”。

未来的中国版Kaggle锋芒初显

《甲方乙方》中有句经典台词:“1997年过去了,我很怀念它”。平淡温和的话语背后,饱含着时代快速变迁的感慨,以及每个人努力实现、苦甜交加、荒诞又魅惑的梦想。这是佐藤信夫修辞分类中的“默说”,意在言中,而又偏离了词典规范的零度。

enter image description here

中科院院士梅宏 致辞

enter image description here

中国科学院计算技术研究所副所长、CCF大数据专家委员会秘书长程学旗 做大赛成果展示

所以,梅宏院士在颁奖典礼最后特意改用了“2016年过去了,我很怀念它”,用含蓄的“默说”告诉我们,这届CCF大数据与计算智能大赛确实是一个转折,极大提升了赛事的规格与水准,官方竞赛平台DataFountain也日益强大,形成了平台+服务的完整闭环,未来的中国版Kaggle已经锋芒初显,梦想仍然继续迷人又富有挑战。