百万奖金BDCI 2017 赛题全解析 | CCF 大数据与计算智能大赛

enter image description here

                                          大赛发布会

大赛介绍

CCF 大数据与计算智能大赛(BDCI)由中国计算机学会主办,已成功举办四届,是目前国内最权威的大数据类赛事之一。BDCI 2016 共吸引海内外6500余支队伍参赛,提交近三万次作品,创造世界大数据多题联赛参赛规模纪录。

BDCI 2017 共开放12道赛题,期待天才的你在众多珍贵的数据中徜徉探索,豪取百万奖金。

enter image description here

                                            大赛启动仪式

enter image description here

赛题发布

2017最接地气的12道大数据和人工智能赛题

01 赛题名称:《 商场中精确定位用户所在店铺 》 出题单位:蚂蚁金服 赛题背景:在正确的时间、正确的地点给用户最有效的服务,是各大互联网公司智能化拓展的新战场。当用户在商场环境中打开手机的时候,存在定位信号不准、环境信息不全、店铺信息缺失、不同店铺空间距离太近等等挑战,因此如何精确的判断用户所在商铺是一个难题。 任务描述:我们提供2017年9月份的数据中,根据当时用户所处的位置和WIFI等环境信息,通过您的算法或模型准确的判断出他当前所在的店铺。 技术方向:数据挖掘,机器学习 数据特色:将提供在2017年8月份大概100家商场的详细数据,包括用户定位行为和商场内店铺等数据(已脱敏),2017年9月份的商场内用户数据来做评测。

02 赛题名称:《基于合成数据的Logo识别》 出题单位:国双科技 赛题背景:在LOGO识别中,能否通过合成数据,对标注数据进行扩充,从而降低标注成本,提高LOGO识别准确率,成为一个值得研究的课题。 任务描述:需要参赛队伍通过LOGO图像,构造具有对实际图像有足够拟合能力并且足够多样性的训练图像,识别出图像中LOGO的类别和位置。 技术方向:图像识别,机器学习 数据特色:我们提供了30个LOGO,每个LOGO提供100张标注数据,同时,我们提供5000张底图,用于与LOGO合成。

03 赛题名称:《让AI当法官》 出题单位:明略数据 赛题背景:随着行业AI的迅速发展,国外已经出现了IBM Ross这样的AI律师。国内类似的应用仍处于尝试和探索阶段,需要开发能够理解中文案情和法律条文的新型算法模型。 技术方向:自然语言理解、机器学习算法、文本分析技术等 任务描述:通过模型识别发现案件事实描述与罚金范围和相关法律条文之间的关联,从而实现对新案件的罚金额度范围和对应的相关法律条文进行预测。 数据特色:提供了以裁判文书网上实际案例为基础构造的训练和测试数据,即保留了数据的真实性,同时也保证了数据的隐私性。 商业潜力:在提高公民法律意识,普法教育,法律咨询、公安、金融等涉及法律咨询的领域有着广泛应用。

04 赛题名称:《AlphaGo之后“人机大战”Round 2 ——机器写作与人类写作的巅峰对决》 出题单位:360搜索 赛题背景:随着深度学习、自然语言处理等人工智能技术发展,机器写作在语言组织、语法和逻辑处理方面几乎可以接近人类水平。 技术方向:人工智能、自然语言理解 任务描述:设计出单一或者复合的优良的算法模型,从海量的文章中区分出文章是机器写作还是人类写作。 数据特色:训练数据为20万条人类及机器人协作样例(有标签答案)。

05 赛题名称:《复杂海情和气象条件下的海上船只识别》 出题单位:方一信息 赛题背景:海洋上作业的风险巨大,如何利用卫星成像技术和人工智能技术实现对于海上目标进行有效快速的识别,是人类有效利用海洋的一项基本能力。 任务描述:快速准确的识别、标识出测试集中的船只。综合考量准确性、速度和功耗指标。 初赛阶段:基于软件,准确的识别、标识出测试集中的船只;复赛阶段:快速准确的识别、标识出测试集中的船只。综合考量准确性、速度和功耗指标。 技术方向:图像识别,机器学习 数据特色:初赛阶段:训练集(10万张图片)、测试集(100张图片);复赛阶段:训练集(10万张图片)、测试集(1000张图片)、FPGA加速卡使用手册、FPGA加速卡实物。

06 赛题名称:《算算下一次你要买啥?》 出题单位:零点有数 赛题背景:在传统的商超数据挖掘中,购物篮分析是重要的分析内容,对会员管理的维护以及超市的供销存管理有着重要意义。 任务描述:对会员用户的下次到店行为进行预测,构建会员的消费价值标签,流失会员预警分析。 技术方向:挖掘消费者的购物需求,预测时间、品类,降低库存成本(数据挖掘,机器学习,预测,模式识别,序列关联)。 数据特色:对会员消费数据,包括时间、类别、名称、单价、数量、总价、是否促销等字段进行分析处理,提高运营效率。 商业潜力:对超市管理运营有重要参考价值。

07 赛题名称:《城市自行车的出行行为分析及效率优化》 出题单位:零点有数 赛题背景:城市共享单车体系逐步渗透到各个城市中,给公众出行的“最后一公里”带来极大便利。 任务描述:分析早晚高峰时间段及该城市在高峰时段的自行车大的运动方向,对未来时段(月、周等)进行分站点借还流量预测。 技术方向:挖掘人的行为特征数据,预测可能抵达的地方(数据挖掘、空间数据运算、路线聚类、可视化表达、最优化设计) 数据特色:采用了有桩的共享单车数据,降低了随机停放预测的难度。 商业潜力:对城市规划、城市交通管理有重要参考价值。

08 赛题名称:《“中印对峙”事件期间舆情分析》 出题单位:零点有数 赛题背景::国际争端不断,中印对峙时间是近期新闻的热点,国内各大媒体、民间自媒体及广大公众保持了密切的关注。 任务描述:分析在最近的一次中印对峙事件期间(2017年6月18日-8月28日),微信、微博、知乎等各平台上相关文章及网民的主流观点,各自声量大小,以及主流观点随事件进展的变化。 技术方向:自行爬取微信、微博等平台上的中印主题的公共号文章,并进行分析(文本分析,分类预测)。 数据特色:开放式题目,自行爬取数据,并将爬取数据的说明,舆情分析的模型以及结果予以呈现。 商业潜力:各个平台上的舆论风向的分析,对国家的舆论管理、树立政府形象有重要作用。对于相关媒体而言,如何在正确的舆论导向下,更好的设计文章的风格以增加自身文章的可读性亦非常重要。

09 赛题名称:《企业停业风险预测》 出题单位:量子数聚 赛题背景:全国3000多万企业中,大量的中小微企业,既无法公开获得企业真实财务信息,也无这些企业的借贷信息,如何科学、合理评价企业未来经营风险成为了难题。 任务描述:参赛者需要利用训练数据集中企业信息数据,构建算法模型,并利用该算法模型对验证数据集中企业,给出预测结果以及风险概率值。 技术方向:数据挖掘,分类预测,机器学习 数据特色:高维,稀疏,非均衡,结构化数据,涉及业务内容多样(初赛提供近10种业务数据),不同业务内容数据格式、规范程度都有所不同。数据在脱敏时已经过粗加工,但仍有意保留部分常见数据质量问题(如重复、空缺等),需参赛者自行处理。 商业潜力:除对企业当前发展状况的判断,可以运用于除借贷以外更广的场景,如投资评估,商业贸易合作、企业扶持,政策评估,企业招投标,企业监管等多个场景。

10 赛题名称:《卫星影像的AI分类与识别》 出题单位:佳格数据 赛题背景:基于遥感影像的应用仍停留在目视解译的阶段,自动化的程度较低,已有的算法还不足以支撑现有的应用。 任务描述:在我们提供2015年的数据中,通过您的算法或模型准确的对该地区的地表覆盖物进行分类。 技术方向:通过图像处理、深度学习等算法,提取遥感影像中各类地物的光谱或形状等特征,利用这些种子类别对模型进行训练和分类。 数据特色:提供了2015年某地区的高分辨率遥感影像,很好地覆盖了各类地物的光谱、形状等特征。也提供了包括目视解译出来的地表覆盖样本数据。

11 赛题名称:《基于机构实体的智能摘要和风险等级识别》 出题单位:法海风控 赛题背景:基于法海客户中,十数家全国商业银行、几十家国际、国内顶级征信公司、上百家金融信贷机构对高精度舆情大数据的迫切需求,法海风控从“同一篇新闻中,不同的机构实体,对应的关键词、风险等级和摘要可能不同“的人工智能解决方案出发,提出了该项竞赛赛题。 任务描述:参赛者针对司法/财经/科技/质量监督类新闻舆情数据,进行数据清洗,构建算法模型,生成智能文摘。 技术方向:通过大数据、自然语言处理、 深度学习等技术,提取出机构实体,生成基于该实体的摘要、关键词和风险等级。 数据特色:法海风控采集的司法、财经、科技、质量监督类,由权威媒体发布的新闻舆情数据;从原始网页中提取了标题、正文、发布时间等内容,组织成JSON格式。 商业潜力:本赛题来自法海风控内部孵化项目,是众多银行、征信、互金机构客户的明确需求,极具实际应用价值与现实意义。

12 赛题名称:《基于主题的文本情感分析》 出题单位:泰一指尚 赛题背景:电商购物现实情形是,用户评论大多针围绕产品的某些特征或内容主题展开,相比于对产品的整体评分, 用户往往更关心产品特征,评论文本往往较短。 任务描述:根据语句中的主题特征和情感信息来分析用户对这些主题的偏好,并以<主题,情感词>序对作为输出。 数据特色:本次大赛提供脱敏后的电商评论数据。 商业潜力:提高短文本分析性能,扩展商业应用领域,较传统情感分析有更高适用环境。


赛程赛制

大赛启动:2017.9.24

预报名:2017.9.25-2017.10.9

训练数据发布:2017.10.10

预报名阶段可报名组队,但不开启训练数据下载与日常评测。

大赛初赛:2017.10.10-2017.11.19

报名截止时间:2017.11.19

算法能力赛:

A榜评测阶段:2017.10.10-2017.11.16

B榜评测阶段:2017.11.17-2017.11.19

数据创新赛:

方案提交阶段:2017.10.10-2017.11.19

初赛阶段可持续报名参赛,

按不同赛题要求开放不同次数日常评测机会,

初赛截止时每题最优B榜成绩排名TOP100,

审核后晋级复赛

复赛资格审核:2017.11.20

训练数据更新:2017.11.20

大赛复赛:2017.11.21-2017.12.11

算法能力赛:

A榜评测阶段:2017.11.21-2017.12.4

B榜评测阶段:2017.12.5-2017.12.11

数据创新赛:

潜力提升阶段:2017.11.21-2017.12.11

复赛阶段将会对训练数据量及种类升级,

复赛截止时间每题最优B榜成绩排名TOP5,

审核后晋级决赛

决赛资格审核:2017.12.12-2017.12.22

大赛决赛:2017.12.23-2017.12.24

组委会承担交通食宿于江苏常熟举办决赛嘉年华,

与顶尖大咖一决高下,

参与年度high最圈内聚会

奖金福利

百万奖金

企业单项奖:12道赛题每道赛题分设企业单项奖,奖金5万-10万;

CCF特别奖:CCF综合特等奖、CCF算法能力奖、CCF创新潜力奖,CCF应用价值奖;

CCF集体奖:CCF优秀指导老师奖、CCF优秀组织单位奖、CCF特别贡献奖;

BDCI风采奖:BDCI最佳人气奖、BDCI极客精神奖;

注意:每道赛题TOP50团队都会获得特备礼物。

offer实习

在BDCI 2017 过程中,晋级决赛,有很大机会获得企业发放的:

special offer:根据出题单位需求及优秀参赛者自身情况,发放超强吸引力offer;

实习机会:优秀参赛者可获取出题单位实习机会,进一步在相关领域深耕发展

权威证书

获奖证书:所有获奖团队,均可获发由中国计算机学会盖章并颁发的获奖证书;

院士签名:大赛组委会主席将在证书上签名;

报名链接

DF数据&AI竞赛平台

http://www.datafountain.cn/#/competitions