新書推薦:
《
万千心理·儿童心理治疗中的心智化:临床实践指导
》
售價:HK$
89.7
《
自我囚禁的人:完美主义的心理成因与自我松绑(破除你对完美主义的迷思,尝试打破自我评价过低与焦虑的恶性循环)
》
售價:HK$
67.9
《
周易
》
售價:HK$
45.8
《
东南亚的传统与发展
》
售價:HK$
69.0
《
乾隆制造
》
售價:HK$
87.4
《
资治通鉴臣光曰辑存 资治通鉴目录(司马光全集)(全二册)
》
售價:HK$
296.7
《
明代社会变迁时期生活质量研究
》
售價:HK$
308.2
《
律令国家与隋唐文明
》
售價:HK$
74.8
|
編輯推薦: |
本书将理论和代码相结合,全流程深度剖析比赛过程,涵盖了社交网络、计算机视觉、自然语言处理等大数据应用的热门领域。
|
內容簡介: |
全书围绕IKCEST国际大数据竞赛,即IKCEST“一带一路”国际大数据竞赛暨百度&西安交大大数据竞赛展开,针对每次比赛内容进行深度解析,从任务、基础到冠军模型,以理论和代码相结合的方式,全流程深度剖析比赛过程。九次竞赛题均关注当年的热点领域和方向,分别是“人物关系”知识挖掘、提取子句中的核心实体、宠物分类、商家招牌分类、基于卫星遥感影像和用户行为的城市区域功能分类、高致病性传染病的传播趋势预测和基于车载影像的实时环境感知、“一带一路”重点语种法俄泰阿与中文互译、社交网络中多模态虚假信息甄别,涵盖了社交网络、计算机视觉、自然语言处理等大数据应用的热门领域。
本书可作为全国高等学校大数据及相关专业的教材,也可作为感兴趣的读者了解IKCEST国际大数据竞赛的参考书。
|
目錄:
|
第1章2015赛题——“人物关系”
知识挖掘
1.1赛题解析
1.1.1赛题介绍
1.1.2数据介绍
1.1.3评估指标
1.1.4赛题分析
1.2“人物关系”知识挖掘基础介绍
1.2.1基于模板的方法
1.2.2基于统计的方法
1.2.3基于神经网络的方法
1.3数据处理
1.3.1数据分析
1.3.2样本不均衡数据处理
1.3.3数据加载
1.4“人物关系”知识挖掘方法探索
1.4.1基于LSTM的关系
抽取
1.4.2基于Transformer的
关系抽取
1.4.3基于预训练微调的
关系抽取
1.4.4效果对比
1.5模型提升与改进
1.5.1如何利用无标注数据
1.5.2如何利用实体
属性数据
1.5.3总结
第2章2016赛题——提取子句中的
核心实体
2.1赛题解析
2.1.1赛题介绍
2.1.2数据介绍
2.1.3评估指标
2.1.4赛题分析
2.2实体识别基础介绍
2.2.1命名实体识别任务
2.2.2词向量模型
2.2.3基础方法
2.3数据处理
2.3.1数据分析
2.3.2文本序列预处理
2.4核心实体识别
2.4.1核心实体识别模型
2.4.2损失函数
2.4.3维特比算法
2.4.4核心实体识别实验
2.4.5识别结果分析
2.5模型提升与改进
2.5.1K折交叉验证
2.5.2对抗训练
2.5.3总结
第3章2017赛题——宠物分类
3.1赛题解析
3.1.1赛题介绍
3.1.2数据介绍
3.1.3评估指标
3.1.4赛题分析
3.2计算机视觉基础介绍
3.2.1计算机视觉任务
3.2.2计算机视觉基础
3.2.3传统图像分类及实践
3.2.4神经网络图像分类及
实践
3.3数据处理
3.3.1数据预处理
3.3.2数据增强
3.4图像分类网络及方法
3.4.1经典分类网络
3.4.2VGG网络Paddle
实现
3.5算法提升与改进
3.5.1进阶的分类模型
3.5.2目标检测
第4章2018赛题——商家招牌
分类
4.1赛题解析
4.1.1赛题介绍
4.1.2数据介绍
4.1.3评估指标
4.1.4赛题分析
4.2目标检测基础介绍
4.2.1目标检测概述
4.2.2模型调研
4.2.3经典二阶段目标
检测算法
4.2.4经典一阶段目标
检测算法
4.3数据处理
4.3.1数据预处理
4.3.2数据加载
4.3.3数据增强
4.4算法提升与改进
4.4.1比赛模型
4.4.2结果分析与改进
第5章2019赛题——基于卫星遥感影
像和用户行为的城市区域
功能分类
5.1赛题解析
5.1.1赛题介绍
5.1.2数据介绍
5.1.3评估指标
5.1.4赛题分析
5.2多模态分类基础介绍
5.2.1算法架构
5.2.2模型融合
5.3多模态数据探索
5.3.1文本和图像数据的
读取
5.3.2数据分析
5.3.3特征工程
5.4城市区域功能分类
5.4.1遥感影像分类
5.4.2用户到访数据分类
5.5城市区域功能分类特征优化
5.5.1区域→用户→区域的
特征构建
5.5.2区域→区域的
特征构建
5.6模型提升与改进
第6章2020赛题——高致病性传染病的
传播趋势预测
6.1赛题解析
6.1.1赛题介绍
6.1.2数据介绍
6.1.3评估指标
6.1.4赛题分析
6.2时间序列建模基础方法介绍
6.2.1时间序列模型简介
6.2.2GBDT简介
6.3数据及特征工程
6.3.1特征选择
6.3.2特征构建
6.3.3回归值预处理
6.4城市每日新增感染人数
预测算法
6.4.1特定数值填充
6.4.2时间序列模型
6.4.3SEIR模型
6.5区域每日新增感染人数
占比预测算法
6.5.1回归数据生成
6.5.2区域新增感染人数
占比预测
6.5.3实验结果分析
6.6模型提升与改进
第7章2021赛题——基于车载影像的
实时环境感知
7.1赛题解析
7.1.1赛题介绍
7.1.2数据介绍
7.1.3评估指标
7.1.4赛题分析
7.2目标检测与图像分割
基础介绍
7.2.1目标检测概述
7.2.2图像分割概述
7.2.3常用语义分割算法
UNet与DeepLabV3
7.2.4UNet代码实践解析
7.3交通目标检测任务
7.3.1目标检测任务解析与
数据探索
7.3.2数据预处理
7.3.3目标检测基准模型:
Yolov5
7.3.4算法模型与改进
7.4交通划线语义分割任务
7.4.1语义分割任务解析与
数据探索
7.4.2数据预处理
7.4.3语义分割基准
模型HRNet
7.4.4算法模型与改进
7.5算法结果分析与改进策略
7.5.1算法改进策略及评估
指标提升
7.5.2算法推理加速策略
7.5.3总结
第8章2022赛题——“一带一路”重点
语种法俄泰阿与中文互译
8.1赛题解析
8.1.1赛题介绍
8.1.2数据介绍
8.1.3评估指标
8.1.4赛题分析
8.2机器翻译基础介绍
8.2.1机器翻译概述
8.2.2经典机器翻译模型
8.2.3经典机器翻译预
训练模型
8.3比赛方法——基于领域渐进性的
可持续多语言翻译训练方案
8.3.1数据收集与预处理
8.3.2双语平行语料构建
8.3.3多语翻译模型
选择与改进
8.3.4领域渐进可持续
训练方法
8.4算法结果分析与高金策略
8.4.1结果分析
8.4.2高金策略——多模型
集成方法
8.4.3总结
第9章2023赛题——社交网络中多
模态虚假信息甄别
9.1赛题解析
9.1.1赛题介绍
9.1.2数据介绍
9.1.3评估指标
9.1.4赛题分析
9.2模型基础介绍
9.2.1虚假信息甄别
任务概述
9.2.2大语言模型概述
9.2.3多模态大模型概述
9.2.4ViT与ERNIE
9.2.5ERNIE代码实践解析
9.3比赛方法
9.3.1任务解析
9.3.2数据处理
9.3.3模型方法
9.3.4成果提交与推理
9.3.5实验结果
9.4模型改进与总结
9.4.1模型改进
9.4.2总结
参考文献
|
內容試閱:
|
近年来,随着人工智能、云计算等前沿技术的发展,大数据科学的重要性也空前提升,人们甚至发明了一个别致的词汇叫“ABC”,也就是AI Big Data Cloud,这其实说明了三者之间的重要联系。
一方面,大数据很难用单台的计算机进行处理,必须采用分布式架构,并对海量数据进行分布式数据挖掘,这其中充分依托了云计算的分布式处理、分布式数据库和云存储、虚拟化技术; 另一方面,大数据又可以非常有效地用于人工智能模型的训练,是产生“智能”的基础,是人工智能从弱到强过程中极其关键的“数据燃料”。
人工智能大科学的蓬勃发展,人才当属“核心火种”。当前,各大高校、研究机构和企业正在多方协同、通力合作,从产、学、研、用各个层次为新型人才培养创造生长的土壤。IKCEST国际大数据竞赛便要做其中一片沃土。
从2015年起,百度与西安交通大学开始联合举办大数据竞赛,在高校师生中引起热烈回响。2019年,百度与联合国教科文组织国际工程科技知识中心(IKCEST)、西安交通大学、丝绸之路大学联盟合作,将大赛升级为国际赛事,并更名为“IKCEST‘一带一路’国际大数据竞赛”。9年来,大赛无论是在覆盖的国家、参赛人数和赛题的挑战性方面,还是在赛事的权威性和国际知名度方面,都得到了重要的提升。目前,大赛已覆盖五大洲21个国家,近600所高校选手报名,累计参赛队伍超过20000支。他们中间已经有很多人成为中国乃至世界范围内数据科学的新生力量。
2023年国际大数据竞赛更是历年来水平较高的一次,赛题、数据完全来自于真实场景,全球报名人数再创新高,总报名参赛队伍超过3809支,共覆盖全球19个国家、近600所学校。在参赛战队中,除了东道主西安交通大学之外,还有清华大学、复旦大学、悉尼大学、卡耐基梅隆大学等国内外名校的学子参赛。
赛事的兴旺气象和参赛机构、人数的持续提升,也印证了大数据科学的重要性和受关注度。
我们感到,编写一本国际大数据竞赛的题集,不仅具有历史记忆和学术意义上的双重价值,也能通过汇集2015—2023年大数据竞赛中大部分的赛题和解析,为有志于参加这项比赛乃至于未来从事相关领域研究、开发工作的行业新秀,提供具有一定参考价值的历史记录。
历年大赛综合考查选手的数据分析挖掘能力、编程能力、数学能力。其中,赛题非常贴近真实场景,例如,2020年的赛题“高致病性传染病的传播趋势预测”就紧贴战疫现实,倡议大家用科技手段抗击高传染性疾病。首位提出建立方舱医院的中国工程院副院长王辰院士、国家传染病医学中心主任张文宏医生也作为大赛特别顾问与选手交流。2021年的赛题“基于车载影像的实时环境感知”,数据来源则是百度地图提供的来源于交通真实场景的脱敏样本数据。它既有相对集中的主题,又有比较发散的各种解决问题的路径;它既完全基于真实,又鼓励参与者不拘泥于已有的思路,能够进行自我超越和挑战。
这是一个技术创新的时代,是一个中国主要的发展动能将从依赖商业模式创新,到依靠技术创新的时代,是一个中国的数字技术能否成为全球主流乃至一流的充满挑战的时代。作为新时代的局内人,编者深深为自己肩负的职责所振奋,也希望通过赛题的结集,为更多对大数据科学感兴趣的研究者、学习者、关注者以启发和帮助。
本书的结集出版,要感谢来自中国工程院、西安交通大学及百度公司的各位同仁,感谢历年参赛的全球高校的学子们的积极参与,感谢参与赛事组织、培训、传播的李春阳、许超、张崇乐、于思文、乔文慧,正是你们的有力支持,让我们能够毅然前行,创造更高水平的赛事。
编者
2024年5月
|
|