新書推薦:
《
股票大作手操盘术
》
售價:HK$
55.2
《
何以中国·何谓唐代:东欧亚帝国的兴亡与转型
》
售價:HK$
89.7
《
一间只属于自己的房间 女性主义先锋伍尔夫代表作 女性精神独立与经济独立的象征,做自己,比任何事都更重要
》
售價:HK$
45.8
《
泉舆日志 幻想世界宝石生物图鉴
》
售價:HK$
137.8
《
养育女孩 : 官方升级版
》
售價:HK$
51.8
《
跨界:蒂利希思想研究
》
售價:HK$
109.8
《
千万别喝南瓜汤(遵守规则绘本)
》
售價:HK$
45.9
《
大模型启示录
》
售價:HK$
115.0
|
內容簡介: |
本书共包括7章,涵盖了从基础理论到实际应用的全方位内容。第1章深入探讨了大模型的基础理论。第2章和第3章专注于Llama 2大模型的部署和微调,提供了一系列实用的代码示例、案例分析和最佳实践。第4章介绍了多轮对话难题,这是许多大模型开发者和研究人员面临的一大挑战。第5章探讨了如何基于Llama 2定制行业大模型,以满足特定业务需求。第6章介绍了如何利用Llama 2和LangChain构建高效的文档问答模型。第7章展示了多语言大模型的技术细节和应用场景。本书既适合刚入门的学生和研究人员阅读,也适合有多年研究经验的专家和工程师阅读。通过阅读本书,读者不仅能掌握Llama 2大模型的核心概念和技术,还能学会如何将这些知识应用于实际问题,从而在这一快速发展的领域中取得优势。
|
關於作者: |
张俊祺,清华大学计算机系博士,曾获CIKM 2018唯一最佳论文奖、 2022年中关村U30等荣誉,原子回声创始人。曲东奇,东南大学毕业,德国亥姆霍兹研究中心访问学者。张正,清华大学计算机系毕业,对于深度学习、自然语言处理技术有着极其丰富的研究和产业经验,组织训练和研发了原子大模型。占冰强,AIGCLINK发起人,中关村超互联联盟副秘书长,行行AI合伙人,曾联合创办算法和数学建模交流平台数学中国。
|
目錄:
|
第1章 大模型的基础理论1.1 大模型的发展历史1.1.1 从语言模型到预训练大模型1.1.2 预训练大模型的发展1.1.3 大模型的进化1.2 大模型的核心框架1.2.1 Transformer1.2.2 位置编码1.2.3 多头自注意力机制1.3 数据收集和数据处理1.3.1 数据收集1.3.2 数据处理1.4 大模型的预训练及微调1.4.1 无监督预训练1.4.2 指令微调1.4.3 基于人类反馈微调1.5 大模型的评测1.5.1 评测任务1.5.2 评测数据集1.5.3 评测方法1.5.4 评测中的挑战第2章 部署Llama 2大模型2.1 部署前的准备2.1.1 硬件准备2.1.2 环境准备2.2 模型的导入与加载2.2.1 下载代码2.2.2 下载模型2.3 模型部署2.3.1 API部署2.3.2 text-generation-webui 部署2.3.3 使用text-generation-webui第3章 微调Llama 2大模型3.1 微调的数据集准备和标注3.1.1 数据集准备3.1.2 数据集标注3.2 Llama 2大模型加载3.3 微调策略设计及模型重新训练3.3.1 微调策略设计3.3.2 模型参数高效微调3.4 模型评估、测试和模型优化3.4.1 模型评估、测试3.4.2 模型优化3.5 模型保存、模型部署和推理加速3.5.1 模型保存3.5.2 模型部署3.5.3 推理加速第4章 解决Llama 2大模型多轮对话难题4.1 定制多轮对话数据集和构造方法4.1.1 准备微调训练数据的7个原则4.1.2 定制微调训练数据集4.1.3 多轮对话的3个场景4.2 实操构造多轮对话微调训练数据集4.3 通过多轮对话存储解决信息流失问题4.3.1 拼接历史与当前输入4.3.2 上下文向量4.3.3 对话状态追踪4.3.4 状态压缩4.3.5 增量学习和在线学习4.4 提高大模型多轮对话应对能力4.4.1 针对性的数据集与微调4.4.2 实时反馈与自适应4.4.3 强化学习优化4.4.4 上下文感知与个性化4.4.5 多模态与多任务学习4.4.6 错误处理与恢复策略4.5 模型评估与持续改进4.5.1 微调Llama 2大模型评估4.5.2 持续改进4.6 适合Llama 2大模型多轮对话的prompt构建第5章 基于Llama 2定制行业大模型5.1 业务数据分析指导行业大模型定制5.1.1 行业大模型的定制策略5.1.2 模型性能的评估5.2 行业数据的获取与预处理5.2.1 数据获取5.2.2 数据预处理5.3 Llama 2大模型导入初始化5.4 微调获得行业特定大模型5.4.1 领域预训练5.4.2 微调策略5.5 模型测试、评估和优化第6章 Llama 2 + LangChain文档问答模型构建6.1 LangChain介绍6.2 LangChain的主要概念与示例6.2.1 模型6.2.2 提示6.2.3 输出解析器6.2.4 索引6.2.5 内存6.2.6 链6.2.7 代理6.2.8 工具6.3 LangChain 环境配置6.3.1 Python环境搭建6.3.2 LangChain主要模块6.4 Llama 2+LangChain文档问答模型评估6.4.1 设置虚拟环境和创建文件结构6.4.2 Llama 2和LangChain的交互流程6.4.3 具体案例第7章 多语言大模型技术介绍及其工业应用7.1 多语言大模型的研究现状和技术方向7.1.1 为什么进行多语言研究7.1.2 多语言在NLP社区的发展7.1.3 多语言模型技术方向7.2 多语言大模型的预训练资源和评测任务7.2.1 多语言大模型的预训练资源介绍7.2.2 评测任务介绍7.3 多语言大模型的优化方向7.3.1 数据预处理流程7.3.2 Tokenizer7.3.3 训练数据格式和采样策略7.3.4 多语言大模型的训练任务7.3.5 多语言大模型的优化方向总结(以Llama 2为例)7.4 多语言大模型的工业应用7.4.1 智能客服7.4.2 搜索引擎7.4.3 机器翻译
|
|