百页大模型原理

978-7-115-68343-4
作者: [加]安德烈·布可夫(Andriy Burkov)
译者: 彭文华于冰冰
编辑: 卜一凡

图书目录:

详情

大模型经历了从统计语言模型到基于神经网络的语言模型,再到Transformer架构的演进过程,如今已在各领域广泛应用且备受关注。本书围绕大模型展开,共分为6章。首先介绍机器学习基础,包括人工智能、模型、神经网络等概念;接着阐述语言建模基础,涵盖统计语言模型及其评估技术;随后聚焦循环神经网络,讲解其实现与训练过程;继而深入解析Transformer架构,涉及自注意力机制等关键组件;然后探讨与大模型相关的议题,如微调预训练模型、减少幻觉现象等;最后总结全书并延伸介绍混合专家模型、模型压缩等前沿拓展内容。全书语言精练,配有实操代码示例。 本书适合软件开发者、数据科学家、机器学习工程师,以及对大模型感兴趣、具备一定编程经验(最好熟悉Python语言)和大学数学基础,希望理解大模型的数学基础、探究其运作原理、自行实现核心组件或学习高效运用大模型的方法的读者阅读。

图书摘要

相关图书

扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体
扣子(Coze) Skills+OpenClaw 实战:零基础玩转AI智能体
动手构建大模型
动手构建大模型
深入解析计算机系统
深入解析计算机系统
动手学大模型智能体
动手学大模型智能体
OpenClaw觉醒:基于AI智能体的超级生产力构建指南
OpenClaw觉醒:基于AI智能体的超级生产力构建指南
揭秘大模型:从原理到实战
揭秘大模型:从原理到实战

相关文章

相关课程