详情
大模型经历了从统计语言模型到基于神经网络的语言模型,再到Transformer架构的演进过程,如今已在各领域广泛应用且备受关注。本书围绕大模型展开,共分为6章。首先介绍机器学习基础,包括人工智能、模型、神经网络等概念;接着阐述语言建模基础,涵盖统计语言模型及其评估技术;随后聚焦循环神经网络,讲解其实现与训练过程;继而深入解析Transformer架构,涉及自注意力机制等关键组件;然后探讨与大模型相关的议题,如微调预训练模型、减少幻觉现象等;最后总结全书并延伸介绍混合专家模型、模型压缩等前沿拓展内容。全书语言精练,配有实操代码示例。
本书适合软件开发者、数据科学家、机器学习工程师,以及对大模型感兴趣、具备一定编程经验(最好熟悉Python语言)和大学数学基础,希望理解大模型的数学基础、探究其运作原理、自行实现核心组件或学习高效运用大模型的方法的读者阅读。