大模型导论

元数据

大模型导论

书名：大模型导论
作者：张成文
简介：本书主要介绍了大模型的发展与演变、相关技术、应用场景、未来发展趋势和前景。本书首先回顾了大模型技术的起源和发展历程，然后介绍了数据预处理、Transformer、预训练与微调、模型推理和PyTorch框架等技术。此外，本书还通过具体的案例和实践展示了如何应用大模型技术来解决实际问题。本书旨在帮助读者全面了解大模型技术的发展与应用，并推动其在各个领域的应用和发展。本书图文并茂，理论翔实，案例丰富，适合从事大模型开发的科研人员以及广大的开发者作为技术参考和培训资料，亦可作为高校本科生和研究生的教材。
出版时间 2024-07-01 00:00:00
ISBN： 9787115637987
分类：科学技术-工业技术
出版社：人民邮电出版社有限公司
PC地址：https://weread.qq.com/web/reader/e5e32a50813ab91d7g015aca

高亮划线

1.1 大模型介绍

📌 大模型的核心生成原理是将输入的语句以词向量的表征形式传递给神经网络，通过编码器/解码器（Encoder/Decoder，详见第3章）、位置编码和自注意力机制建立单词（或字）之间的联系。从宏观的视角来看，输入的每个单词（或字）首先会与已经编码在模型中的单词（或字）进行相关性计算，然后把这种相关性以编码的形式叠加在每个单词（或字）中。如图1-2所示，经过计算后，“it”与输入句子中的其他单词的相关性权重将会增加，颜色越深代表相关性越高。
⏱ 2025-01-10 19:02:31 ^3300110955-7-4938-5156

📌 在获得各个单词间的相关性之后，模型以概率分数标记序列中下一个输出的单词的可能性（也称概率），并选择最佳选项。
⏱ 2025-01-10 19:03:21 ^3300110955-7-5557-5611

📌 虽然模型会选择下一个最合适的单词，但是由多个最佳单词组成的句子可以并不通顺。为了解决这个问题，Transformer使用了Beam Search（束搜索）[插图]等方法以提高生成质量。这些方法不是只关注序列中的下一个单词，而是将更大的一组单词作为一个整体来考虑，同时考虑多个序列上的联合概率
⏱ 2025-01-10 19:03:38 ^3300110955-7-5959-6186

📌 综上所述，可以将大模型看作概率模型。不同于通过数据库对数据进行检索，大模型通过大量学习世界知识，依据概率生成足够准确的回答。
⏱ 2025-01-10 19:04:01 ^3300110955-7-6600-6662

📌 在大模型研究中，模型的零样本学习能力已成为评估模型性能的重要指标之一。与此同时，提示词(Prompt)作为大模型的一种关键输入形式，经常与零样本学习协同使用，以优化模型的性能。提示词可以被视作用户向大模型发送的指令。通过精心设计提示词，用户可以引导大模型生成符合期望的内容。
⏱ 2025-01-10 19:05:59 ^3300110955-7-8006-8143

📌 在大模型中，Token（词元）是文本中的最小单位，可以代表一个单词、一个标点符号、一个数字等。Tokenization（分词）是将一个句子或文本分成多个Token的过程。常用的分词方法包括BPE（Byte-Pair Encoding，字节对编码）算法、WordPiece算法和ULM（Uni-gram Language Model，一元语言模型）算法。在第12章中进行开源模型的微调实践时，在训练模型前，不仅需要加载模型的权重参数，还需要导入对应的Tokenizer（分词器）。在大模型的训练和应用中，模型将接收的大量Token作为输入，并对下一个最有可能出现的Token进行预测。如今，很多模型会将Token处理为词向量（Embedding，也称为词嵌入）的形式，这种形式的数据便于在神经网络中处理。
⏱ 2025-01-10 19:10:03 ^3300110955-7-15585-15965

读书笔记

本书评论

微信阅读笔记

大模型导论

https://blog.pangcy.cn/2025/01/10/微信阅读笔记/大模型导论/

作者

张成文

发布于

2025年1月10日

许可协议

白话大模型相关概念上一篇

Ollama 部署本地大模型与使用下一篇