什么是大语言模型(LLMs)？

你有没有想过，为什么ChatGPT能够和你聊天、写代码、翻译文章，甚至帮你写诗？这背后的秘密就是"大语言模型"。

开宗名义：大语言模型（Large Language Models）指的是参数数量庞大、结构复杂的深度学习模型。参数数量通常从百万到数十亿，甚至更多。

一、什么是“大模型”

大语言模型，顾名思义，就是参数数量特别多的AI模型：

传统的AI模型就像专业技工，一个模型只会做一件事。但大语言模型就像是个全才，能够处理多种不同的任务。

大语言模型有几个让人惊叹的特点：

最神奇的是，你只需要给它几个例子（甚至不给例子），它就能学会新任务。这就像你告诉一个聪明的朋友"帮我把这段话改成诗歌风格"，他立马就能理解并做到。

让我们用一个表格来对比一下：

简单来说，就是从"专业技工"进化成了"博士生导师"的区别。

大部分大语言模型都基于一个叫做Transformer的架构。这个名字听起来很酷，但其实原理并不复杂。

想象你在读一本小说：

Transformer就是模仿了这种阅读方式。它有一个叫做"注意力机制"的功能，能够同时关注文本中的所有词语，理解词语之间的关系。

参考论文：https://arxiv.org/pdf/1706.03762