LLM 发展历程

第一阶段

最开始出现在人们眼前的并非 GPT-3，而是更早的 BERT(2018)、GPT(2018)和 GPT-2(2019)。但 GPT-3 (2020)确实是第一个展现出惊人能力的大规模语言模型。那个时候大家把它当做聊天助手玩儿，玩儿着玩儿着，感觉不对劲了，开始发现这东西有点儿牛逼，好像跟若干年前的"人工智障"不一样了。

但随着玩儿的人多了，玩儿的深了，发现这玩意儿也有局限性，比如：

有问必答，即使不确定也会给出答案
输出不稳定，相同输入可能得到不同结果
回答不准确，容易产生幻觉(hallucination)
需要海量训练数据和计算资源

但这些并不妨碍它成为里程碑式的产品。

有局限性，就有解决局限性的需求，于是，催生出了两个方向的优化：

优化模型本身
优化模型使用方式

第二阶段

优化模型本身还能再拆：

架构优化：MoE(Mixture of Experts)架构、Transformer 变体
训练优化：RLHF(基于人类反馈的强化学习)、CoT(思维链)训练、指令微调(Instruction Tuning)

优化模型使用方式也能再拆：

Prompt Engineering
Fine-tuning 和 LoRA 等参数高效微调方法

也就有了很长一段时间的主基调：

大厂卷参数、模型
中小厂卷 fine-tuning
个人卷 prompt engineering

还真别说，这玩意儿还真就卷起来了，输出稳定多了，用法也多样化了，
人们慢慢开始意识到，大模型更像一个饱读经书的学者，而

大厂不断产出更牛逼的学者
中小厂教会学者业务
个人让学者掌握自己的方法论、SOP

第三阶段

大模型接触到外部数据了，
联网、数据库、PDF、Word 文档、图片、视频...啥都行。
借助实时数据，大模型有如神助，这条路走对了：
大模型的核心在于快速吸收、整理总结、归纳提炼、解决问题的能力，而不是仅仅基于训练数据的"高级聊天机器人"。
客观讲，它是工具；哲学点儿，它就是助理、agent的概念被人们第一次搬上台面。
与此同时就是基于外部数据库的 RAG 架构，让大模型高效、高质检索外部数据。
回看模型本身，从原来的区区 2048 个 context 长度，卷到 32k、128k、256k...
无不是冲着让模型更好的 RAG 去的。

第四阶段

结合 fine-tuning、prompt engineering 和 RAG 的技术积累，Agent 范式逐渐成型。通过系统化训练和 CoT(思维链)推理，Agent 能够理解任务、检索信息、分析整合、规划方案。随着 Function Calling 能力的加入，Agent 获得了调用外部工具的能力，这让它们能够执行更复杂的任务链和自动化流程。