LLM 发展历程
第一阶段
最开始出现在人们眼前的并非 GPT-3,而是更早的 BERT(2018)、GPT(2018)和 GPT-2(2019)。 但 GPT-3 (2020)确实是第一个展现出惊人能力的大规模语言模型。 那个时候大家把它当做聊天助手玩儿, 玩儿着玩儿着,感觉不对劲了, 开始发现这东西有点儿牛逼,好像跟若干年前的"人工智障"不一样了。
但随着玩儿的人多了,玩儿的深了,发现这玩意儿也有局限性,比如:
- 有问必答,即使不确定也会给出答案
- 输出不稳定,相同输入可能得到不同结果
- 回答不准确,容易产生幻觉(hallucination)
- 需要海量训练数据和计算资源
但这些并不妨碍它成为里程碑式的产品。
有局限性,就有解决局限性的需求,于是,催生出了两个方向的优化:
- 优化模型本身
- 优化模型使用方式
第二阶段
优化模型本身还能再拆:
- 架构优化:MoE(Mixture of Experts)架构、Transformer 变体
- 训练优化:RLHF(基于人类反馈的强化学习)、CoT(思维链)训练、指令微调(Instruction Tuning)
优化模型使用方式也能再拆:
- Prompt Engineering
- Fine-tuning 和 LoRA 等参数高效微调方法
也就有了很长一段时间的主基调:
- 大厂卷参数、模型
- 中小厂卷 fine-tuning
- 个人卷 prompt engineering
还真别说,这玩意儿还真就卷起来了,输出稳定多了,用法也多样化了,
人们慢慢开始意识到,大模型更像一个饱读经书的学者,而
- 大厂不断产出更牛逼的学者
- 中小厂教会学者业务
- 个人让学者掌握自己的方法论、SOP
第三阶段
大模型接触到外部数据了,
联网、数据库、PDF、Word 文档、图片、视频...啥都行。
借助实时数据,大模型有如神助,这条路走对了:
大模型的核心在于快速吸收、整理总结、归纳提炼、解决问题的能力,而不是仅仅基于训练数据的"高级聊天机器人"。
客观讲,它是工具;哲学点儿,它就是助理、agent的概念被人们第一次搬上台面。
与此同时就是基于外部数据库的 RAG 架构,让大模型高效、高质检索外部数据。
回看模型本身,从原来的区区 2048 个 context 长度,卷到 32k、128k、256k...
无不是冲着让模型更好的 RAG 去的。
第四阶段
结合 fine-tuning、prompt engineering 和 RAG 的技术积累,Agent 范式逐渐成型。 通过系统化训练和 CoT(思维链)推理,Agent 能够理解任务、检索信息、分析整合、规划方案。 随着 Function Calling 能力的加入,Agent 获得了调用外部工具的能力, 这让它们能够执行更复杂的任务链和自动化流程。