大模型创新架构

本节目录 Contents

大模型创新架构#

大模型新架构如 SSM、MMAMA、Linear Transformer、RKWV 在多个方面进行了创新与优化。它通过更高效的并行计算策略,提升了模型训练和推理的速度;采用新的网络结构设计,增强了模型对复杂数据的理解能力;同时引入了更灵活的参数共享机制,在不降低性能的前提下降低了计算资源消耗。此外,新架构还注重与实际应用场景的结合,能够更好地适应不同任务需求,为 AI 的广泛应用提供了更强大的技术支撑。

内容大纲#

建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~

大纲

小节

链接

状态

创新架构

01 打破 Transformer 架构垄断

PPT, 视频

:white_check_mark:

创新架构

02 Linear Transformer 线性层

PPT, 视频

:white_check_mark:

:sparkling_heart:

:star2:

:sparkling_heart:

代码实践 :computer:

01 基于 RWKV 的 RNN 范式革新

Markdown, Jupyter

:white_check_mark:

代码实践 :computer:

02 Mamba 状态空间模型

Markdown, Jupyter

:white_check_mark:

代码实践 :computer:

03 RetNet:混合训练实战

Markdown, Jupyter

:white_check_mark:

备注#

系列视频托管B 站油管,PPT 开源在github,欢迎引用!

非常希望您参与到这个开源课程中,B 站给 ZOMI 留言哦!