04.集群性能分析#
本系列将系统讲解集群性能的全方位分析与优化实践,涵盖以下核心内容:从硬件资源、模型效率、利用率到业务指标的集群性能评估;基于 TOP500 和 MLPerf 的算力计算方法;网络通信带宽与线性度的量化分析;大模型训练/推理的内存需求测算;MFU(模型浮点运算利用率)的评估;以及能效与成本扩展计算,构建从基础指标到成本控制的完整性能优化体系。
内容大纲#
建议优先下载 PDF 版本,PPT 版本会因为字体缺失等原因导致版本很丑哦~
大纲 |
小节 |
链接 |
状态 |
---|---|---|---|
:sparkling_heart: |
:star2: |
:sparkling_heart: |
|
性能 实践 :computer: |
CODE 01: 拆解 Transformer-Decoder |
:white_check_mark: |
|
性能 实践 :computer: |
CODE 02: MOE 参数量和计算量 |
:white_check_mark: |
|
性能 实践 :computer: |
CODE 03: MFU 模型利用率评估 |
:white_check_mark: |
备注#
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AIInfra ,希望您多多鼓励和参与进来!!!
文字课程开源在 AIInfra,系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!
欢迎发现 bug 或者勘误直接提交代码 PR 到社区哦!