03.万卡 AI 集群#
深入探讨超大规模 AI 计算集群的建设,核心围绕“万卡 AI 集群”,从面临的存算网络协同、快速交付与紧张工期等挑战出发,详细解读从 L0 级机房布线到 L3 级上层软件的全栈建设方案,并涵盖万卡性能测试方法与真实客户场景应用。视频还将深度分析 NVIDIA Blackwell 架 构与 BG200 芯片的技术演进,研究马斯克 XAI 十万卡集群的案例实践,最终延伸至对构建十万卡级别超大规模集群的前瞻性思考。
详细内容#
大纲 |
小节 |
链接 |
---|---|---|
NV 产品分析 |
01 AI 万卡集群建设挑战 |
|
NV 产品分析 |
02 AI 万卡集群建设交付 |
|
NV 产品分析 |
03 AI 万卡集群测试步骤(上) |
|
NV 产品分析 |
03 AI 万卡集群性能测试(中) |
|
NV 产品分析 |
03 AI 万卡集群实践总结(下) |
|
NV 产品分析 |
04 NV Blackwell 详细分析 |
|
NV 产品分析 |
05 NV Blackwell 深度解读 |
|
NV 产品分析 |
06 NV GB200 网络演进 |
|
NV 产品分析 |
07 NV GB200 集群互联方案 |
|
十万卡集群 |
08 XAI 十万卡集群解读 |
|
十万卡集群 |
09 十万卡 AI 集群思考 |
内容大纲#
备注#
文字课程内容正在一节节补充更新,每晚会抽空继续更新正在 AIInfra ,希望您多多鼓励和参与进来!!!
文字课程开源在 AIInfra,系列视频托管B 站和油管,PPT 开源在github,欢迎引用!
非常希望您也参与到这个开源课程中,B 站给 ZOMI 留言哦!
欢迎发现 bug 或者勘误直接提交代码 PR 到社区哦!