北京网站建设方案网站建设好怎么才有生意-嘉峪关市网站建设公司-Seo优化

北京网站建设方案,网站建设好怎么才有生意,新东方在线教育平台官网,安徽网站建设网新本文详细介绍了大模型训练中的张量并行(TP)技术#xff0c;包括矩阵分块乘法基础及其在MLP和Self-Attention模块中的应用。文章分析了数据并行(DP)、流水线并行(PP)和张量并行三种方法的特点#xff0c;提出了组合这三种方法的3D并行方案#xff0c;有效解决超大规模模型训练…本文详细介绍了大模型训练中的张量并行(TP)技术包括矩阵分块乘法基础及其在MLP和Self-Attention模块中的应用。文章分析了数据并行(DP)、流水线并行(PP)和张量并行三种方法的特点提出了组合这三种方法的3D并行方案有效解决超大规模模型训练问题。通过合理组合三种并行方法降低单GPU的存储和计算负载是实现大规模模型训练的重要技术。本系列的前两篇文章中别介绍了 ZeRO 数据并行Data ParallelismDP和流水线并行Pipeline ParallelismPP。本篇的第一部分将介绍另一种常见的并行化方法张量并行Tensor ParallelismTP。张量并行将单个网络层的计算划分到多个 GPU 上从而降低单张 GPU 的存储和计算负载。张量并行在模型训练和推理阶段均有广泛应用。本篇的第二部分将基于 DP、PP 和 TP介绍 LLM 早期经典的 3D 并行方法。在训练参数量巨大的模型时任意一种并行化方法都无法有效地扩展到足够多的 GPU 上。利用 DP、PP 和 TP 三种并行化方法各自的特点可以将它们组合在一起形成 3D 并行3D Parallelism从而实现对超大规模模型的训练。1. 张量并行Tensor Parallelism1.1 张量并行的基础矩阵分块乘法在深度神经网络的计算中矩阵乘法是最常见的计算操作之一。假设我们有一个输入矩阵一个权重矩阵其中表示输入序列的长度表示隐藏层的维度表示输出的维度。是矩阵乘法的输出。下面简要回顾一下矩阵乘法的两个视角列视角和标量视角它们非常自然地为矩阵分块计算提供了思路。默认情况下本文使用的“向量”均指列向量。深刻理解矩阵乘法要优先使用“向量思维”而不是“标量思维”。对矩阵乘法还不太熟悉的朋友可以参考 Gilbert Strang 的线性代数课程或专著《Introduction to Linear Algebra》。图1.1 矩阵与向量乘法的列视角图 1.1 所示为一个大小为 (4, 3) 的矩阵和一个大小为 (3, 1) 的向量之间的乘积。在列视角下该乘积可看作是矩阵中各列向量的线性组合线性组合的系数由向量的每个元素确定。例如向量的第一个元素作为中第一列向量的系数向量的第二个元素作为中第二列向量的系数以此类推。列视角最大的优势在于它表明两个矩阵之间的乘法实际上可以看作是矩阵与多个向量之间的乘法如图 1.2 所示。图1.2 矩阵与矩阵乘法的列视角从图 1.2 可以看到矩阵与矩阵的乘积可以分解为矩阵与矩阵的每一列向量的乘积然后将这些乘积结果直接按列的顺序拼接起来就得到最终结果。矩阵与某个向量的乘积可参考图 1.1 介绍的线性组合视角。这意味着当计算矩阵与矩阵的乘积时我们可以独立地使用矩阵与矩阵的每一列向量进行乘积计算只在最后做一次合并。从并行计算的角度来看这表明可以对矩阵的列向量进行切分放到不同的 GPU 上进行计算与它的乘积然后将每个 GPU 上的计算结果进行拼接得到最终结果。为了便于后续描述将这种切分方法称为“列切分”。对它总结一下列切分当计算时将矩阵按列切分成多个子矩阵然后将每个子矩阵放到不同的 GPU 上进行计算最后将所有拼接起来得到最终结果。注意不要求只有一列。例如假设矩阵有 8 列且我们有 4 个 GPU那么可以将矩阵按列切分成 4 个子矩阵每个子矩阵包含 2 列。第二种视角是标量视角这也是我们线性代数教材中常见的视角。标量视角在每个数的计算上定义了矩阵乘法的规则。简单来说结果矩阵的每个元素由矩阵的第行与矩阵的第列的对应元素逐一相乘后求和得到如图 1.3 所示。图1.3 矩阵与矩阵乘法的标量视角矩阵乘法的一个神奇性质是标量视角下定义的矩阵乘法规则适用于分块矩阵的乘法。例如将矩阵按列切分成两个子矩阵将矩阵按行切分成两个子矩阵。那么矩阵与矩阵的乘积可以表示为可以仔细对比一下式1.1和图 1.3 中的计算过程。式1.1成立的一个前提是各分块子矩阵之间的乘法是有定义的。也就是说矩阵的列数要等于矩阵的行数矩阵的列数要等于矩阵的行数。将这种切分方法称为“外积和切分”对它总结一下外积和切分当计算时将矩阵按列切分成多个子矩阵将矩阵按行切分成多个子矩阵然后将下标不同的子矩阵放到不同的 GPU 上进行计算最后将所有求和得到最终结果。直观来看列切分和外积和切分的区别在于列切分是将矩阵切分成多个子矩阵而外积和切分是将矩阵和矩阵都切分成多个子矩阵。1.2 MLP 与 Self-Attention 的张量并行标准 Transformer Block 主要包含一个 Self-Attention 模块和一个 MLP 模块。Megatron 的张量并行其实就是将上文介绍的列切分和外积和切分应用到 Self-Attention 模块和 MLP 模块中。我们先从相对简单的 MLP 模块开始介绍。1.2.1 MLP 模块的张量并行MLP 通常由两个全连接层构成。假设输入矩阵为第一个全连接层的权重矩阵为第二个全连接层的权重矩阵为其中表示隐藏层的维度。MLP 的计算过程可以表示为其中 Act 表示激活函数例如 ReLU 或 GeLU。可以首先对式1.2中的矩阵乘法使用列切分。以 2 张 GPU 的张量并行为例将矩阵按列切分成两个子矩阵然后将它们分别放到 GPU 0 和 GPU 1 上进行计算因为激活函数通常是 Element-wise 的所以可以分别对和进行激活函数计算得到。此时可以使用一个 All-Gather 操作将和从两个 GPU 上收集到一起得到然后再用同样的方法对式1.3中的矩阵乘法使用列切分将矩阵按列切分成两个子矩阵然后将它们分别放到 GPU 0 和 GPU 1 上进行计算最后再使用一个 All-Gather 操作将和从两个 GPU 上收集到一起得到最终。上诉方法一共需要 2 次 All-Gather 操作。实际上可以注意到当进行完式1.4和1.5的计算后和已经分别在 GPU 0 和 GPU 1 上并且它们从逻辑上形成了对的列切分。这意味着只需要对矩阵按照行进行切分就能使用前文介绍的“外积和切分”法。具体来说将矩阵按行切分成两个子矩阵然后将它们分别放到 GPU 0 和 GPU 1 上与对应的和进行计算最后再使用一个 All-Reduce 操作将和从两个 GPU 上收集到一起并求和得到最终。这样就只需要执行一次聚合操作All-Reduce而不是两次All-Gather。MLP 的张量并行示意如图 1.4 所示。图1.4 MLP模块的张量并行1.2.2 Self-Attention 模块的张量并行Self-Attention 模块对每个 Head 进行如下计算其中表示 Head 的数量分别表示第个 Head 的 Query、Key、Value 的权重矩阵。这里为了简单起见假设 QKV 的维度相等。利用每个 Head 的输出 Self-Attention 模块的最终输出为其中是参数矩阵是所有拼接的结果因为每个 Head 的输出计算相互独立所以可以将每个 Head 的计算分配到不同的 GPU 上进行。同时注意到式1.13中的实际上已经按照列划分了因此可以按照 MLP 中同样的做法对矩阵进行行切分分成 H 个子矩阵然后将它们分别放到与对应的对应的 GPU 上进行计算…最后再使用一个 All-Reduce 操作将所有结果收集到一起并求和得到最终。Self-Attention 的张量并行示意如图 1.5 所示。图1.5 Self-Attention模块的张量并行。假设 Head 数为 22. 3D 并行组合 TP、PP 与 DP本小节将结合前两篇文章中介绍的 DPData Parallelism数据并行、PPPipeline Parallelism流水线并行和本篇的 TPTensor Parallelism张量并行介绍将它们组合在一起的 3D 并行方法。之所以称为 3D是因为恰好有三种不同的并行方法并且它们相对独立每种方法就是一个 Dimension。我们首先分析一下三种并行化方法各自的特点然后再介绍它们的组合方案。2.1 三种并行化方法的特点DP的扩展方法非常简单只需要将数据划分成多份然后将每份数据分配到不同的 GPU 上进行计算即可。但这也意味着 DP 的扩展和数据 Batch 是绑定的。要将 DP 扩展到更多的 GPU 上通常也需要增大全局 Batch 的大小。但是过大的 Batch 会影响模型的收敛因此虽然 DP 在理论上可以无限扩展但实际上需要防止 DP 扩展到更大规模时因过大的 Batch Size 而导致的副作用。DP 的存储效率传统 DP 需要在每个 GPU 上存储完整的模型参数因此存储效率较低。在第一篇中介绍的 ZeRO 可以显著提升 DP 的存储效率因此存储开销通常不是 DP 的瓶颈。DP 的计算效率DP 中每个 Worker 都需要执行一次完整的前向和反向计算因此每个 Worker 的计算不会因 Worker 数量的增加而改变始终恒定假设 Per-Device Batch 大小固定。但是随着模型的增大整体通信开销也随之增大。在之前的 ZeRO 文中分析过对于参数量为的模型最常见的 ZeRO-2 的通信开销为 Bytes。当模型非常大时如 100B模型每次 Step 都需要通信 200GB 的数据尤其当需要跨节点通信时通信开销会影响计算效率。此外虽然理论上 ZeRO-2 的通信开销与 Worker 数量无关但实际中随着 Worker 数量的增加所有节点必须同步的问题非常容易受到慢节点、网络跳数等因素的影响从而实际通信耗时增加。因此 DP 不适合大规模扩展在小规模扩展上最具优势。PP将模型划分成多个阶段Stage将每个阶段分配到不同的 GPU 上进行计算。当收到一个 Batch 数据后第一个 Stage 开始进行前向计算计算完成后将结果Activation传递给下一个 Stage然后下一个 Stage 开始计算如此循环直到最后一个 Stage 计算完成。然后再从最后一个 Stage 开始进行反向计算依次将梯度回传直到第一个 Stage 计算完成。在实际应用中通常会使用更复杂的策略来尽量降低各个 GPU 的空闲时间。PP 的扩展上限受到模型中网络层数的限制。PP 的存储效率每个 Worker 只需要存储自己负责的 Stage 的参数因此每个 Worker 的存储开销随着 Worker 数量的增加而线性减少。PP 的计算效率因为 PP 只需要在两个相邻 Stage 之间进行某一层 Activation/Gradient 的通信所以 PP 的通信开销是三种并行化方法中最低。PP 的难点主要在于如何确保各个 Stage 的计算负载均衡避免出现大量的空闲时间。TP将模型的张量划分成多个子张量然后将每个子张量分配到不同的 GPU 上进行计算。TP 的存储效率每个 Worker 只需要存储自己负责的子张量因此每个 Worker 的存储开销随着 Worker 数量的增加而线性减少。TP 的计算效率TP 的计算负载均衡性较好因为每个 Worker 都需要参与每一层的计算不会出现明显的空闲时间。但 TP 的通信开销较大因为每一层的前向或反向计算都需要聚合操作All-Gather 或 All-Reduce。随着模型规模的增大TP 的通信开销会显著增加从而影响计算效率。因为巨大的通信开销要绝对避免在不同节点上进行 TP。2.2 3D Parallelism根据上述三种并行化方法的特点我们尝试分析一下它们合理的组合方式。为了简单起见使用一个具体的示例来说明。假设模型的参数量是 512B。可以从三种并行化方法“受限程度”出发优先决定受限程度高的方法的使用方式然后再决定受限程度低的方法。上述三种并行化方法中TP 的受限程度最高因为 TP 高昂的通信量导致其不能跨节点使用。其次是 PP因为 PP 的理论扩展上限受到模型网络层数的限制并且在实际中也要避免每个 Stage 过小而降低计算效率。最后是 DP因为 DP 在理论上可以无限扩展仅仅在规模非常大时会受到 Batch Size 和通信效率的影响。因此可以先不考虑 DP将模型使用 PP 划分为多个 Stage然后在每个 Stage 内使用 TP 再次切分。回到示例假设首先将模型划分为 16 个 Stage每个 Stage 的参数量为 32B并且每个 Stage 放在一个 8 卡节点上。而在每个节点内再使用 TP 将每个 Stage 切分成 8 份每份参数量为 4B。我们将上述方案称为 16-way PP 8-way TP。16-way PP 8-way TP 一共需要 16 x 8 128 张 GPU这 128 张 GPU 上的每个 GPU 保存的模型参数都不相同共同构成一个完整的模型副本。为了便于描述我们用表示这 128 张 GPU。当上述方案已经接近极限时为了继续扩大计算规模只能尝试 DP 了。“极限”意味着没有办法继续增加 PP 的 Stage 数量。虽然 PP 的 Stage 数量理论上不能超过模型的网络层数但实际应用中也不能让 PP 的每个 Stage 太小否则会导致主要的计算开销全部集中在 Stage 之间的通信上从而影响计算效率。假设使用 2-way DP并且有两组完全一样的 16-way PP 8-way TP 的划分方案。将第一组的 GPU 记为将第二组的 GPU 记为。因为 DP 只能作用于参数相同的 GPU 之间所以和构成一个 DP 组和构成一个 DP 组以此类推一共构成 128 个 DP 组。在每个 DP 组内可以使用 ZeRO 来进一步提升存储效率。因为每个 DP 组内的 GPU 数量通常较小所以这种划分方法不会显著影响 ZeRO 的通信效率。图 2.1 是一个 4-way TP 4-way PP 2-way DP 的示意图大家可以结合上面的描述进行理解。早期经典的 3D 并行使用 TP 1F1B PP ZeRO DP 的组合方式。图 2.1 3D 并行示意图ZeRO DP 和 1F1B PP 的介绍请参考本系列前两篇文章。3. 总结本文介绍了张量并行和基于张量并行、流水线并行、数据并行的 3D 并行化方案。3D 并行是支撑早期大规模 LLM 训练的重要技术其中稍微不那么直觉的部分是对数据并行的使用方法。基于 3D 并行后续逐渐演化出了 4D、5D 方案不过这都是后话。最后我在一线科技企业深耕十二载见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事早已在效率与薪资上形成代际优势我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我整理出这套 AI 大模型突围资料包✅AI大模型学习路线图✅Agent行业报告✅100集大模型视频教程✅大模型书籍PDF✅DeepSeek教程✅AI产品经理入门资料完整的大模型学习和面试资料已经上传带到CSDN的官方了有需要的朋友可以扫描下方二维码免费领取【保证100%免费】为什么说现在普通人就业/升职加薪的首选是AI大模型人工智能技术的爆发式增长正以不可逆转之势重塑就业市场版图。从DeepSeek等国产大模型引发的科技圈热议到全国两会关于AI产业发展的政策聚焦再到招聘会上排起的长队AI的热度已从技术领域渗透到就业市场的每一个角落。智联招聘的最新数据给出了最直观的印证2025年2月AI领域求职人数同比增幅突破200%远超其他行业平均水平整个人工智能行业的求职增速达到33.4%位居各行业榜首其中人工智能工程师岗位的求职热度更是飙升69.6%。AI产业的快速扩张也让人才供需矛盾愈发突出。麦肯锡报告明确预测到2030年中国AI专业人才需求将达600万人人才缺口可能高达400万人这一缺口不仅存在于核心技术领域更蔓延至产业应用的各个环节。资料包有什么①从入门到精通的全套视频教程⑤⑥包含提示词工程、RAG、Agent等技术点② AI大模型学习路线图还有视频解说全过程AI大模型学习路线③学习电子书籍和技术文档市面上的大模型书籍确实太多了这些是我精选出来的④各大厂大模型面试题目详解⑤ 这些资料真的有用吗?这份资料由我和鲁为民博士共同整理鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。所有的视频教程由智泊AI老师录制且资料与智泊AI共享相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌构建起前沿课程智能实训精准就业的高效培养体系。课堂上不光教理论还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作把课本知识变成真本事‌如果说你是以下人群中的其中一类都可以来智泊AI学习人工智能找到高薪工作一次小小的“投资”换来的是终身受益应届毕业生‌无工作经验但想要系统学习AI大模型技术期待通过实战项目掌握核心技术。零基础转型‌非技术背景但关注AI应用场景计划通过低代码工具实现“AI行业”跨界‌。业务赋能 ‌突破瓶颈传统开发者Java/前端等学习Transformer架构与LangChain框架向AI全栈工程师转型‌。获取方式有需要的小伙伴可以保存图片到wx扫描二v码免费领取【保证100%免费】**

北京网站建设方案网站建设好怎么才有生意

哈尔滨做平台网站平台公司哪家好春蕾科技网站建设

一个网站如何做seo优化wordpress禁用响应

锦州建设工程信息网站玉溪市建设局网站

高校二级网站建设要求wordpress精选主题

长春老火车站图片吉安公司做网站

如何高效的完成网站建设步骤优企网络

北京网站建设方案网站建设好怎么才有生意

哈尔滨做平台网站平台公司哪家好春蕾科技 网站建设

一个网站如何做seo优化wordpress禁用响应

锦州建设工程信息网站玉溪市建设局网站

高校二级网站建设要求wordpress精选主题

长春老火车站图片吉安公司做网站

如何高效的完成网站建设步骤优企网络

哈尔滨做平台网站平台公司哪家好春蕾科技网站建设