手机网站格局模具公司网站中品质见证怎么做-嘉峪关市网站建设公司-Seo优化

手机网站格局,模具公司网站中品质见证怎么做,网站正在建设中英文,学做电商新手入门1、概述PagedAttention是一项内存优化技术#xff0c;用于高效管理大预言推理过程中的KV Cache#xff08;键值缓存#xff09;。核心思想#xff1a;借鉴操作系统的虚拟内存分页机制。传统KV Cache是连续内存块#xff0c;存在严重内存碎片和浪费。PagedAttention将KV Ca…1、概述PagedAttention是一项内存优化技术用于高效管理大预言推理过程中的KV Cache键值缓存。核心思想借鉴操作系统的虚拟内存分页机制。传统KV Cache是连续内存块存在严重内存碎片和浪费。PagedAttention将KV Cache划分为固定大小的物理页page逻辑上连续的注意力上下文可以非连续地存储在多个物理页中就像操作系统用页表管理虚拟内存一样。2、传统KV Cache的内存管理1推理两阶段常规LLM推理会分为Prefill和Decode这2个阶段需要用到KV Cache技术进行加速。在Prefill阶段会把prompt过和后得到的向量保存在Cache_K和Cache_V中。在Decode阶段根据prompt的prefill结果一个token一个token地生成response然后逐一把新生成地KV值加到cache中。- 此时随着prompt数量变多和序列变长KV Cache也变大对gpu显存造成压力。- 另外由于输出的序列长度无法预先知道所以我们很难提前为KV Cache量身定制存储空间。2分配存储空间的常规方式由于推理所生成的序列长度大小是无法事先预知的所以大部分框架会按照(batch_size, max_seq_len)这样的固定尺寸在gpu显存上预先为一条请求开辟一块连续的矩形存储空间。然后这样的分配方法很容易引起gpu 显存利用不足的问题进而影响模型推理时的吞吐量。3、PagedAttention原理1虚拟内存核心思想各个进程间独立开发的做法- 给每个进程分配一个虚拟内存。每个进程在开发和运行时可以假设这个虚拟内存上只有自己在跑这样它就能大胆操作。- 虚拟内存负责统一规划代码、数据等如何在物理内存上最终落盘。这个过程对所有进程来说都是透明的进程无需操心。2虚拟内存的分页管理假如有2个进程可以将进程1、进程2想成是两本书。代码分布在书的不同page上。我们希望读哪一页就加载哪一页而不是一下把两本书都加载进来。当我们不想读某页时我们也能根据页码将其清空。现在我们希望读进程1和进程2的page1我们就将其加载到物理内存上。虚拟内存会帮我们做好映射把来自不同进程的这两页分别加载到物理内存对应位置。虚拟内存的分页管理技术总结将物理内存划分为固定大小的块我们称每一块为页page。从物理内存中模拟出来的虚拟内存也按相同的方式做划分对于1个进程我们不需要静态加载它的全部代码、数据等内容。我们想用哪部分或者它当前跑到哪部分我们就动态加载这部分到虚拟内存上然后由虚拟内存帮我们做物理内存的映射。对于1个进程虽然它在物理内存上的存储不连续可能分布在不同的page中但它在自己的虚拟内存上是连续的。通过模拟连续内存的方式既解决了物理内存上的碎片问题也方便了进程的开发和运行。3PagedAttention处理单个请求整个流程如下请求request可理解为操作系统中的一个进程逻辑内存(logical KV blocks)可理解为操作系统中的虚拟内存每个block类比于虚拟内存中的一个page。每个block的大小是固定的在vLLM中默认大小为16即可装16个token的KV值块表block table可理解为操作系统中的虚拟内存到物理内存的映射表物理内存physical KV blocks可理解为操作系统中的物理内存物理块在gpu显存上每个block类比于虚拟内存中的一个page1Prefill阶段划分逻辑块vLLM拿到这条prompt先按照设定好的block大小B本例中B4为prompt划分逻辑块Logical KV blocks。由于prompt中有7个token所以vLLM用2个逻辑块block 0 block 1来装它们的KV值。其中在逻辑块1中目前只装了years, ago, hour这3个token的KV值有1个位置是空余的。这个位置就被称为保留位reservation划分物理块划分好逻辑块后我们就可以将其映射到物理块中去了。物理块是实际存放KV值的地方。我们通过一张block table来记录逻辑块和物理块的映射关系block table的主要内容包括- 逻辑块和物理块的映射关系physical block number例如逻辑块0对应物理块7- 每个物理块上被填满的槽位# filled例如在prefill阶段对物理块7其4个槽位都被填满对物理块1其3个槽位被填满。正常计算prompt的KV值并通过划分好的关系填入物理块中。2Decode阶段-生成第1个词使用KV cache计算attention生成第1个词fathers。不难发现当我们计算时我们使用的是逻辑块即形式上这些token都是连续的。与此同时vLLM后台会通过block table这个映射关系帮我们从物理块上获取数据做实际计算。通过这种方式每个request都会认为自己在一个连续且充足的存储空间上操作尽管物理上这些数据的存储并不是连续的。基于新生成的词更新逻辑块、物理块和block table。对于block tablevLLM将它filled字段由3更新至4。分配新的逻辑块和物理块。当fathers更新进去后逻辑块已装满。所以vLLM将开辟新的逻辑块2并同时更新对应的block table和物理块。4PagedAttention处理多个请求4、基于PagedAttention的Parallel Sampling优化Parallel sampling定义我们给模型发送一个请求希望它对prompt做续写并给出N种不同的回答。传统的方法将prompt复制N次后组装成1个batch喂给模型让它做推理但是这种方式会产生prompt部分KV cache的重复存储。假设模型的max_seq_len2048传统的KV cache可能在显存中分配两块长度是2048的空间。由于prompt一致这两块2048的空间中存在大量重复的KV cache。vllm的做法假定我们发给模型1个request这个request中包含2个prompt/sample记为Sample A1和Sample A2这两个prompt完全一致都为Four score and seven years ago our我们希望模型对这两个prompt分别做续写任务。1首先Prefill阶段vLLM拿到Sample A1和Sample A2根据其中的文字内容为其分配逻辑块和物理块。分配逻辑块对于A1vLLM为其分配逻辑块block0和block1对于A2vLLM为其分配逻辑块block0和block1。需要注意的是A1的逻辑块和A2的逻辑块是独立的尽管它们都叫block0和block1你可以将A1和A2视作操作系统中两个独立运行的进程。分配物理块对于A1和A2虽然逻辑块独立但因为它们的文字完全相同所以可以在物理内存上共享相同的空间。所以A1的逻辑块block0/1分别指向物理块block7/1A2的逻辑块block0/1分别指向物理块block7/1。我们设每个物理块下映射的逻辑块数量为ref count所以对物理块block7/1来说它们的ref count都为2。2然后进入decode阶段A1和A2各自做推理得到第一个token分别为fathers和mothers。将生成的token装入逻辑块对于A1和A2来说将其生成的token装入各自的逻辑块block1。触发物理块copy-on-write机制由于fathers/mothers是两个完全不同的token因此对物理块block1触发复制机制即在物理内存上新开辟一块空间。此时物理块block1只和A2的逻辑块block1映射将其ref count减去1物理块block3只和A1的逻辑块block1映射将其ref count设为1。总结起来vLLM节省KV cache显存的核心思想是对于相同数据对应的KV cache能复用则尽量复用无法复用时再考虑开辟新的物理空间。

手机网站格局模具公司网站中品质见证怎么做

如何搭建一个网站平台腾讯企点app

玉环县企业网站建设郑州seo管理系统运营

安徽太基建设官方网站用手机开发软件的工具

肯德基网站开发亚马逊网站建设进度计划书

现在还有用dw做网站wordpress电商教程

密云网站制作案例国外电商网站设计欣赏