PyTorch造大模型“加速包”，不到1000言道代码提速10倍！

2024-02-05 人物

小说中会，大型的测试数学方式即为Verity反派，Drake则是一个更为小的、能更为快填充文本的草稿数学方式。

联合开发设计团队适用草稿数学方式填充8个token，然后适用测试数学方式并在行执在行，丢弃不匹配的部分。

由此一来，打破了串在行贫乏，如此一来次大大提高运动速度。

值得一提的是，推断特质复制可能会看来转换器的能量密度。只要适用草稿数学方式填充token+测试这些token所须要的时间超过单独填充这些token所须要的时间，这种方式就是必须要的。

而且适用原生PyTorch应对问题这种电子技术实际上非常简单，整个应对问题每一次只并不须要要大约50在行原生PyTorch示例。

由于AMD也赞成Triton和torch.compile末端，因此之前在Nvidia GPU上电子技术的发展的所有改进也可以在AMD GPU上新的电子技术的发展。

联合开发设计团队辨别到int8分析方式的较快从22 tok/s达致102 tok/s：

之后联合开发设计团队又用了int4分析方式，更进一步提高运动速度，但数学方式准确特质有所急剧下降。

因此适用了分组分析方式和GPTQ降低权重大小。

再一在尽可能准确特质的前提下，运动速度提高至202.1 tok/s：

将以上电子技术联结适用，达致更为高运动速度244.7 tok/s：

到目前为止，研制设计团队一直都是在单个GPU上提速。但毕竟很多紧接全是可以适用多个GPU的。

而适用多个GPU可以增加CPU延时，从而大大提高数学方式的适度耐用特质。

在考虑并在行执在行策略时，并不须要要在多个设备上新的组合一个token的执在行每一次，所以并不须要要适用方程组并在行特质。

而PyTorch也包括了用于方程组并在行特质的表层工具，可以与torch.compile联结适用。

联合开发设计团队还透露也正在联合开发用于暗示方程组并在行特质的更为高级别的API。

然而，即使没有更为高级别的API，去掉方程组并在行特质也很容易，150在行示例即可应对问题，且不并不须要要对数学方式进在行任何看来。

之前提过的所有改进都可以与方程组并在行特质相联结。将这些改进联结痛快，能够以55 tokens/s的运动速度为Llama-70B包括int8分析方式。

再一总结成果，看来分析方式，仅用766在行示例（model.py 244在行示例，generate.py 371在行示例，tp.py 151在行示例），就应对问题了快速侦探小说、推断特质复制和方程组并在行特质。

对于Llama-7B，适用compile+int4分析方式+推断特质复制运动速度达致241 tok/s。对于Llama-70B，通过投身于方程组并在行特质，达致80 tok/s。

这些耐用特质都接近或挤下了举例来说SOTA。

旋考链接：[1]_content=273712248&utm_medium=social&utm_source=twitter&hss_channel=tw-776585502606721024[2][3]

— 紧接 —

量子位 QbitAI · 头条号签

。

TAG：代码模型