国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

昇騰MindStudio模型量化方案,助力企業(yè)輕量級(jí)部署DeepSeek

模型
  • 廠商稿件
  • 2025-02-21 12:06

最近AI圈可以說是被新晉“頂流”DeepSeek刷屏了,新發(fā)布的 V3/R1 系列模型,直接在全球火出圈,它的性能強(qiáng)勁到足以和全球頂尖模型一較高下!不過你知道嗎?雖然網(wǎng)絡(luò)版和App版已經(jīng)足夠好用,但只有把模型搬進(jìn)自家地盤,進(jìn)行本地部署,你才能享受到真正的“私人定制”,讓DeepSeek R1的“深度思考”完全為你所用。

不過呢,問題也來了。原版的 DeepSeek - R1 671B 全量模型,文件體積大得離譜,足足有720GB!這就好比你要搬一座大山回家,絕大部分個(gè)人和企業(yè)看到這樣龐大的部署成本,都被嚇得望而卻步。

別擔(dān)心,量化技術(shù)來救場(chǎng)!這項(xiàng)技術(shù)就像神奇的魔法,一邊穩(wěn)穩(wěn)保住 DeepSeek 模型的高精度,一邊還能把模型的計(jì)算效率和資源占用問題輕松搞定。這樣一來,模型在實(shí)際應(yīng)用中就能表現(xiàn)得更加出色,開發(fā)者和企業(yè)也能享受到更加靈活高效的部署方式。

什么是大模型量化

近年來,隨著人工智能的發(fā)展和Transformer等架構(gòu)的提出,使得深度學(xué)習(xí)的模型參數(shù)達(dá)上萬億規(guī)模,從而使得模型變得越來越大,計(jì)算和存儲(chǔ)資源的需求也急劇增加。因此,為了降低計(jì)算和存儲(chǔ)的開銷,我們需要一些大模型壓縮技術(shù)來降低模型部署的成本,并提升模型推理的性能。模型壓縮主要有幾種方法:量化、知識(shí)蒸餾、剪枝和低秩分解。

量化(Quantization)是通過降低模型當(dāng)中的參數(shù)精度(權(quán)重或者激活值)將從較高位寬轉(zhuǎn)化為(如32為浮點(diǎn)數(shù))轉(zhuǎn)化為較低位寬(如8位整數(shù)或4位整數(shù)),實(shí)現(xiàn)模型的壓縮和優(yōu)化,從而降低模型的占用顯存和算力,提高運(yùn)行效率。通常會(huì)伴隨著一定量精度的損失,需要注意的是,在計(jì)算過程中我們還會(huì)將量化后的整數(shù)反量化為浮點(diǎn)數(shù),得到結(jié)果。通過量化主要有以下收益:

1. 減少內(nèi)存(顯存)占用

202502201850521389758541.png

整數(shù)數(shù)據(jù)類型(如8位整數(shù))占用的內(nèi)存比浮點(diǎn)數(shù)(如32位浮點(diǎn)數(shù))少得多。假設(shè)一個(gè)模型有1億個(gè)參數(shù),使用FP32數(shù)據(jù)格式表示,需要的內(nèi)存為:內(nèi)存占用4x108字節(jié),將字節(jié)轉(zhuǎn)換為MB(1MB=1,048,576字節(jié)):內(nèi)存占用約381.47MB;若使用INT8表示數(shù)據(jù)參數(shù):內(nèi)存占用=1x108字節(jié),將字節(jié)轉(zhuǎn)換為MB(1MB=1,048,576字節(jié)):內(nèi)存占用約95.37MB。所以bit越短,內(nèi)存占用越少,對(duì)硬件要求越低。

2. 提升計(jì)算效率

在硬件層面,整數(shù)運(yùn)算更容易實(shí)現(xiàn),許多處理器和加速器專門優(yōu)化了整數(shù)運(yùn)算,提供張量運(yùn)算的專用指令集,所以整數(shù)運(yùn)算(加法、乘法等)通常比浮點(diǎn)運(yùn)算更簡(jiǎn)單和快速。

3. 能耗降低

整數(shù)運(yùn)算搬運(yùn)的數(shù)據(jù)量變少,減少了訪存開銷,同時(shí)計(jì)算過程中,NPU 所需的乘法器數(shù)目也減少,所以消耗的能量通常比浮點(diǎn)運(yùn)算低。

當(dāng)前模型量化主要包括后訓(xùn)練量化(Post-Training Quantization, PTQ)和量化感知訓(xùn)練(Quantization Aware Training, QAT)。PTQ可以在沒有原始的訓(xùn)練過程的情況下,就能將預(yù)訓(xùn)練的FP32模型直接轉(zhuǎn)換為定點(diǎn)計(jì)算的網(wǎng)絡(luò)。PTQ最大的特點(diǎn)就是不需要數(shù)據(jù)或者只需要很少的校準(zhǔn)數(shù)據(jù)集,且?guī)缀醪恍枰{(diào)整超參數(shù),使得我們可以很方便的進(jìn)行模型量化,是一種在訓(xùn)練期間模擬量化操作的方法。QAT 通過在模型中插入偽量化節(jié)點(diǎn)(FakeQuant)來模擬量化誤差,并在訓(xùn)練過程中最小化這些誤差,最終得到一個(gè)適應(yīng)量化環(huán)境的模型。

量化在降低顯存占用和算力的同時(shí),不可避免存在一些挑戰(zhàn),如量化方法的精確性、低比特?cái)?shù)帶來的精度損失,與此同時(shí),模型大小與精度之間也存在一種權(quán)衡。一般來說,模型越小,其表達(dá)能力和容納參數(shù)的能力也越有限,所以較小模型,量化后精度損失可能更加顯著。

在進(jìn)行模型量化時(shí),要綜合考慮任務(wù)、模型大小、精度要求以及實(shí)際的應(yīng)用場(chǎng)景,以確定最合適的量化策略。基于以上場(chǎng)景,MindStudio模型壓縮工具可以支持DeepSeek系列模型的量化,并且更加高效。

MindStudio模型壓縮工具介紹

msModelSlim(MindStudio模型壓縮工具),是一個(gè)以加速為目標(biāo)、壓縮為技術(shù)、昇騰為根本的親和壓縮工具。支持訓(xùn)練加速和推理加速,包括模型低秩分解、稀疏訓(xùn)練、訓(xùn)練后量化、量化感知訓(xùn)練等功能,昇騰AI模型開發(fā)用戶可以靈活調(diào)用Python API接口,對(duì)模型進(jìn)行性能調(diào)優(yōu),并支持導(dǎo)出不同格式模型,在昇騰AI處理器上運(yùn)行。

當(dāng)前msModelSlim根據(jù)開發(fā)者差異化需求,提供了模型蒸餾、大模型量化、大模型稀疏量化和權(quán)重壓縮、訓(xùn)練后量化等多種模型壓縮方案。

針對(duì)DeepSeek系列模型,msModelSlim提供了支持W8A8、W8A16的量化方案,同時(shí)也在開發(fā)W4A16、W4A8量化算法,滿足不同客戶需求。

同時(shí),針對(duì)DeepSeek-V3/R1的W8A8動(dòng)態(tài)量化方案,大體分為三步:

1. 調(diào)整離群值抑制:通過一致量化過程中異常值,使能后續(xù)的量化更優(yōu)。針對(duì)V3/R1版本,采用SmoothQuant優(yōu)化算法。

2. 量化參數(shù)的選擇:根據(jù)以往經(jīng)驗(yàn),選擇指定的層回退(即對(duì)精度敏感的層使用浮點(diǎn)數(shù)計(jì)算);激活值量化方式選擇Min-Max方式;采用混合量化方式,即MoE層選用W8A8-Dynamic量化,MLA層選用W8A8量化。

3. 校準(zhǔn)集調(diào)整,通過更新業(yè)務(wù)校準(zhǔn)集進(jìn)行Label-Free量化。

量化流程如下:

20250220185157757080161.png

基于msModelSlim模型壓縮工具的量化壓縮能力,互聯(lián)網(wǎng)、運(yùn)營(yíng)商、金融等20+行業(yè)客戶均在本地部署上線DeepSeek-V3/R1滿血版量化模型。

結(jié)語

隨著深度學(xué)習(xí)模型變得越來越龐大和復(fù)雜,高效地將其知識(shí)遷移至小型、輕量化的模型,已經(jīng)成為AI技術(shù)走向?qū)嶋H生產(chǎn)的關(guān)鍵路徑。msModelSlim支持多種模型壓縮算法(包括量化壓縮、稀疏壓縮等),為開發(fā)者提供更加靈活、高效的模型壓縮量化方案。在保障精度的同時(shí),以更低的資源消耗實(shí)現(xiàn)更快的推理速度,助力企業(yè)快速部署上線,為AI技術(shù)的普及和落地提供了強(qiáng)有力的支持。

msModelSlim工具已開源發(fā)布昇騰社區(qū)及Gitee社區(qū),誠邀大家點(diǎn)擊閱讀原文下載使用。

閱讀原文:

https://gitee.com/ascend/msit/tree/master/msmodelslim/README.md


來源:廠商稿件

作者:投稿

編輯:leilei

圖片來源:

本文鏈接: http://givenhand.cn/article/20250221/1798.html

  • 助力
  • DeepSeek
免責(zé)聲明:本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布,不代表 AIUST.Com 立場(chǎng)。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對(duì)文中的圖文等所有信息的真實(shí)性不作任何保證或承諾,請(qǐng)讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考,不能做為投資、采購或行為決策依據(jù),據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢(shì) 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢(shì)

    2021世界制造業(yè)大會(huì)于11月22日在合肥落下帷幕。為期四天的大會(huì)中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?,F(xiàn)場(chǎng)展示的ThinkPad X1 Fold整體重量?jī)H有1公斤,折疊起來之后的厚度大約為24毫米。當(dāng)保持半開狀態(tài)時(shí),可以像拿本書一樣握住,并且能同時(shí)運(yùn)行兩個(gè)應(yīng)用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機(jī)競(jìng)爭(zhēng)中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱 智能手機(jī)競(jìng)爭(zhēng)中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱

    據(jù)外媒報(bào)道,在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競(jìng)爭(zhēng)中,豐田汽車和日產(chǎn)汽車面臨著被本土市場(chǎng)拖累的風(fēng)險(xiǎn)。與美國和歐洲的汽車消費(fèi)者不同的是,日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人 2020年河南省將推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人

    到2020年,推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人,建設(shè)1000條智能生產(chǎn)線、300個(gè)智能車間、150個(gè)智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標(biāo)簽