国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

<var id="yup9r"><samp id="yup9r"></samp></var>

<source id="yup9r"><strong id="yup9r"><big id="yup9r"></big></strong></source>

<thead id="yup9r"></thead>

<td id="yup9r"><pre id="yup9r"></pre></td>

<ul id="yup9r"><strong id="yup9r"></strong></ul>

搜索

Kimi首發(fā)“上下文緩存”技術(shù)，助推長(zhǎng)文本大模型降本90%

廠商稿件
2024-07-02 18:01

近日，月之暗面宣布 Kimi 開(kāi)放平臺(tái)正式公測(cè)新技術(shù)——上下文緩存（Context Caching），該技術(shù)在 API 價(jià)格不變的前提下，可為開(kāi)發(fā)者降低最高 90% 的長(zhǎng)文本大模型使用成本，并且顯著提升模型的響應(yīng)速度。

據(jù)了解，月之暗面是國(guó)內(nèi)首家面向開(kāi)發(fā)者推出上下文緩存（Context Caching）技術(shù)的大模型公司。

上下文緩存（Context Caching）技術(shù)的基本原理是，系統(tǒng)預(yù)先存儲(chǔ)那些可能會(huì)被頻繁請(qǐng)求的大量數(shù)據(jù)或信息。這樣，當(dāng)用戶再次請(qǐng)求相同信息時(shí)，系統(tǒng)可以直接從緩存中快速提供，而無(wú)需重新計(jì)算或從原始數(shù)據(jù)源中檢索，從而節(jié)省時(shí)間和資源。

Kimi.001.png

上下文緩存（Context Caching）技術(shù)可以帶來(lái)降本和提速兩大價(jià)值。首先，通過(guò)緩存重復(fù)性輸入的大量數(shù)據(jù)，對(duì)于公共上下文僅收取一次費(fèi)用，上下文緩存（Context Caching）技術(shù)大大降低了開(kāi)發(fā)者使用長(zhǎng)文本旗艦大模型的成本，最高可降本達(dá) 90%。其次，上下文緩存（Context Caching）技術(shù)還有助于提升大模型API的響應(yīng)速度，實(shí)測(cè)可將 128K 長(zhǎng)文本大模型的首 token 延遲降低 83% 左右，從平均 30 秒左右降低到平均 5 秒內(nèi)。

在長(zhǎng)上下文和高負(fù)載的業(yè)務(wù)場(chǎng)景上，上下文緩存帶來(lái)的降本和提速效果尤為顯著。常見(jiàn)場(chǎng)景包括提供大量預(yù)設(shè)內(nèi)容的問(wèn)答機(jī)器人，例如 Kimi API 小助手；針對(duì)固定的文檔集合的頻繁查詢，例如上市公司信息披露問(wèn)答工具；對(duì)靜態(tài)代碼庫(kù)或知識(shí)庫(kù)的周期性分析，例如各類 Copilot Agent；瞬時(shí)流量巨大的爆款 AI 應(yīng)用，例如哄哄模擬器；交互規(guī)則復(fù)雜的 Agent 類應(yīng)用，例如什么值得買(mǎi)的 Kimi+ 等。

以常見(jiàn)的固定文檔大量提問(wèn)場(chǎng)景為例。某硬件產(chǎn)品說(shuō)明書(shū)大概 9萬(wàn)字，換算 Tokens 長(zhǎng)度大概 64K，該產(chǎn)品售前支持人員需要在 10 分鐘內(nèi)，密集對(duì)產(chǎn)品的功能/使用方式進(jìn)行 40 次問(wèn)答，每次的問(wèn)題大概 100 個(gè)字，要求模型的輸出需要基于產(chǎn)品說(shuō)明書(shū)來(lái)回答，回答問(wèn)題在 120 字以內(nèi)。

Kimi.002.png

按照大模型問(wèn)答的 Tokens 計(jì)算邏輯，售前支持人員需要每次向模型輸入的 Tokens =文檔 Tokens +問(wèn)題 Tokens，10 分鐘內(nèi) 40 次的問(wèn)答共計(jì)需要消耗 Tokens 2.56 M，128k 模型價(jià)格為 60元/M，預(yù)計(jì)原始花費(fèi)需要 153.84 元。若該場(chǎng)景接入上下文緩存（Context Caching）技術(shù)：9萬(wàn)字的文檔只收取一次創(chuàng)建 Cache 和存儲(chǔ) 10 分鐘 Cache 的費(fèi)用，10分鐘內(nèi)的40次提問(wèn)，將只收取問(wèn)題的 100 字+ 回答的 120 字的費(fèi)用，預(yù)計(jì)花費(fèi) 11.88 元。節(jié)省了 141.95 元，相當(dāng)于費(fèi)用降低 90% 左右。

響應(yīng)速度方面，以 128k 模型的一次4萬(wàn)字（約 30k tokens）的推理請(qǐng)求為例。通常向模型提問(wèn)，平均要 30 秒返回首 Token。接入上下文緩存技術(shù)后，最快可 1 秒內(nèi)完成首 Token 返回。經(jīng)過(guò)大量測(cè)試，接入上下文緩存功能后，128k 模型的首 Token 延遲平均可降至 5 秒內(nèi)，降低了 83%左右。

Kimi.003.png

需要注意的是，上述測(cè)試效果基于 1 token = 1～1.5個(gè)文字和字符，使用 128k 模型進(jìn)行測(cè)算。具體的效果根據(jù)業(yè)務(wù)情況/模型選擇不同，會(huì)有略微差別。

上下文緩存（Context Caching）技術(shù)在公測(cè)期間將首先提供給 Kimi 開(kāi)放平臺(tái)的 Tier5 等級(jí)開(kāi)發(fā)者，后續(xù)陸續(xù)增大開(kāi)發(fā)者公開(kāi)測(cè)試范圍。

Kimi 大模型目前已接入了釘釘、扣子等平臺(tái)，用戶或開(kāi)發(fā)者可以在這些平臺(tái)選用 Kimi 大模型，借助出色的長(zhǎng)文本和指令遵循能力搭建個(gè)性化的智能體應(yīng)用。Kimi 開(kāi)放平臺(tái)的開(kāi)發(fā)者注冊(cè)量自從今年 2 月份以來(lái)復(fù)合增長(zhǎng)率超過(guò) 175%，在投研服務(wù)、法律盡調(diào)、企業(yè)知識(shí)庫(kù)問(wèn)答、輔助軟件開(kāi)發(fā)等場(chǎng)景獲得廣泛應(yīng)用。近期，Kimi 開(kāi)放平臺(tái)陸續(xù)上線了工具調(diào)用（Tool Use）、Partial Mode、上下文緩存（Context Caching）等能力，持續(xù)幫助開(kāi)發(fā)者高效打造更有想象力的AI 應(yīng)用。

來(lái)源：廠商稿件

作者：投稿

編輯：leilei

圖片來(lái)源:

本文鏈接: http://givenhand.cn/article/20240702/1711.html

大模型

免責(zé)聲明：本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布，不代表 AIUST.Com 立場(chǎng)。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對(duì)文中的圖文等所有信息的真實(shí)性不作任何保證或承諾，請(qǐng)讀者僅作參考，并自行核實(shí)相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考，不能做為投資、采購(gòu)或行為決策依據(jù)，據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

5G+AR加持晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢(shì)
2021世界制造業(yè)大會(huì)于11月22日在合肥落下帷幕。為期四天的大會(huì)中，作為向世界展示智能制造全面能力的窗口，聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?，F(xiàn)場(chǎng)展示的ThinkPad X1 Fold整體重量?jī)H有1公斤，折疊起來(lái)之后的厚度大約為24毫米。當(dāng)保持半開(kāi)狀態(tài)時(shí)，可以像拿本書(shū)一樣握住，并且能同時(shí)運(yùn)行兩個(gè)應(yīng)用程序。使用固定在中間的鍵盤(pán)之后，瞬間變...
智能手機(jī)競(jìng)爭(zhēng)中失敗，日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱
據(jù)外媒報(bào)道，在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競(jìng)爭(zhēng)中，豐田汽車和日產(chǎn)汽車面臨著被本土市場(chǎng)拖累的風(fēng)險(xiǎn)。與美國(guó)和歐洲的汽車消費(fèi)者不同的是，日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買(mǎi)單。結(jié)果就是：日本只有10%的汽車...
2020年河南省將推廣應(yīng)用3萬(wàn)臺(tái)工業(yè)機(jī)器人
到2020年，推廣應(yīng)用3萬(wàn)臺(tái)工業(yè)機(jī)器人，建設(shè)1000條智能生產(chǎn)線、300個(gè)智能車間、150個(gè)智能工廠……4月16日，在2018兩岸智能裝備制造鄭州論壇上，河南省工信委發(fā)布了《2017年河南省智能制造白皮書(shū)》，河南智能制造的2020...

熱門(mén)標(biāo)簽