国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

<fieldset id="73sd6"></fieldset>

搜索

【EMNLP2024】阿里云人工智能平臺(tái)PAI多篇論文入選EMNLP2024

廠商稿件
2024-11-07 09:40

近期，阿里云人工智能平臺(tái) PAI 的多篇論文在 EMNLP2024 上入選。論文成果是阿里云與華南理工大學(xué)金連文教授團(tuán)隊(duì)、復(fù)旦大學(xué)王鵬教授團(tuán)隊(duì)共同研發(fā)。EMNLP 是人工智能自然語(yǔ)言處理領(lǐng)域的頂級(jí)國(guó)際會(huì)議，聚焦于自然語(yǔ)言處理技術(shù)在各個(gè)應(yīng)用場(chǎng)景的學(xué)術(shù)研究，尤其重視自然語(yǔ)言處理的實(shí)證研究。該會(huì)議曾推動(dòng)了預(yù)訓(xùn)練語(yǔ)言模型、文本挖掘、對(duì)話系統(tǒng)、機(jī)器翻譯等自然語(yǔ)言處理領(lǐng)域的核心創(chuàng)新，在學(xué)術(shù)和工業(yè)界都有巨大的影響力。此次入選標(biāo)志著阿里云人工智能平臺(tái) PAI 在自然語(yǔ)言處理和多模態(tài)算法能力方面研究獲得了學(xué)術(shù)界認(rèn)可。

論文簡(jiǎn)述

面向長(zhǎng)文本的文視頻表征學(xué)習(xí)與檢索模型 VideoCLIP-XL

CLIP 模型在視覺(jué)-語(yǔ)言預(yù)訓(xùn)練領(lǐng)域已經(jīng)取得了重要進(jìn)展。然而，原始 CLIP 模型的一個(gè)顯著局限性是處理長(zhǎng)文本描述的能力受限。原始 CLIP 模型的訓(xùn)練過(guò)程中對(duì)簡(jiǎn)短的摘要性文本的強(qiáng)調(diào)迫使文本/視覺(jué)編碼器主要關(guān)注文本/視覺(jué)輸入中的主要特征，常常忽視一些較小但潛在關(guān)鍵的細(xì)節(jié)。為了解決這些限制，該工作提出了一個(gè)名為 VideoCLIP-XL 的視頻 CLIP 模型，旨在提升對(duì)視頻的長(zhǎng)文本描述的理解能力。其首先構(gòu)建了一個(gè)大規(guī)模的視頻-長(zhǎng)描述配對(duì)數(shù)據(jù)集 VILD，并在預(yù)訓(xùn)練階段提出了一種文本相似度引導(dǎo)的主成分匹配方法（TPCM）來(lái)優(yōu)化高維特征空間的學(xué)習(xí)。

此外，該工作提出能夠理解長(zhǎng)描述的視頻 CLIP 模型應(yīng)當(dāng)體現(xiàn)兩個(gè)特征：給定一個(gè)視頻及其相關(guān)描述，CLIP 類(lèi)模型應(yīng)該對(duì)（1）具有更豐富和更精確細(xì)節(jié)的描述以及（2）在相同細(xì)節(jié)水平下更準(zhǔn)確即幻覺(jué)更少的描述賦予更高的分?jǐn)?shù)。為此，其提出兩個(gè)新的預(yù)訓(xùn)練任務(wù)：細(xì)節(jié)描述排序（DDR）和幻覺(jué)描述排序（HDR）。此外，該工作也建立了一個(gè)新的視頻長(zhǎng)描述排序基準(zhǔn)測(cè)評(píng)集（LVDR），來(lái)更全面地評(píng)估視頻 CLIP 模型的性能。

基于多任務(wù)課程規(guī)劃的大語(yǔ)言模型蒸餾算法

大語(yǔ)言模型在回答開(kāi)放領(lǐng)域通用任務(wù)的指令上取得了很大地進(jìn)步。指令微調(diào)是微調(diào)預(yù)訓(xùn)練模型，使其從文本補(bǔ)全模型成為強(qiáng)大的對(duì)話模型的關(guān)鍵。盡管已有研究探索了使用強(qiáng)大的黑盒教師模型（如GPT-4， Qwen-max）來(lái)自動(dòng)蒸餾和標(biāo)注指令的方法，但這些研究往往忽視了微調(diào)訓(xùn)練集中任務(wù)的多樣性分布，以及訓(xùn)練集中指令難度的差異，這可能導(dǎo)致學(xué)生 LLMs 知識(shí)能力的不平衡和解決復(fù)雜任務(wù)的能力的不足。為了解決這些挑戰(zhàn)，這篇文章介紹了一個(gè)名為 TAPIR 的知識(shí)蒸餾框架，它通過(guò)多任務(wù)課程規(guī)劃來(lái)蒸餾黑盒大語(yǔ)言模型的指令回答能力，在蒸餾和多輪迭代過(guò)程中，使用教師 LLM 做為裁判找出對(duì)于學(xué)生 LLM 來(lái)說(shuō)難以回答的指令，進(jìn)行難度重采樣。并調(diào)整多任務(wù)配比進(jìn)行訓(xùn)練集中的任務(wù)多樣性分布的重采樣，并根據(jù)相應(yīng)多任務(wù)特點(diǎn)自動(dòng)優(yōu)化教師模型的回答風(fēng)格。

該工作創(chuàng)新性地用顯式的任務(wù)標(biāo)簽配比代替隱式的句向量多樣性。在任務(wù)重采樣的過(guò)程中，大大增加數(shù)學(xué)推理代碼類(lèi)任務(wù)的數(shù)據(jù)比例。首次提出了模型擬合難度 (MFD) 指標(biāo)，來(lái)表示數(shù)據(jù)難度大小，并在多輪迭代優(yōu)化的過(guò)程中提升困難數(shù)據(jù)占比。提升模型從弱到強(qiáng)的泛化速度。在 AlpacaEval 排行榜上，我們微調(diào)后的 LLaMA2-7B 底座獲得了7.8的相對(duì)分?jǐn)?shù)，超過(guò)了參數(shù)量、數(shù)據(jù)量都遠(yuǎn)大于我們的知名開(kāi)源模型模型（LLaMA2-Chat-13B，Vicuna 13B）。我們持續(xù)優(yōu)化了 Qwen 系列模型的指令回答能力，優(yōu)化 Qwen1.5系列模型在 AlpacaEval 榜單上提升3-8個(gè)百分點(diǎn)。

產(chǎn)品化服務(wù)

上述科研成果也在人工智能平臺(tái)PAI的各個(gè)模塊進(jìn)行了深度的集成和整合，持續(xù)為PAI客戶提供AI模型訓(xùn)練和推理相關(guān)服務(wù)。其中，VideoCLIP-XL作為文視頻質(zhì)量評(píng)估模塊，與EasyAnimate視頻生成解決方案無(wú)縫融合，支持用戶輕松實(shí)現(xiàn)文視頻語(yǔ)義一致性計(jì)算和數(shù)據(jù)過(guò)濾，從而訓(xùn)練AIGC視頻生成大模型。在智碼實(shí)驗(yàn)室，我們也上架了“VideoCLIP-XL：面向超長(zhǎng)文本的文視頻跨模態(tài)特征抽取”的notebook。

用于數(shù)據(jù)增強(qiáng)和改寫(xiě)的蒸餾模型也已經(jīng)上架PAI平臺(tái)，為用戶提供簡(jiǎn)單易用的大模型蒸餾解決方案。基于Qwen2的開(kāi)源模型，PAI也在開(kāi)源了DistilQwen2蒸餾小模型系列，進(jìn)一步提升了模型的指令跟隨能力，在HuggingFace和ModelScope開(kāi)源社區(qū)開(kāi)放下載。

此外，PAI-QuickStart集成了超過(guò)50個(gè)熱門(mén)大語(yǔ)言模型，及其多種訓(xùn)練和推理方式，使客戶更加簡(jiǎn)單地微調(diào)和部署大語(yǔ)言模型。在未來(lái)，我們也將在PAI平臺(tái)上持續(xù)提供業(yè)界領(lǐng)先的算法和模型能力給廣大客戶。

資源鏈接

文-視頻多模態(tài)

● EasyAnimate開(kāi)源項(xiàng)目：https://github.com/aigc-apps/EasyAnimate

● VideoCLIP-XL：https://huggingface.co/alibaba-pai/VideoCLIP-XL

● VideoCLIP-XL-v2：https://huggingface.co/alibaba-pai/VideoCLIP-XL-v2

● LVDR數(shù)據(jù)集：https://huggingface.co/alibaba-pai/LVDR

● VILD數(shù)據(jù)集：https://huggingface.co/alibaba-pai/VILD

● VideoCLIP-XL：面向超長(zhǎng)文本的文視頻跨模態(tài)特征抽?。篽ttps://gallery.pai-ml.com/#/preview/deepLearning/cv/videoclipxl

大模型蒸餾

● 大語(yǔ)言模型數(shù)據(jù)增強(qiáng)與模型蒸餾解決方案：https://help.aliyun.com/zh/pai/use-cases/llm-data-enhancement-and-model-distillation-solution

● DistilQwen2蒸餾小模型系列

alibaba-pai/DistilQwen2-7B-Instruct：

○ https://huggingface.co/alibaba-pai/DistilQwen2-7B-Instruct

○ https://modelscope.cn/models/PAI/DistilQwen2-7B-Instruct

alibaba-pai/DistilQwen2-1.5B-Instruct：

○ https://huggingface.co/alibaba-pai/DistilQwen2-1.5B-Instruct

○ https://modelscope.cn/models/PAI/DistilQwen2-1.5B-Instruct

論文匯總

論文名字：VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models

論文作者：汪嘉鵬、汪誠(chéng)愚、黃坤哲、黃俊、金連

論文pdf鏈接：https://arxiv.org/abs/2410.00741

論文名字：Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning

論文作者：岳元浩、汪誠(chéng)愚、黃俊、王鵬

論文pdf鏈接：https://arxiv.org/abs/2405.13448

阿里云人工智能平臺(tái) PAI 長(zhǎng)期招聘研究實(shí)習(xí)生。團(tuán)隊(duì)專(zhuān)注于深度學(xué)習(xí)算法研究與應(yīng)用，重點(diǎn)聚焦大語(yǔ)言模型和多模態(tài) AIGC 大模型的應(yīng)用算法研究和應(yīng)用。

簡(jiǎn)歷投遞和咨詢(xún)：chengyu.wcy@alibaba-inc.com。

來(lái)源：廠商稿件

作者：投稿

編輯：leilei

圖片來(lái)源:

本文鏈接: http://givenhand.cn/article/20241107/1752.html

人工智能
NLP

免責(zé)聲明：本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布，不代表 AIUST.Com 立場(chǎng)。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對(duì)文中的圖文等所有信息的真實(shí)性不作任何保證或承諾，請(qǐng)讀者僅作參考，并自行核實(shí)相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考，不能做為投資、采購(gòu)或行為決策依據(jù)，據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

5G+AR加持晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢(shì)
2021世界制造業(yè)大會(huì)于11月22日在合肥落下帷幕。為期四天的大會(huì)中，作為向世界展示智能制造全面能力的窗口，聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品。現(xiàn)場(chǎng)展示的ThinkPad X1 Fold整體重量?jī)H有1公斤，折疊起來(lái)之后的厚度大約為24毫米。當(dāng)保持半開(kāi)狀態(tài)時(shí)，可以像拿本書(shū)一樣握住，并且能同時(shí)運(yùn)行兩個(gè)應(yīng)用程序。使用固定在中間的鍵盤(pán)之后，瞬間變...
智能手機(jī)競(jìng)爭(zhēng)中失敗，日本在聯(lián)網(wǎng)汽車(chē)領(lǐng)域舉步維艱
據(jù)外媒報(bào)道，在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車(chē)的競(jìng)爭(zhēng)中，豐田汽車(chē)和日產(chǎn)汽車(chē)面臨著被本土市場(chǎng)拖累的風(fēng)險(xiǎn)。與美國(guó)和歐洲的汽車(chē)消費(fèi)者不同的是，日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買(mǎi)單。結(jié)果就是：日本只有10%的汽車(chē)...
2020年河南省將推廣應(yīng)用3萬(wàn)臺(tái)工業(yè)機(jī)器人
到2020年，推廣應(yīng)用3萬(wàn)臺(tái)工業(yè)機(jī)器人，建設(shè)1000條智能生產(chǎn)線、300個(gè)智能車(chē)間、150個(gè)智能工廠……4月16日，在2018兩岸智能裝備制造鄭州論壇上，河南省工信委發(fā)布了《2017年河南省智能制造白皮書(shū)》，河南智能制造的2020...

熱門(mén)標(biāo)簽