国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

深度學(xué)習(xí)中常用的技術(shù):自注意力機(jī)制(Self-Attention)

學(xué)習(xí)
  • GeekerNews
  • 2023-03-17 13:13

自注意力機(jī)制(Self-Attention)是一種深度學(xué)習(xí)中常用的技術(shù),主要用于處理序列數(shù)據(jù),如自然語言處理中的文本。自注意力機(jī)制通過計(jì)算每個(gè)詞與其他詞之間的相似度來建立它們之間的關(guān)系,并根據(jù)這些關(guān)系來加權(quán)地計(jì)算每個(gè)詞的表示。

在自注意力機(jī)制中,每個(gè)詞的表示由三部分組成:查詢向量(query vector)、鍵向量(key vector)和值向量(value vector)。對于每個(gè)詞,查詢向量和鍵向量可以通過線性變換得到,然后通過一個(gè)相似度函數(shù)(如點(diǎn)積或縮放點(diǎn)積)計(jì)算它們之間的相似度。接著,將這些相似度歸一化得到注意力權(quán)重,再用這些權(quán)重對值向量進(jìn)行加權(quán)求和,得到最終的表示。

自注意力機(jī)制的優(yōu)點(diǎn)是能夠捕捉序列中任意兩個(gè)位置之間的關(guān)系,因此在序列建模任務(wù)中表現(xiàn)良好。它已被廣泛應(yīng)用于許多自然語言處理任務(wù)中,如機(jī)器翻譯、文本生成和情感分析等。

給定一個(gè)輸入序列 \(\mathbf{x} = [\mathbf{x}_1, \mathbf{x}_2, \dots, \mathbf{x}_n]\),其中 \(\mathbf{x}_i\) 是第 \(i\) 個(gè)位置的表示。則自注意力機(jī)制的計(jì)算可以表示為:

\(\mathrm{Attention}(\mathbf{x}) \)

\(= \mathrm{softmax}\left(\frac{\mathbf{x} \mathbf{W}_Q (\mathbf{x} \mathbf{W}_K)^T}{\sqrt{d_k}} \right) \mathbf{x} \mathbf{W}_V \)

\(= [\mathrm{softmax}(\frac{\mathbf{q}_1 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_1, \mathrm{softmax}(\frac{\mathbf{q}_2 \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_2, \dots, \mathrm{softmax}(\frac{\mathbf{q}_n \mathbf{k}^T}{\sqrt{d_k}}) \mathbf{v}_n] \mathbf{W}_V,\)\)

其中,\(\mathbf{W}_Q, \mathbf{W}_K, \mathbf{W}V \in \mathbb{R}^{d{model} \times d_k}\) 是權(quán)重矩陣,用于將輸入序列 \(\mathbf{x}\) 映射到查詢向量 \(\mathbf{q}\)、鍵向量 \(\mathbf{k}\) 和值向量 \(\mathbf{v}\)。\(\mathrm{softmax}\) 函數(shù)表示對查詢向量與鍵向量的相似度進(jìn)行歸一化,\(\sqrt{d_k}\) 是為了防止相似度過大導(dǎo)致梯度消失。最終得到加權(quán)和后再乘以權(quán)重矩陣 \(\mathbf{W}_V\) 得到自注意力機(jī)制的輸出。

其中,\(d_{model}\) 表示輸入序列 \(\mathbf{x}\) 和輸出序列的維度,\(d_k\) 表示查詢向量、鍵向量和值向量的維度。

優(yōu)點(diǎn):自注意力機(jī)制可以對輸入序列中的任意位置進(jìn)行建模,因此能夠捕捉到輸入序列中不同位置之間的依賴關(guān)系,具有很強(qiáng)的表達(dá)能力。可以同時(shí)考慮輸入序列中所有位置的信息,因此能夠在較小的計(jì)算量下獲取全局信息。

缺點(diǎn):自注意力機(jī)制的計(jì)算復(fù)雜度較高,時(shí)間復(fù)雜度為 \(O(n^2)\),其中 \(n\) 是輸入序列的長度。當(dāng)序列較長時(shí),計(jì)算復(fù)雜度會(huì)非常大,因此在實(shí)踐中通常需要采用一些優(yōu)化方法。對輸入序列中的每個(gè)位置都要計(jì)算一個(gè)權(quán)重向量,因此在空間復(fù)雜度上也有一定的代價(jià)。

時(shí)間復(fù)雜度:自注意力機(jī)制的時(shí)間復(fù)雜度為 \(O(n^2 d)\),其中 \(n\) 是輸入序列的長度,\(d\) 是輸入序列的嵌入維度。這是因?yàn)樽宰⒁饬C(jī)制需要計(jì)算每個(gè)位置與其他位置之間的相似度,因此計(jì)算復(fù)雜度為 \(O(n^2 d)\)。注意到可以通過矩陣乘法優(yōu)化實(shí)現(xiàn),將時(shí)間復(fù)雜度降為 \(O(n d^2)\)。

空間復(fù)雜度:自注意力機(jī)制的空間復(fù)雜度為 \(O(n d)\),其中 \(n\) 是輸入序列的長度,\(d\) 是輸入序列的嵌入維度。這是因?yàn)樽宰⒁饬C(jī)制需要存儲(chǔ)輸入序列的嵌入表示,其大小為 \(n \times d\),因此總的空間復(fù)雜度為 \(O(n d)\)。

來源:GeekerNews

作者:

編輯:leilei

圖片來源:

本文鏈接: http://givenhand.cn/article/20230317/1524.html

  • 深度學(xué)習(xí)
免責(zé)聲明:本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布,不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對文中的圖文等所有信息的真實(shí)性不作任何保證或承諾,請讀者僅作參考,并自行核實(shí)相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考,不能做為投資、采購或行為決策依據(jù),據(jù)此操作者風(fēng)險(xiǎn)自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢

    2021世界制造業(yè)大會(huì)于11月22日在合肥落下帷幕。為期四天的大會(huì)中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?,F(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤,折疊起來之后的厚度大約為24毫米。當(dāng)保持半開狀態(tài)時(shí),可以像拿本書一樣握住,并且能同時(shí)運(yùn)行兩個(gè)應(yīng)用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機(jī)競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱 智能手機(jī)競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱

    據(jù)外媒報(bào)道,在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競爭中,豐田汽車和日產(chǎn)汽車面臨著被本土市場拖累的風(fēng)險(xiǎn)。與美國和歐洲的汽車消費(fèi)者不同的是,日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人 2020年河南省將推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人

    到2020年,推廣應(yīng)用3萬臺(tái)工業(yè)機(jī)器人,建設(shè)1000條智能生產(chǎn)線、300個(gè)智能車間、150個(gè)智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標(biāo)簽