国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

更善于自動抓拍有趣瞬間:谷歌 Clips人工智能拍照新技術(shù)

智能
  • 雷鋒網(wǎng)
  • 2018-06-24 20:57

對我而言,攝影是即時的識別,時間的一塊碎片,一個事件的意義所在,而攝影也就是賦予該事件適當(dāng)表達(dá)的精密組織的一種形式。——法國著名攝影家 Henri Cartier-Bresson深度學(xué)習(xí)方法已經(jīng)能夠讓計算機視覺算法識別一張好照片內(nèi)的許多元素:人物、笑臉、寵物、有名地標(biāo)以及更多的元素。但是,盡管深度學(xué)習(xí)已經(jīng)在近期取得了一些進(jìn)步,但在其在自動攝影方面依舊面臨著一項極具挑戰(zhàn)的難題:相機能夠自動抓拍到精彩的瞬間嗎?

谷歌去年發(fā)布了一個自動抓拍生活中有趣瞬間的全新相機產(chǎn)品:Google Clips 相機,Google Clips 的設(shè)計遵循以下三項重要的原則:


谷歌想要全部計算在相機端上進(jìn)行。在相機端進(jìn)行計算的好處,除了可以延長相機電池壽命和減少計算延遲之外,還意味著除非用戶決定存儲或者分享相機拍攝數(shù)據(jù),所有數(shù)據(jù)都將保留在相機端,這也是用戶隱私控制的關(guān)鍵所在。

谷歌希望 Clips 拍攝短視頻,而不是單張照片。拍攝動態(tài)瞬間更能切中用戶需求和忠實于回憶,而且相較于及時抓拍單張完美瞬間的照片,拍攝一段包含引人注目瞬間的視頻更容易一些。

谷歌想讓相機專注于「偷拍」人和寵物,而不是將心思放在更抽象和存在主觀難題的藝術(shù)照片拍攝上去。也就是,谷歌并沒有嘗試教 Clips 去思考構(gòu)圖、色彩平衡、光線等拍攝方面的技巧;相反,Clips 專注于選擇「偷拍」人和動物在做有趣活動的瞬間。

學(xué)習(xí)識別記錄精彩瞬間

如何訓(xùn)練一項算法來識別精彩瞬間?和解決大多數(shù)的機器學(xué)習(xí)問題一樣,谷歌也是從一個數(shù)據(jù)集開始的。首先,谷歌打造了一個含有成千上萬個不同場景的視頻數(shù)據(jù)集,并認(rèn)為 Clips 可以在這些場景下派上用場。谷歌還確保該數(shù)據(jù)集大范圍的覆蓋種族、性別、以及年齡等類別范圍。另外,谷歌還雇用了專業(yè)攝影師和視頻剪輯師,來從 Clips 拍攝的影片素材中精心挑選出最優(yōu)的片段部分。對視頻的早期綜合處理為谷歌提供了樣本,這些樣本可供算法進(jìn)行模擬。但是,訓(xùn)練算法獨立地學(xué)習(xí)人類的主觀選擇是具有挑戰(zhàn)性的,這就需要一個平滑梯度的標(biāo)簽來教算法學(xué)會識別視頻的內(nèi)容品質(zhì)(從「完美」到「糟糕」)。

為了處理這個問題,谷歌采用了第二種數(shù)據(jù)收集方法,該方法旨在在整個視頻長度內(nèi)創(chuàng)造一個連續(xù)的品質(zhì)評分。谷歌將每個視頻分割成短片段(類似 Clips 拍攝的內(nèi)容片段),并從中隨機選出一對片段來讓人類評估員從中挑出他們最愛的那個。

8de13de43d50bff.gif

「你表弟拍了一段長視頻,他想讓你幫助選出一小部分片段進(jìn)行保存。他向你展示了幾對片段并讓你在每一對中挑選出你喜歡的那個。」

因為從一對片段中選出比較好的那個要比從一堆視頻片段里選容易得多,所以谷歌采用了成對比較的方法,而不是讓人類評估員直接對整個視頻打分。谷歌發(fā)現(xiàn)在使用成對比較方法時,人類評估員的發(fā)揮始終如一,而直接打分時就沒那么穩(wěn)定了。對于任何給定視頻,只要給定足夠多的成對比較片段,谷歌就能夠在整個視頻長度范圍內(nèi)計算出連續(xù)的片段品質(zhì)評分。在這個過程中,谷歌從 Clips 上的 1000 多個視頻上,取樣了超過 5000 萬個用于成對比較的視頻片段。這一過程耗費了大量人力!

dbe6f1db2ec8446.gif

訓(xùn)練一個片段品質(zhì)模型

在給定訓(xùn)練數(shù)據(jù)的品質(zhì)得分的情況下,谷歌下一步就是訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型,并使用這個模型來評價 Clips 拍攝的照片品質(zhì)。谷歌先基本假設(shè)模型知道照片里有什么(如人物、狗、樹等),這將幫助模型來定義何為「有趣」。如果這個假設(shè)成立,谷歌就可以得到一個人類對比照片的行為上衍生出來的新特性:通過已識別的照片內(nèi)容來預(yù)測該照片的品質(zhì)得分。

谷歌利用驅(qū)動 Google 圖像搜索和 Google 相冊的同款機器學(xué)習(xí)技術(shù),來識別訓(xùn)練數(shù)據(jù)中描述事物、概念以及動作的內(nèi)容標(biāo)簽,可以識別的不同標(biāo)簽超過 27000 種。谷歌顯然不需要所有的這些標(biāo)簽,也不可能在設(shè)備上把它們?nèi)加嬎銈€遍,因此,谷歌的攝影專家們只選擇了幾百種標(biāo)簽,他們認(rèn)為這些標(biāo)簽與預(yù)測一張照片的「有趣」最為接近。谷歌還加上了與人類評估員打出的片段品質(zhì)得分最契合的那些標(biāo)簽。

在獲得了這些標(biāo)簽的子集后,谷歌就需要設(shè)計一個壓縮的、高效的模型,這個模型在能源和發(fā)熱的嚴(yán)格限制下,在設(shè)備端對任何給定的圖像進(jìn)行預(yù)測。這就帶來了一項挑戰(zhàn),因為支持計算機視覺的深度學(xué)習(xí)技術(shù)通常需要強大的桌面 GPU,目前適合在移動端設(shè)備運行的算法還遠(yuǎn)遠(yuǎn)落后桌面和云端的最先進(jìn)技術(shù)。為了訓(xùn)練這個設(shè)備端模型,首先,谷歌使用了一組數(shù)量很多的照片集,并再次使用了谷歌強大的、基于服務(wù)器的識別模型,來為上面描述過的每一個「有趣」標(biāo)簽預(yù)測標(biāo)簽可信度。隨后,谷歌訓(xùn)練了一個 MobileNet 圖像內(nèi)容模型(ICM)來模擬 server-based 模型(server-based model)的預(yù)測。這個壓縮模型能夠識別照片中最有趣的那些元素,同時忽略掉與「有趣」無關(guān)的內(nèi)容。

最后一步是,為一張輸入的照片(照片內(nèi)容由由 ICM 預(yù)測)預(yù)測一個單一的品質(zhì)評分,同時使用 5000 萬個成對比較樣本作為訓(xùn)練數(shù)據(jù)。這項評分是使用一個分段線性回歸模型計算得到的,模型將 ICM 的輸出合并成某一幀片段的品質(zhì)得分。這一幀的品質(zhì)得分,是綜合視頻分片段來產(chǎn)生一個瞬間得分。給定一個成對比較樣本后,模型應(yīng)該可以計算出一個瞬間得分,也就是給人類偏愛的那個片段打一個更高的分?jǐn)?shù)。這樣訓(xùn)練模型來讓它的預(yù)測盡可能的與人類在成對片段比較中的喜好相匹配。

dee050b7049a997.png

圖:生成幀品質(zhì)得分的模型訓(xùn)練過程。分段線性回歸是從一個 ICM 嵌套映射到一個得分,也就是對一個視頻綜合評估時,得到的一個瞬間得分。人類偏愛的那個片段的瞬間得分應(yīng)該更高。

這個過程允許谷歌訓(xùn)練一個結(jié)合 Google 圖片識別技術(shù)和人類評估員智慧的模型,其中人類評估員的智慧由 5000 萬個關(guān)于「何為有趣內(nèi)容」的觀點代表!

雖然由數(shù)據(jù)驅(qū)使的評分模型,已經(jīng)在識別視頻的有趣和無趣瞬間上表現(xiàn)得相當(dāng)不錯,但谷歌仍在整體評分的基礎(chǔ)上增加了一些獎勵,來激勵模型拍攝一些谷歌想讓它拍攝的畫面,包括人臉(特別是經(jīng)常出現(xiàn)在鏡頭前的熟悉面孔)、笑容和寵物。谷歌近期發(fā)表了一篇「Jump for joy: Google Clips captures life's little moments」,在論文中谷歌針對用戶們明確想記錄的一些特定行為(如擁抱、接吻、跳躍和舞蹈等)增加了一些對模型的獎勵,激勵模型記錄這些用戶行為。識別上面這些行為,需要對 ICM 模型進(jìn)行擴(kuò)展。

抓拍控制

有了可以預(yù)測一個場景的「有趣」的強大模型后,Clips 相機就能判斷哪個場景需要實時抓拍了。Clips 相機的拍攝控制算法遵循下面三個主要原則:

高效利用電池和避免設(shè)備過熱:谷歌希望 Clips 的電池可以保持大致 3 個小時的續(xù)航,且不希望設(shè)備過熱(禁止設(shè)備以高性能狀態(tài)運行全程)。Clips 大部分時間在低能耗狀態(tài)下運行,期間 Clips 每秒拍攝一幀畫面。如果某一幀的畫面品質(zhì)達(dá)到了 Clips 的臨界值(依據(jù) Clips 最近拍到的最好照片品質(zhì)而設(shè)定),Clips 就會進(jìn)入每秒拍攝 15 幀畫面的高性能模式。隨后,Clips 會在對包含第一張達(dá)到最好品質(zhì)的照片的視頻片段進(jìn)行保存。

避免冗余的拍攝:谷歌不希望 Clips 一次記錄所有的瞬間,而忽略掉剩下的那些。因此,谷歌的拍照控制算法將 Clips 拍攝的瞬間,分群放入視覺上相似的組中,并對每個群內(nèi)的片段數(shù)量加以限制。

對所拍內(nèi)容實施二次評估:當(dāng)拍攝的片段總體擺在你面前的時候,可以很輕松地判斷哪個片段拍的最好。因此,相較于直接將拍攝結(jié)果展示給用戶,Clips 傾向記錄更多的瞬間來讓用戶選擇。將拍攝的片段傳輸至手機端前,Clips 相機會再一次評估拍攝的內(nèi)容,然后只將品質(zhì)最好和最少冗余的內(nèi)容呈現(xiàn)給用戶。

機器學(xué)習(xí)的公平性

除了保證視頻數(shù)據(jù)集覆蓋人種類別的多樣性之外,谷歌還建立了幾項其他的測試來評估算法的公平性。在保證平衡的前提下,谷歌從不同性別和膚色中對取樣 subject,打造了一個可控數(shù)據(jù)集,同時保持如內(nèi)容類型、時長、環(huán)境條件恒定的多樣性。隨后,谷歌使用這個數(shù)據(jù)集來測試算法應(yīng)用到不同組時,是否仍保持相同的表現(xiàn)。為了幫助檢測算法在公平性上是否發(fā)生任何退化,一旦發(fā)現(xiàn)退化,谷歌就會及時地改進(jìn)這個瞬間品質(zhì)模型(moment quality models),谷歌也將這個公平性測試加到了自家的自動化系統(tǒng)上。任何軟件上的改變都要進(jìn)行電池續(xù)航測試,且需要合格通過。需要注意的是,這個方法并不能完全保證算法的公平,正如谷歌無法對每一個可能的場景和結(jié)果都進(jìn)行測試一樣。但是,谷歌相信在機器學(xué)習(xí)算法中實現(xiàn)公平的長期研究中,以上步驟是重要的一部分。

結(jié)論

大多數(shù)的機器學(xué)習(xí)算法都被設(shè)計來評估目標(biāo)的品質(zhì):如判斷一張照片內(nèi)有貓,或者沒有貓。在這個案例中,谷歌旨在將算法設(shè)計成拍攝一個更難懂、更主觀的品質(zhì),即判斷一張個人照片是否有趣。因而,谷歌將照片的客觀、語義內(nèi)容與人類的主觀喜好結(jié)合起來,用于打造支持 Google Clips 相機的 AI 技術(shù)。另外,Clips 還被設(shè)計成可在用戶參與下工作,而不是獨自工作;為了取得更好的拍攝結(jié)果,需要用戶來考慮取景并保證把 Clips 對準(zhǔn)有趣的內(nèi)容。谷歌很高興地看到 Google Clips 運行表現(xiàn)良好,并將繼續(xù)改進(jìn)算法來幫助 Clips 捕捉那個「完美」的瞬間!


來源:雷鋒網(wǎng)

作者:

編輯:jiyang

圖片來源:

本文鏈接: http://givenhand.cn/article/20180624/326.html

  • 新技術(shù)
  • 人工智能
免責(zé)聲明:本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布,不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對文中的圖文等所有信息的真實性不作任何保證或承諾,請讀者僅作參考,并自行核實相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考,不能做為投資、采購或行為決策依據(jù),據(jù)此操作者風(fēng)險自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢

    2021世界制造業(yè)大會于11月22日在合肥落下帷幕。為期四天的大會中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?,F(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤,折疊起來之后的厚度大約為24毫米。當(dāng)保持半開狀態(tài)時,可以像拿本書一樣握住,并且能同時運行兩個應(yīng)用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱 智能手機競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱

    據(jù)外媒報道,在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競爭中,豐田汽車和日產(chǎn)汽車面臨著被本土市場拖累的風(fēng)險。與美國和歐洲的汽車消費者不同的是,日本消費者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機器人 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機器人

    到2020年,推廣應(yīng)用3萬臺工業(yè)機器人,建設(shè)1000條智能生產(chǎn)線、300個智能車間、150個智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標(biāo)簽