国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

重磅!元景屏幕操控智能體助力聯(lián)通云智手機(jī)“自動駕駛”大規(guī)模商用

網(wǎng)絡(luò)
  • 網(wǎng)絡(luò)
  • 2025-09-03 14:41

近日,聯(lián)通云智手機(jī)開放了“手機(jī)自動駕駛”功能的大規(guī)模商用,實現(xiàn)“一句話操控手機(jī)App”的功能。該功能背后的核心能力,是中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型。憑借元景多模態(tài)GUI模型對屏幕內(nèi)容的精確理解和操控任務(wù)的精準(zhǔn)規(guī)劃,元景屏幕操控智能體為手機(jī)、PAD、電腦等多類硬件的App自動操控提供了有力支撐。

元景屏幕操控智能體

元景屏幕操控智能體能夠像人類一樣自動理解和操作智能設(shè)備的屏幕界面。用戶只需要簡單地輸入一個指令,比如“打開攜程預(yù)定車票”、“QQ音樂播放音樂”、或者“使用高德打車到指定位置”,屏幕操控智能體就能自動完成一系列復(fù)雜的操作,無需用戶手動點擊、輸入或切換應(yīng)用,大大節(jié)省了時間和精力。

2025090214391726.001.jpg

聯(lián)通云智手機(jī)“自動播放”功能演示視頻截圖(QQ音樂)

元景屏幕操控智能體秘訣就在下圖中。當(dāng)用戶發(fā)出指令后,屏幕操控智能體會先對當(dāng)前屏幕進(jìn)行“拍照”,然后將這張“照片”和用戶的指令一起發(fā)送給元景多模態(tài)GUI模型。模型會分析當(dāng)前屏幕上的各種元素(比如按鈕、文本框、圖標(biāo)等)、理解用戶的需求,并規(guī)劃出接下來的操作步驟,比如點擊某個按鈕、輸入文字、滑動屏幕等。然后,智能體就會按照這些步驟精準(zhǔn)地操作設(shè)備。

2025090214391726.002.jpg

元景屏幕操控智能體架構(gòu)

如果屏幕操控智能體在自動操作過程中遇到需要輸入敏感信息的環(huán)節(jié),比如登錄賬號、輸入密碼或者支付環(huán)節(jié),其還會暫停操作并提醒用戶手動確認(rèn),以確保用戶的隱私和安全。在用戶完成輸入后,智能體會繼續(xù)自動操作,直至用戶的操作指令執(zhí)行完畢。

以下視頻展示了元景屏幕操控智能體在手機(jī)上完成“打開攜程,幫我預(yù)定9月10日從成都到北京的飛機(jī)票,選擇07:55出發(fā)的那趟航班?!边@一任務(wù)的工作流程:智能體會基于當(dāng)前屏幕截圖和用戶指令,逐步模擬人類操作手機(jī),直到到達(dá)支付界面,提醒用戶支付。

2025090214391726.003.jpg

聯(lián)通云智手機(jī)“攜程訂飛機(jī)票”步驟演示視頻截圖

元景屏幕操控智能體使得各類智能設(shè)備的操控操作變得更加簡單,尤其對老人、兒童等對智能設(shè)備操作不太熟悉的群體,提供了更加便利的操作方式。比如,老人想給遠(yuǎn)在他鄉(xiāng)的孩子發(fā)一條信息,只需要說“給兒子發(fā)個消息,說我想他了”,智能體就能自動打開消息應(yīng)用,輸入文字并發(fā)送;孩子想聽一首歌,只需要說“播放周杰倫的《稻香》”,智能體就能自動找到歌曲并播放。對于上班族來說,它也能大大提升工作效率。比如需要快速完成各類申請、信息查詢、訂票、點外賣等操作時,都可以通過一句話的指令自動完成。

元景多模態(tài)GUI模型

作為元景屏幕操控智能體的核心,元景多模態(tài)GUI模型基于自研的創(chuàng)新復(fù)合視覺編碼模塊和元景語言模型構(gòu)建,具備對多種屏幕內(nèi)容的精確理解和多步復(fù)雜操作任務(wù)的高效精準(zhǔn)規(guī)劃能力,其中,復(fù)合視覺模塊融合了CNN(ConvNext)和ViT(Siglip、InternViT)兩類視覺編碼器,能夠在捕獲圖像細(xì)節(jié)以及空間特征的同時,全面理解圖像全局信息,從而實現(xiàn)了屏幕內(nèi)容的魯棒視覺表征。

同時,為了支持動態(tài)分辨率輸入,復(fù)合視覺編碼模塊除了塊內(nèi)的位置編碼外,還對每個patch之間添加2D圖像位置編碼,從而加強(qiáng)了GUI模型對位置信息的感知。

2025090214391726.004.jpg

元景多模態(tài)GUI模型架構(gòu)

元景多模態(tài)GUI模型使用了大量屏幕控制相關(guān)的識別定位和多步任務(wù)規(guī)劃圖文數(shù)據(jù),覆蓋了不同操作系統(tǒng)的應(yīng)用、網(wǎng)頁、系統(tǒng)設(shè)置等界面,使得模型在準(zhǔn)確理解用戶輸入文本指令的同時,能夠精準(zhǔn)識別和定位屏幕上的各種圖形和界面元素,并規(guī)劃出復(fù)雜的多步操作任務(wù),就像擁有一雙“火眼金睛”和一個“超級大腦”。

在模型訓(xùn)練方面,采用了GPRO進(jìn)行自適應(yīng)的強(qiáng)化學(xué)習(xí)訓(xùn)練,進(jìn)一步提升了交互決策的準(zhǔn)確率和泛化能力。在業(yè)界權(quán)威的GUI模型評測基準(zhǔn)ScreenSpot-V2上,元景多模態(tài)GUI模型得分90.5%,排名前三,接近人類專家水平。

2025090214391726.005.jpg

元景多模態(tài)GUI模型在ScreenSpot-V2基準(zhǔn)上排名前三

為盡量縮短屏幕操控任務(wù)的整體時長,元景多模態(tài)GUI模型在多步推理速度方面也進(jìn)行了大量的優(yōu)化。

首先,在不同任務(wù)的操控邏輯上,通過優(yōu)化操作路徑進(jìn)行了整體執(zhí)行效率的提升。相比傳統(tǒng)模型“逐步試探式”的指令鏈條,我們能夠基于上下文理解,智能選擇更少、更準(zhǔn)、更優(yōu)的操作步驟,規(guī)避冗余和重復(fù)指令,確保以最短路徑完成任務(wù)。這就像為任務(wù)規(guī)劃一條既快捷又高質(zhì)量的“智能駕駛路線”,顯著提升整體操作流暢度和用戶體驗。

同時,團(tuán)隊通過采取模型優(yōu)化、推理加速等方式,進(jìn)一步提升了模型的推理效率,使模型的整體響應(yīng)速度較業(yè)界主流模型提升超過50%。

當(dāng)前,中國聯(lián)通數(shù)據(jù)科學(xué)與人工智能研究院自研的元景屏幕操控智能體和元景多模態(tài)GUI模型已支持主流App的操控,涵蓋社交、娛樂、出行、購物、信息服務(wù)等常見使用場景。針對企業(yè)專屬App,其也體現(xiàn)了強(qiáng)大的通用性和適配能力,當(dāng)前已支持多個企業(yè)內(nèi)部App的自動操控,并覆蓋了手機(jī)、電腦、車載設(shè)備等多類終端的不同操作系統(tǒng)。

未來,它還將支持企業(yè)ERP系統(tǒng)、工業(yè)控制系統(tǒng)等復(fù)雜業(yè)務(wù)環(huán)境的自動操控,進(jìn)一步提升跨平臺、定制化應(yīng)用的智能化水平,讓各類智能設(shè)備的操作更加高效、便捷與安全。作為多模共生的元景模型家族的重要組成部分,元景多模態(tài)模型將為更多行業(yè)場景提供標(biāo)準(zhǔn)化、模塊化的智能交互解決方案,推動多模態(tài)AI真正走進(jìn)千行百業(yè),助力行業(yè)數(shù)字化轉(zhuǎn)型提質(zhì)增效。


來源:網(wǎng)絡(luò)

作者:

編輯:leilei

圖片來源:

本文鏈接: http://givenhand.cn/article/20250903/1903.html

  • 自動駕駛
  • 助力
  • 手機(jī)
免責(zé)聲明:本網(wǎng)站出于傳播商業(yè)信息之目的進(jìn)行轉(zhuǎn)載發(fā)布,不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對文中的圖文等所有信息的真實性不作任何保證或承諾,請讀者僅作參考,并自行核實相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考,不能做為投資、采購或行為決策依據(jù),據(jù)此操作者風(fēng)險自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢 5G+AR加持 晨星機(jī)器人掀起“智能化+人機(jī)交互”制造新趨勢

    2021世界制造業(yè)大會于11月22日在合肥落下帷幕。為期四天的大會中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?,F(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤,折疊起來之后的厚度大約為24毫米。當(dāng)保持半開狀態(tài)時,可以像拿本書一樣握住,并且能同時運(yùn)行兩個應(yīng)用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機(jī)競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱 智能手機(jī)競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱

    據(jù)外媒報道,在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競爭中,豐田汽車和日產(chǎn)汽車面臨著被本土市場拖累的風(fēng)險。與美國和歐洲的汽車消費(fèi)者不同的是,日本消費(fèi)者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機(jī)器人 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機(jī)器人

    到2020年,推廣應(yīng)用3萬臺工業(yè)機(jī)器人,建設(shè)1000條智能生產(chǎn)線、300個智能車間、150個智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標(biāo)簽