国产成人超清在线视频,国产高清永久免费,国产最新超碰97上传无码,超碰国产人人草人人爽

【云棲2023】張治國:MaxCompute架構(gòu)升級及開放性解讀

數(shù)據(jù)
  • 網(wǎng)絡(luò)
  • 2023-11-13 09:04

簡介:本文根據(jù)2023云棲大會演講實錄整理而成,演講信息如下

演講人:張治國|阿里云智能計算平臺研究員、阿里云MaxCompute負責(zé)人

演講主題:MaxCompute架構(gòu)升級及開放性解讀

活動:2023云棲大會

       MaxCompute發(fā)展經(jīng)歷了三個階段:MaxCompute1.0,主旨是達到大規(guī)模的數(shù)據(jù)處理能力,在性能和規(guī)模上提供給用戶一個分布式處理平臺;MaxCompute2.0,主旨是Serverless,強調(diào)彈性和性價比;MaxCompute3.0階段主旨一體化,包括湖倉一體、離線實時一體化等。

       在整個MaxCompute發(fā)展過程中,可以從五個維度看一下數(shù)倉的發(fā)展趨勢;

          1.  隨著現(xiàn)代數(shù)據(jù)驅(qū)動各個不同業(yè)務(wù)的發(fā)展,數(shù)據(jù)規(guī)模越來越大;

          2.  在不同規(guī)模下,應(yīng)用越來越多元化,其中包括數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化,應(yīng)用隨著AI的興起,AI的應(yīng)用也越來越多,對數(shù)倉的要求也會越來越高;

          3.  數(shù)據(jù)的實時性、時效性要求越來越高,我們需要更多做數(shù)據(jù)實時大批量的流式導(dǎo)入、實時數(shù)倉這方面的工作;

          4.  對數(shù)據(jù)的準確性要求也越來越高,我們需要大規(guī)模數(shù)據(jù)治理、質(zhì)量控制這方面的工作;

          5.  AI興起,大家都圍繞著數(shù)據(jù)來做業(yè)務(wù)決策,怎么從現(xiàn)有數(shù)據(jù)中產(chǎn)出更高的價值,這也是大家對數(shù)倉發(fā)展的一個越來越高的要求;

       圍繞這五個不同發(fā)展趨勢,阿里云提出MaxCompute4.0開放一體架構(gòu),圍繞近實時,開放性、性價比、Data+AI一體化等多維度進行升級。

       MaxCompute4.0開放一體架構(gòu),底層數(shù)據(jù)高并發(fā)、實時流式數(shù)據(jù)導(dǎo)入,數(shù)據(jù)同時可以選擇導(dǎo)入到MaxCompute自己的盤古存儲系統(tǒng),也可以導(dǎo)入到OSS一些開放數(shù)據(jù)結(jié)構(gòu)中,內(nèi)置存儲選用的是自己的AliORC。在這之上設(shè)計了統(tǒng)一的語言數(shù)據(jù)管理服務(wù),可以納管內(nèi)置的存儲數(shù)據(jù),同時可以通過DF同時管理OSS和HDFS上面的開放數(shù)據(jù)結(jié)構(gòu)。通過一個開放存儲的服務(wù),提供一個統(tǒng)一的接口給上層不同計算引擎做不同業(yè)務(wù)場景下的計算要求。再往上使用彈性計算資源調(diào)度,可以很容易調(diào)度不同的計算引擎在整個計算平臺上去計算數(shù)據(jù)。最上層是對接不同的開發(fā)平臺和數(shù)據(jù)應(yīng)用。

MaxCompute 4.0 開放性升級:開放存儲及計算架構(gòu)

       MaxCompute 4.0的開放性升級有兩方面,一個是開放存儲,一個是開放計算架構(gòu)。開放存儲我們希望把內(nèi)置的數(shù)據(jù)格式能夠通過開源內(nèi)存格式提供給不同計算引擎。開放計算架構(gòu)希望內(nèi)置計算引擎可以通過同樣一個API可以高效訪問數(shù)據(jù)湖上的數(shù)據(jù)。

       開放結(jié)構(gòu)最主要提供的價值因為現(xiàn)在用戶的應(yīng)用、計算各個不同場景需要不同的計算引擎和不同的計算方式,MaxCompute 提供靈活開放的開源大數(shù)據(jù)AI引擎的計算方式給不同應(yīng)用。并且在這種開放場景下,我們也可以提供比較靈活的計算資源。

       如上圖所示,左邊是比較通用的一些場景,如果大家已經(jīng)用了MaxCompute現(xiàn)代一些計算,同時需要一些AI計算或者一些其他計算,可以通過Storage API對接底下統(tǒng)一的數(shù)據(jù)源做不同的計算,這樣可以提供一個數(shù)據(jù)零拷貝,不需要為了不同計算把數(shù)據(jù)拷貝出去放到不同地方然后做計算。另外我們希望能夠提供統(tǒng)一的管理可以納管不同的數(shù)據(jù)源,大家在云上或者別的地方有自己的計算資源也可以用自己的計算資源對接自己的數(shù)據(jù)做不同的計算。

       現(xiàn)在數(shù)據(jù)的實時性方案很多在用的都是Lambda架構(gòu)的模式,Lambda架構(gòu)全鏈路數(shù)據(jù)治理都有很多痛點,這中間會有一些數(shù)據(jù)融合、數(shù)據(jù)一致性問題。在MaxCompute4.0升級的時候,做了近實時處理框架的發(fā)布,達到一份數(shù)據(jù)一份code,可以低成本低運維統(tǒng)一實施和批量處理鏈路。整個架構(gòu)我們用一個統(tǒng)一的數(shù)據(jù)組織結(jié)構(gòu)和數(shù)據(jù)管理,在這上面能夠有統(tǒng)一的計算框架,大家不用在實時和離線框架上用不同計算引擎,最終實現(xiàn)所有數(shù)據(jù)不管實時還是離線都有統(tǒng)一的語言數(shù)據(jù)管理。

MaxCompute 4.0 致力于通過技術(shù)全方位提升性價比

       隨著AI的興起,數(shù)據(jù)規(guī)模越來越大,用戶對數(shù)據(jù)計算的性價比方面有更高的追求,MaxCompute4.0在過去一年,一直致力于做全方面的性價比提升。

       計算高性能方面,SQL引擎方面在不斷提高。在HBO/HBS根據(jù)歷史查詢數(shù)據(jù),歷史的統(tǒng)計信息我們能做更好的數(shù)據(jù)優(yōu)化及查詢優(yōu)化,并且通過資源調(diào)度的優(yōu)化提高性能。大家都知道大規(guī)模數(shù)據(jù)處理的時候,最主要的核心步驟是數(shù)據(jù)的shuffling,我們做了很多工作來提高整個數(shù)據(jù)shuffle性能。除此之外,MaxCompute4.0還嘗試通過推薦能夠幫助大家做一些物化視圖的總結(jié),根據(jù)物化視圖消除重復(fù)性的計算。

       在低成本方面,根據(jù)數(shù)據(jù)的冷熱,訪問的不同頻率做到了分層存儲。通過JSON半結(jié)構(gòu)化數(shù)據(jù)的列存,實現(xiàn)更好的壓縮。

       在性價比方面,MaxCompute通過彈性資源調(diào)度、自適應(yīng)SQL引擎、存儲優(yōu)化、智能數(shù)倉四個方面技術(shù)優(yōu)化,實現(xiàn)了彈性CU最終降價50%。

彈性資源調(diào)度:當用戶根據(jù)包年包月處理會有很多空閑時候,雖然沒有用計算資源但是這個計算資源還是會算到里面去,如果有彈性資源就可以比較貼切計算的模型,根據(jù)不同時間段給不同的quota,從而達到降本增效。后面我們根據(jù)你的歷史,比如過去三個月使用情況做一些不同的資源變配的推薦,滿足資源降低成本的能力。

自適應(yīng)的SQL引擎:我們做了更多的工作,可以分成stage和stage之間的自適應(yīng)優(yōu)化。在同一個stage不同算子之間我們也可以做到不同自適應(yīng)算法。

存儲優(yōu)化:我們自研內(nèi)部的數(shù)據(jù)格式AliORC,跟一些比較通用的parquet和ORC格式對比,測試結(jié)果顯示讀寫性能是其2-6倍,壓縮比我們比他們高大概30%。我們會根據(jù)你數(shù)據(jù)的訪問頻次能夠自動推薦你在哪些數(shù)據(jù)可以做冷存數(shù)據(jù),提供更高性價比的存儲優(yōu)化。

智能數(shù)倉:自研大數(shù)據(jù)對比開源大數(shù)據(jù)最大的區(qū)別就是我們是一個自閉環(huán),能夠做自動優(yōu)化,將歷史數(shù)據(jù)統(tǒng)一放到我們的原倉數(shù)據(jù)里,根據(jù)原倉信息,可以自動做一些存儲方面和計算方面不同的優(yōu)化。

MaxCompute 4.0 Data+AI:One Env+One Data+One Code

       AI是一個新的浪潮,過去一年我們對數(shù)倉和AI如何結(jié)合做了很多思考。AI整個應(yīng)用的生命周期是數(shù)據(jù)收集、數(shù)據(jù)清洗、數(shù)據(jù)預(yù)處理、數(shù)據(jù)訓(xùn)練、數(shù)據(jù)推理。有數(shù)據(jù)表明,大家認為80%的時間花在數(shù)據(jù)的處理上,數(shù)據(jù)處理有很多痛點:

        大數(shù)據(jù)開發(fā)和AI開發(fā)是兩個割裂的環(huán)境;大數(shù)據(jù)開發(fā)很多時候大家用SQL,但是AI現(xiàn)在更多的用Python開發(fā)環(huán)境。

       ?  AI更關(guān)注AI計算引擎;對數(shù)據(jù)的大規(guī)模并發(fā)處理和分布式處理的能力有所欠缺,很多時候用戶要在自己本地做數(shù)據(jù)清理,或者找數(shù)據(jù)開發(fā)師去做數(shù)據(jù)處理。

       ?  數(shù)據(jù)來源比較多樣化;很多數(shù)據(jù)大家會放在數(shù)據(jù)湖上,沒有一個統(tǒng)一的數(shù)據(jù)管理的平臺能夠幫忙做數(shù)據(jù)管理,今天你處理了數(shù)據(jù),而另外一個人需要產(chǎn)生非常相近的數(shù)據(jù),但他不知道你這已經(jīng)處理了這份數(shù)據(jù)他有可能重新跑一遍,不光花了時間也花了資源。

       ?  開發(fā)迭代效率低;因為兩套系統(tǒng),導(dǎo)致整個開發(fā)鏈路都比較長,效率低下。

       我們希望能夠從數(shù)倉方面幫助用戶解決那些痛點。MaxCompute 4.0主旨實現(xiàn),One Env+One Data+One Code,這背后核心就是提供一個Python的開發(fā)環(huán)境,一個Notebook的開發(fā)體驗。在Data For AI方面,MaxCompute全面升級DataFrame能力,發(fā)布分布式計算框架MaxFrame,100%兼容Pandas等數(shù)據(jù)處理接口,通過一行代碼即可將原生Pandas自動轉(zhuǎn)為MaxFrame分布式計算,打通數(shù)據(jù)管理、大規(guī)模數(shù)據(jù)分析、處理到ML開發(fā)全流程,打破大數(shù)據(jù)及AI開發(fā)使用邊界,實現(xiàn)大數(shù)據(jù)AI開發(fā)一體化,大大提高開發(fā)效率。

       另外在AI For Data方面,我們提供一個Python大數(shù)據(jù)處理,這樣我們更容易使用一些豐富的AI和ML一些模型來做更好的數(shù)據(jù)挖掘和分析。

       回頭看整個MaxCompute4.0,我們希望做到數(shù)據(jù)的開放,計算引擎的包容,能夠滿足各種不同的數(shù)據(jù)計算場景的需求,以及根據(jù)數(shù)據(jù)實時性會增加增量計算的能力,滿足大家對數(shù)據(jù)實時性的要求。后續(xù)MaxCompute也會持續(xù)在開放架構(gòu)、增量處理、Data+AI三個方向持續(xù)發(fā)展。


來源:網(wǎng)絡(luò)

作者:

編輯:leilei

圖片來源:

本文鏈接: http://givenhand.cn/article/20231113/1599.html

免責(zé)聲明:本網(wǎng)站出于傳播商業(yè)信息之目的進行轉(zhuǎn)載發(fā)布,不代表 AIUST.Com 立場。本文所涉文、圖、音視頻等資料之一切權(quán)利和法律責(zé)任歸提供方所有和承擔(dān)。本網(wǎng)站對文中的圖文等所有信息的真實性不作任何保證或承諾,請讀者僅作參考,并自行核實相關(guān)內(nèi)容。本網(wǎng)站的任何內(nèi)容僅供參考,不能做為投資、采購或行為決策依據(jù),據(jù)此操作者風(fēng)險自擔(dān)。

相關(guān)文章

資訊

原創(chuàng)

薦讀

  • 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢 5G+AR加持 晨星機器人掀起“智能化+人機交互”制造新趨勢

    2021世界制造業(yè)大會于11月22日在合肥落下帷幕。為期四天的大會中,作為向世界展示智能制造全面能力的窗口,聯(lián)想展示了一系列讓人驚喜的創(chuàng)新產(chǎn)品?,F(xiàn)場展示的ThinkPad X1 Fold整體重量僅有1公斤,折疊起來之后的厚度大約為24毫米。當保持半開狀態(tài)時,可以像拿本書一樣握住,并且能同時運行兩個應(yīng)用程序。使用固定在中間的鍵盤之后,瞬間變...

  • 智能手機競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱 智能手機競爭中失敗,日本在聯(lián)網(wǎng)汽車領(lǐng)域舉步維艱

    據(jù)外媒報道,在制造帶有數(shù)字聯(lián)網(wǎng)服務(wù)的汽車的競爭中,豐田汽車和日產(chǎn)汽車面臨著被本土市場拖累的風(fēng)險。與美國和歐洲的汽車消費者不同的是,日本消費者不愿意為這些聯(lián)網(wǎng)功能和服務(wù)買單。結(jié)果就是:日本只有10%的汽車...

  • 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機器人 2020年河南省將推廣應(yīng)用3萬臺工業(yè)機器人

    到2020年,推廣應(yīng)用3萬臺工業(yè)機器人,建設(shè)1000條智能生產(chǎn)線、300個智能車間、150個智能工廠……4月16日,在2018兩岸智能裝備制造鄭州論壇上,河南省工信委發(fā)布了《2017年河南省智能制造白皮書》,河南智能制造的2020...

熱門標簽