AI新云(也稱GPU云、智算云)是全球 AI 基礎(chǔ)設(shè)施當(dāng)下變革的注腳。
過去一年,生成式AI及大語言模型集成企業(yè)應(yīng)用加速生長,市場對訓(xùn)練 AI 模型的 GPU 專用計算需求激增。為滿足該需求,GPU專用云服務(wù)平臺不斷涌現(xiàn),這些云服務(wù)平臺被稱為 AI 新云( NeoCloud)。
(九章云極CEO方磊 受訪者供圖)
與提供廣泛通用服務(wù)的傳統(tǒng)通算云服務(wù)商不同,NeoCloud 專注為 AI 工作負載提供高性能基礎(chǔ)架構(gòu)。據(jù)Business Research預(yù)測,全球GPU專用云市場規(guī)模將由2024年的31.7億美元快速增長至2033年472.4億美元,增長近15倍,復(fù)合增長率約為35%。
(數(shù)據(jù)來源:Business Research)
為在這一藍海中掌握先發(fā)優(yōu)勢,海內(nèi)外企業(yè)皆摩拳擦掌。
今年3月,被業(yè)內(nèi)稱作“英偉達親兒子”的AI基礎(chǔ)設(shè)施企業(yè)CoreWeave上市,這家依托英偉達GPU資源沖擊新云市場的創(chuàng)企,市值在IPO后的兩個月從230億美元飆升至720億美元。與CoreWeave頗為類似,另一家海外AI基礎(chǔ)設(shè)施企業(yè)Crusoe也憑借其掌握的GPU資源成功轉(zhuǎn)型云服務(wù)商。
在這場AI算力淘金熱中,中國同樣參與者眾多,其中不乏云服務(wù)商、利用云服務(wù)拓展業(yè)務(wù)的AI基礎(chǔ)設(shè)施企業(yè)。
今年第二季度,這些沖擊AI新云計算的公司先后發(fā)布了自己的AI基礎(chǔ)設(shè)施服務(wù)。如CoreWeave推出基于英偉達GB200的全新架構(gòu);阿里云基于 PAI-DLC 云原生分布式深度學(xué)習(xí)訓(xùn)練平臺推出了 FlashMoE,九章云極從AI計算底層革新出發(fā),推出了基于Serverless+RL強化學(xué)習(xí)技術(shù)架構(gòu)的九章智算云Alaya NeW Cloud。
“相比海外企業(yè)以資本驅(qū)動實現(xiàn)規(guī)模化,中國AI新云更關(guān)注迭代速度、總體擁有成本等務(wù)實客戶價值。”近日,九章云極CEO方磊在接受時代周報記者專訪時表示,資本市場對以CoreWeave為代表的資源型企業(yè)的考察重點并非技術(shù),而是其憑借賣資源打下的市場規(guī)模。相比而言,中國企業(yè)更關(guān)注技術(shù)本身的“用處”——業(yè)務(wù)范圍既涵蓋售賣資源,也包括應(yīng)用在各種場景中的AI工具。他認為,這樣的模式有助于維系長尾客戶,而長尾客戶往往是企業(yè)穩(wěn)健發(fā)展的關(guān)鍵要素。
九章云極DataCanvas于2013年成立,是國內(nèi)AI基礎(chǔ)設(shè)施的頭部企業(yè)。此前,九章云極提出“一度算力包”概念,希望解決行業(yè)中算力結(jié)構(gòu)性錯配、服務(wù)非標(biāo)準化、用戶需求難以預(yù)測等問題。
方磊是清華電子工程系畢業(yè)的博士,雖技術(shù)出身,但對商業(yè)的見解十分“接地氣”。他表示,商業(yè)的本質(zhì)是“賣貨”,在交易與合作中,要理解貨物本身的價值,也要清楚其邊界,同時看到客戶企業(yè)的能動性和創(chuàng)造力。
“涉足AI新云業(yè)務(wù)的公司把所能提供的價值點押注在算力層而非工具鏈上,更有利于公司行穩(wěn)致遠。”方磊向時代周報記者解釋道,GPU一旦“云化”,其規(guī)模和技術(shù)門檻會迅速提升。規(guī)模將會和電力一樣巨大。就像微軟從操作系統(tǒng)的軟件公司涉足Office,GPU云企業(yè)也會克服算力、算法變遷帶來的難題,在多元的生態(tài)位上找到自己的角色。
算力:CPU云向GPU云的歷史性遷移
市場為什么會大力呼喚GPU專用云?
方磊表示, 傳統(tǒng)云架構(gòu)的局限性逐漸凸顯。傳統(tǒng)CPU 云基于虛擬化技術(shù)的資源切片模式,主要針對互聯(lián)網(wǎng)時代帶寬密集型應(yīng)用設(shè)計。但 AI 工作負載以計算密集型處理為核心,需要大規(guī)模并行計算能力,這與CPU的串行處理特性形成了根本性矛盾。
簡而言之,CPU的技術(shù)架構(gòu)在訓(xùn)練和推理大型AI模型方面不夠高效。那么,AI時代需要怎樣的硬件設(shè)施?
方磊向時代周報記者拆解道,硬件方面,GPU性能更強,資源利用方式更“聰明”。如英偉達最新的 H200 GPU 內(nèi)存帶寬達 4.8TB/s,約為傳統(tǒng) CPU 系統(tǒng)( 50GB/s) 的近百倍,在深度學(xué)習(xí)訓(xùn)練中,性能可提升 10-100 倍。同時,Multi-Instance GPU(MIG)技術(shù)能將單個 GPU 分割為最多7 個獨立實例,即不同“GPU分身”可以同時工作,互不干擾,便于下游企業(yè)更靈活地分配計算資源,實現(xiàn) GPU 的精細化管理。
硬件迭代如同給AI研發(fā)裝上了"渦輪增壓",在帶來高效計算的同時,也為業(yè)內(nèi)玩家的商業(yè)模式帶來與傳統(tǒng)巨頭同臺競技的底氣。時代周報記者注意到,在傳統(tǒng) CPU 通算云向 GPU 智算云的架構(gòu)遷移的過程中,傳統(tǒng)云巨頭面臨了新勢力的挑戰(zhàn)——AWS、Google Cloud、Azure等企業(yè)雖推出 GPU 實例,但在定價和性能優(yōu)化上未能即時適應(yīng)新的市場需求。
“一個數(shù)據(jù)中心,如果同時兼顧CPU和GPU的需求,就會變成‘四不像’。”方磊解釋稱,一方面,如果數(shù)據(jù)中心僅運行GPU,要比同時運行GPU和CPU的成本低廉。據(jù)市場信息,如亞馬遜的GPU租賃價格為12美元/卡時,CoreWeave的價格則為6美元/卡時;另一方面,假如一個計算中心不是單純?yōu)镚PU高度優(yōu)化的,也會影響GPU的性能。”
相較傳統(tǒng)云廠商“大象難起舞”,專用GPU云企業(yè)的成本與商業(yè)模式更顯“普適性”。如CoreWeave 的 GPU 實例定價,相比傳統(tǒng)云提供商有 50%-80% 的成本優(yōu)勢;九章云極智算云Alaya NeW Cloud的定價策略則拋去了傳統(tǒng)裸金屬租賃方式,提出“一度算力”按量計費模式,降低算力使用門檻,提升算力使用的靈活性。
從 CPU 云到 GPU 云的遷移,不僅是技術(shù)升級,更是計算范式從通用向?qū)S玫母巨D(zhuǎn)變,這種轉(zhuǎn)變正重塑著整個云計算產(chǎn)業(yè)的競爭格局。
算法:深度學(xué)習(xí)向強化學(xué)習(xí)躍遷
算法層面的變革也在影響底層算力的躍遷。當(dāng)前,AI 算法正從數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)向經(jīng)驗學(xué)習(xí)轉(zhuǎn)變,這一新的模型訓(xùn)練方式,對GPU專用云的效率提出了新要求。
“用于訓(xùn)練大模型的高質(zhì)量數(shù)據(jù)量接近天花板,難再有指數(shù)級增長。這一限制促使研究者轉(zhuǎn)向強化學(xué)習(xí),通過模型與環(huán)境交互生成訓(xùn)練數(shù)據(jù),以經(jīng)驗反饋突破數(shù)據(jù)稀缺瓶頸,增強模型的推理能力。”方磊告訴時代周報記者,算法范式的變化會產(chǎn)生新的算力缺口。原因在于,強化學(xué)習(xí)的多模型架構(gòu)大幅增加了訓(xùn)練資源需求。以 70B 參數(shù)模型為例,RLHF 階段約需 48 個 A100 GPU 同時工作,計算需求比傳統(tǒng)深度學(xué)習(xí)增加 1-2 個數(shù)量級。
"這一數(shù)據(jù)的判斷與英偉達計算芯片迭代的實際節(jié)奏高度吻合——與‘B系列’芯片相比,其‘R系列’芯片的推理性能實現(xiàn)了十倍乃至百倍的提高。”方磊補充道。
如何提升GPU專用云的效率以應(yīng)對算法的變革?不妨從云計算的發(fā)展史中汲取經(jīng)驗。
近20年,云計算產(chǎn)業(yè)的發(fā)展出現(xiàn)了三個分水嶺。一是以虛擬化為主要技術(shù)支撐的云計算正式登上歷史舞臺,應(yīng)對高速擴張的移動互聯(lián)網(wǎng)以及流媒體萌芽所帶來的爆炸式計算需求;二是池化技術(shù)的變革,通過規(guī)模化的調(diào)度、編排,形成了超大規(guī)模的計算和存儲資源池,繼而形成亞馬遜云、微軟云、阿里云三強鼎立的格局;三是阿里云創(chuàng)新性地推出CIPU(云基礎(chǔ)設(shè)施處理器)架構(gòu)方式,該架構(gòu)不僅能在數(shù)據(jù)中心內(nèi)發(fā)揮效用,也能和系統(tǒng)內(nèi)的軟硬件深度適配,當(dāng)計算資源、存儲資源、網(wǎng)絡(luò)資源接入CIPU后,就會被云化為虛擬算力進行調(diào)度編排,兼顧零損耗與高性能。
前兩次浪潮,使得CPU為核心的傳統(tǒng)X86架構(gòu)替代了大型機、小型機,滿足了當(dāng)時企業(yè)業(yè)務(wù)擴展帶來的算力彈性需求,但他們的本質(zhì)都是通過軟件的優(yōu)化,將越來越多的計算節(jié)點連接組合對外提供服務(wù)。時至第三次變革,軟件的迭代已不足以應(yīng)對當(dāng)時的市場需求,架構(gòu)的創(chuàng)新成為云廠商換道超車的新思路。
同樣地,于GPU專用云而言,“軟硬一體化”的創(chuàng)新架構(gòu)是應(yīng)對當(dāng)前算法變化的抓手。方磊告訴時代周報記者,九章智算云從底層技術(shù)架構(gòu)出發(fā),推動由虛擬技術(shù)向Serverless(無服務(wù))+RL(Reinforcement Learning,強化學(xué)習(xí))為主導(dǎo)的架構(gòu)演變,支撐AI部署從“配置機器”轉(zhuǎn)向“提交任務(wù)”,從而提高高密度算力需求下的GPU資源的利用率。
Serverless+RL的核心是將傳統(tǒng)后端服務(wù)拆解為更細粒度的函數(shù)或服務(wù)單元,由云平臺自動管理資源、運維和擴展。就如解決飽腹問題,需求方原本需要建廚房、買食材甚至雇廚師,而現(xiàn)在只需要在外賣平臺下單即可。
“在CPU云時代,虛擬化技術(shù)通過切片資源讓用戶使用;GPU云時代,Serverless技術(shù)可以讓用戶更聚焦應(yīng)用而非花太多代價去關(guān)注底層優(yōu)化。讓GPU云的提供者更關(guān)注如何做好AI優(yōu)化、高密集AI計算等,讓企業(yè)低成本實現(xiàn)他們的目標(biāo)。”
“與自動駕駛的AI訓(xùn)練系統(tǒng)類似,得益于Serverless 架構(gòu),九章云極AI新云平臺DataCanvas Alaya NeW Cloud能自動完成環(huán)境配置、策略加載與任務(wù)監(jiān)控,在強化學(xué)習(xí)訓(xùn)練中的端到端性能提升5倍。同時,Alaya-UI智能體采樣速率提升5-10倍,GPU利用率提升2倍。”方磊認為,Serverless會成為GPU云的主要技術(shù)趨勢。
(九章云極智能計算論壇 受訪者供圖)
中美AI新云分野
在AI云服務(wù)的競逐中,中美兩國走出了截然不同的發(fā)展路徑。
美國AI云市場呈現(xiàn)出典型的資本集聚特征。CoreWeave通過與英偉達的深度合作,憑借數(shù)百億美元的基礎(chǔ)設(shè)施投入,構(gòu)建起50-80%的成本優(yōu)勢;同樣采用資本密集策略的Lambda Labs,則以每小時2.49美元的H100 GPU租賃價格快速占領(lǐng)學(xué)術(shù)市場。
不過,上述兩家企業(yè)的客戶集中度較高,如CoreWeave超過60%的收入來自微軟單一大客戶。這種商業(yè)結(jié)構(gòu)雖能保證短期收入快速增長,卻也暗藏一定業(yè)務(wù)風(fēng)險。
中國企業(yè)則傾向于通過技術(shù)破局、圍繞客戶需求提供服務(wù)方案尋求增長。“我們優(yōu)化后的GPU利用率可以超過95%,這個數(shù)字比很多客戶自己優(yōu)化的結(jié)果還要高,而行業(yè)平均GPU利用率通常為70%左右。”
此外,中美AI云企業(yè)的市場定位也存在差異。美國的資本驅(qū)動模式聚焦大型企業(yè)客戶,而中國的技術(shù)驅(qū)動模式則將目光投向長尾市場。在生態(tài)建設(shè)理念方面,前者追求規(guī)模與效率,后者更強調(diào)普惠與可持續(xù)發(fā)展。
方磊認為,數(shù)百萬企業(yè)、數(shù)千萬個人開發(fā)者,都亟需彈性且高性價比的GPU云服務(wù)。他坦言,目前中國智能算力的短缺主要呈現(xiàn)結(jié)構(gòu)性錯配的特征。“如某廠商在某一地區(qū)設(shè)立了萬卡集群,但當(dāng)?shù)氐闹悄芩懔π枨蠓娇赡苄枰谕獾貙ふ曳?wù)器租用。目前公開市場上,大量AI計算芯片要么掌握在頭部互聯(lián)網(wǎng)廠商手中,要么以服務(wù)器(裸金屬)的形式出租,市場化的、面向大眾的、普惠的智能算力非常稀缺。”
談及發(fā)展目標(biāo),方磊表示,九章云極希望成為中國NeoCloud的定義者,"此前我們定義了'一度算力',未來希望探索出具備中國特色的AIDC運營模式”。他稱,DeepSeek-R1的問世已表明,低成本投入能博取優(yōu)質(zhì)的模型能力。這也意味著,能否為數(shù)千萬開發(fā)者提供普惠算力服務(wù),將成為決定AI云企業(yè)競爭力的重要考核維度。
本文鏈接:http://www.gxcspki.cn/news-2-2606-0.html算力、算法雙重變革?九章云極CEO方磊:GPU云將成AI基礎(chǔ)設(shè)施新火種
聲明:本網(wǎng)頁內(nèi)容由互聯(lián)網(wǎng)博主自發(fā)貢獻,不代表本站觀點,本站不承擔(dān)任何法律責(zé)任。天上不會到餡餅,請大家謹防詐騙!若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。
點擊右上角微信好友
朋友圈
點擊瀏覽器下方“”分享微信好友Safari瀏覽器請點擊“
”按鈕
點擊右上角QQ
點擊瀏覽器下方“”分享QQ好友Safari瀏覽器請點擊“
”按鈕