作為云服務國家隊,天翼云積極推進算力普惠發(fā)展,已形成“2+4+31+X”資源布局,構建了“集中化+區(qū)域化+屬地化+邊緣化”的云網(wǎng)基礎設施,為人工智能夯實“算力底座”,助力AI快速完成數(shù)據(jù)訓練,提高計算與模擬的精準性。
為了適應市場智能算力快速增長的速度,天翼云聚焦人工智能場景創(chuàng)新,推出天翼云智算平臺,以普惠智能算力為基礎,支持大模型訓練、智能推薦、無人駕駛、生命科學、NLP等業(yè)務場景。
天翼云智算平臺依托天翼云分布式架構的云底座和海量的計算、存儲、網(wǎng)絡資源,具有高性能、高彈性、高速互聯(lián)、高性價比等特性,能夠滿足企業(yè)不斷增長的高性能算力使用需求。
日前,天翼云智算平臺通過中國信息通信研究院《可信算力服務平臺技術能力要求第3部分:智算平臺》評估,成為業(yè)內(nèi)首批通過該項評估的云服務商。
具體來看,天翼云智算平臺主要有以下四個方面的差異化優(yōu)勢:
高性能底座支撐能力:天翼云智算平臺基于天翼云TeleCloudOS4.0云網(wǎng)底座,覆蓋全場景算力需求;打造國產(chǎn)化能力體系,適配國產(chǎn)主流GPU芯片以及各種國產(chǎn)服務器,適配自研云服務器操作系統(tǒng)CTyunOS;集成彈性計算、分布式存儲、云網(wǎng)絡三大基礎核心技術,軟硬協(xié)同硬件加速,提供全量IaaS產(chǎn)品服務。
GPU虛擬化能力:天翼云智算平臺支持主流MediatedPassthrough(vGPU)、直通透傳等虛擬化技術;支持軟硬件層面的容器虛擬化技術,軟件方面支持API劫持及其他算力和顯存靈活分配能力,硬件方面支持MIG、vNPU等特性,從物理資源層面分配單卡資源。
高效的調(diào)度能力:資源調(diào)度方面,天翼云智算平臺實現(xiàn)對GPU、NPU、CPU等異構算力資源的混合調(diào)度,訓練、推理任務統(tǒng)一調(diào)度,實現(xiàn)了異構算力和異構任務的統(tǒng)一調(diào)度;任務調(diào)度方面,提供基于任務優(yōu)先級、任務SLA、資源獨占式調(diào)度、共享式調(diào)度、搶占式調(diào)度,靈活支持各類差異化的用戶需求。
分布式訓練能力:天翼云智算平臺提供分布式訓練一站式解決方案,融合GPU拓撲感知、親和調(diào)度、高IO并行文件系統(tǒng)等底層技術,支持多種模型訓練方式,兼容主流AI框架,擴展定制業(yè)界主流分布式訓練方案,提升訓練數(shù)據(jù)量,縮短模型交付周期;提供定制化算法框架,采用代碼生成等方式,內(nèi)置提供豐富的算子,簡化數(shù)據(jù)集導入、特征工程處理、預訓練模型依賴等步驟,提升AI訓練開發(fā)效率;針對大模型分布式環(huán)境下的訓練,顯存優(yōu)化方面使用ZeRo等技術,打破顯存與內(nèi)存的隔閡,降低訓練的顯存開銷。
隨著國內(nèi)新一波人工智能浪潮襲來以及AI規(guī)模化落地應用,具備“更高、更快、更強”能力的智能計算基礎設施平臺被人工智能行業(yè)所青睞。天翼云智算平臺適用于城市治理、AI質(zhì)檢、搜索推薦、自動駕駛、金融、科學研究等領域,可提供人工智能應用所需算力服務、數(shù)據(jù)服務和算法服務,通過算力的生產(chǎn)、聚合、調(diào)度和釋放,促進AI產(chǎn)業(yè)聚集發(fā)展。
天翼云智算平臺不僅提供算力,還對云能力做“組件化”封裝進行輸出,能迅速支撐業(yè)務上線,提升技術創(chuàng)新能力,加速科技研發(fā)進程。此外,智算平臺的推廣與應用將產(chǎn)生聯(lián)動效應,帶動通信服務網(wǎng)絡、大數(shù)據(jù)、人工智能等技術快速迭代,有助于我國科技創(chuàng)新提速。
在人工智能按下“快進鍵”的背景下,天翼云不斷完善智算基礎設施,打造創(chuàng)新性的產(chǎn)品,深度賦能人工智能領域企業(yè)跑出“加速度”,并通過多點發(fā)力布局走在智算領域的前列,AI應用也將在科技創(chuàng)新的助力下進一步加速“走深向?qū)崱?#xff0c;全面推動AI產(chǎn)業(yè)高質(zhì)量發(fā)展。