東數(shù)西算工程,是一個平衡需求、算力、電力資源的工程。東部的數(shù)據(jù)增長快、算力需求大,但土地少、電力資源緊張;西部土地多、電力充沛,而且氣溫低,有利于降低數(shù)據(jù)中心的耗電量。因此,貴州、內(nèi)蒙古等地在六七年前就開始建設大型數(shù)據(jù)中心。但這些年的發(fā)展證明,西部數(shù)據(jù)中心的利用率一直不夠,上架率不足50%,因為上架率不足,能耗優(yōu)勢也體現(xiàn)不到位。
東數(shù)西算工程對數(shù)據(jù)中心的建設是規(guī)劃加引導,全國八大樞紐節(jié)點十大數(shù)據(jù)中心集群是規(guī)劃,企業(yè)、行業(yè)在建設數(shù)據(jù)中心時向這些節(jié)點匯聚則需要引導,特別是在西部數(shù)據(jù)中心的利用率不高的情況下,如何讓向西部數(shù)據(jù)中心投資的企業(yè)“入股不虧”,是東數(shù)西算工程整盤棋的關鍵。
西部要做好冷數(shù)據(jù)處理
中國工程院院士鄔賀銓在4月21日舉辦的“第二屆中國IDC行業(yè)Discovery大會”上認為,西部數(shù)據(jù)中心發(fā)展的重點是做好冷數(shù)據(jù)的處理。
通常數(shù)據(jù)分為冷數(shù)據(jù)和熱數(shù)據(jù),冷數(shù)據(jù)就是調度不那么頻繁的數(shù)據(jù),冷數(shù)據(jù)占到整個數(shù)據(jù)總量的80%。東部數(shù)據(jù)中心適宜處理對實時性、可靠性要求比較高的一些熱數(shù)據(jù),即推理服務、視頻通話、實驗觀察、工業(yè)互聯(lián)網(wǎng)、金融證券、實時直播、遠程醫(yī)療等產(chǎn)生的數(shù)據(jù)。但是冷熱數(shù)據(jù)也是相對的,今天的熱數(shù)據(jù)過了幾個月以后就變成冷數(shù)據(jù)。
適合西部處理的冷數(shù)據(jù)類型包括:數(shù)據(jù)標注、清洗、后臺加工、日志分析、月報分析、模型訓練、渲染、物理經(jīng)學、生物信息計算、生產(chǎn)倉儲等歷史數(shù)據(jù),還包括金融備份數(shù)據(jù)、按合規(guī)要求保存3年的數(shù)據(jù)、按合規(guī)要求存儲的醫(yī)療影像、DDoS清洗中心、災備中心等數(shù)據(jù)。
西部處理冷數(shù)據(jù)的優(yōu)勢是低碳。在數(shù)據(jù)中心的能耗構成中,IT設備占45%、供電損耗占10%,散熱損耗占43%。鄔賀銓表示,冷數(shù)據(jù)的調度沒那么頻繁,如果用磁帶處理、存儲這些冷數(shù)據(jù),要比用磁盤存儲節(jié)省73%的存儲成本。
西部要建大型甚至超大型數(shù)據(jù)中心
在利用率相同的情況下,數(shù)據(jù)中心越大能效越好、效率越高。
西部數(shù)據(jù)中心的優(yōu)勢是低碳帶來的低成本。“從長遠來看,能建大型數(shù)據(jù)中心就不建小型數(shù)據(jù)中心,能建超大型數(shù)據(jù)中心就不建大型的數(shù)據(jù)中心。”鄔賀銓說,“可以按需分期建設、分步投入,因為通常數(shù)據(jù)中心的服務器每三四年就要更新,更新的服務器成本更低、能效更好。”
在高密度的機架中提升上架率,是提升能效的一個重要路徑。將來數(shù)據(jù)中心的機架平均功率為8.5千瓦,與平均功率4.5千瓦的相比,每千瓦的成本下降68%。上架率高、機架平均功率高,但每千瓦的成本折算下來是明顯降低的。在數(shù)據(jù)中心的能耗構成中,一般是IT設備能耗占45%,供電和散熱能耗占53%。同一個西部數(shù)據(jù)中心,上架率50%,PUE值在1.5到1.6;上架率65%,PUE值能降低到1.3左右。
除了發(fā)揮低碳優(yōu)勢,西部數(shù)據(jù)中心也要注意提升算力網(wǎng)絡的性能,降低數(shù)據(jù)傳輸中數(shù)據(jù)包的丟包率。如果丟包,由于丟包引起的數(shù)據(jù)重新傳輸會浪費很多算力資源,有資料統(tǒng)計,對重要的業(yè)務0.1%的丟包率將導致算力損失50%,除此之外還會增加能耗。
發(fā)展數(shù)據(jù)預處理產(chǎn)業(yè)或將成為一個機會
鄔賀銓認為,西部數(shù)據(jù)中心要想辦法提高市場吸引力,不僅要有運維管理隊伍,還要有市場開拓隊伍。
盡管企業(yè)的數(shù)據(jù)高速增長,但利用率并不高。有統(tǒng)計顯示,企業(yè)數(shù)據(jù)目前只有32%的是被利用、被激活的,發(fā)展數(shù)據(jù)中心,就是要吸引更多的企業(yè)數(shù)據(jù)進入數(shù)據(jù)中心。
西部市場的拓展可以從完善數(shù)據(jù)中心的生態(tài)入手。大數(shù)據(jù)的挖掘有很長的產(chǎn)業(yè)鏈,其中數(shù)據(jù)預處理是勞動密集的環(huán)節(jié),數(shù)據(jù)存儲和數(shù)據(jù)計算是重資產(chǎn)和算力環(huán)節(jié),而數(shù)據(jù)挖掘是智力密集環(huán)節(jié),這些環(huán)節(jié)需要有各種各樣的硬件、軟件和服務來支撐。
“與東部相比,西部的大數(shù)據(jù)產(chǎn)業(yè)鏈有明顯的短板。西部如果只注重于數(shù)據(jù)的存儲和計算,由于這是重資產(chǎn)和算力環(huán)節(jié),因此投資大、回報長,僅僅依靠財政補貼電費和土地出讓金這種方式來吸引數(shù)據(jù)中心入住,是很難持久的。”鄔賀銓說。他同時表示,發(fā)展數(shù)據(jù)預處理產(chǎn)業(yè)可以成為西部的一個機會。
數(shù)據(jù)預處理產(chǎn)業(yè),包括數(shù)據(jù)的標注、清洗、脫敏,也包括開展本地數(shù)據(jù)的挖掘服務。鄔賀銓提議,可以建設大數(shù)據(jù)預處理服務基地。
目前70%的數(shù)據(jù)預處理是由人來完成的,這是一個知識化的勞動密集型行業(yè),人社部將這一職業(yè)命名為AI訓練師。預計到今年年底,全國需要500萬AI訓練師。在百度(山西)人工智能基礎數(shù)據(jù)產(chǎn)業(yè)基地,現(xiàn)有數(shù)據(jù)標注師超過2300人,這種預處理不僅僅是標注,還含有人工智能的訓練。
阿里有600多名AI訓練師訓練智能客服機器人,在像“雙11”這樣業(yè)務量很大、客服需求量也很大的時候,阿里用智能客服機器人代替了8.5萬個客服,完成了97%的在線服務。
鄔賀銓表示,西部數(shù)據(jù)中心可以積極引進服務器組裝產(chǎn)業(yè)。數(shù)據(jù)中心的機房,除了IT設備以外,還要有電力設施、制冷系統(tǒng)、防雷系統(tǒng)、安防系統(tǒng)、災備系統(tǒng),還有硬件軟件以及綜合布線和各種工程服務。西部可以結合數(shù)據(jù)中心的發(fā)展,發(fā)展數(shù)據(jù)中心機房的服務業(yè),建立工程和運維隊伍,提供數(shù)據(jù)中心機房建設的工程服務。
原標題:“東數(shù)西算”大棋局:盤活西部數(shù)據(jù)中心是關鍵