雙十一購物狂歡節從2009年開始至今,每年巨大成交量的背后有數十萬臺服務器進行復雜的運算,處理著數億次的交易。作為阿里巴巴集團的基礎設施,數據中心,服務器,網絡承擔了大量的信息處理任務。阿里工程師一直從事著底層技術的研發,來提升數據處理的能力,信息的可靠性。承載著如此大數據處理能力的數據中心以及服務器持續優化達到性能最優。
為了降低數據中心PUE,節省能耗,提高服務器供電效率,阿里巴巴在服務器內部嵌入鋰電池BBU(Battery Backup Unit),并在阿里數據中心進行部署,來支持雙十一的業務運行。服務器內部一般有兩個PSU(Power Supply Unit)對電壓進行轉換。重構后的服務器只會保留一個PSU,另一個PSU的位置將會插入一塊鋰電池BBU,當所有服務器內部均有一塊鋰電池BBU后,會形成數據中心分布式鋰電池BBU系統。
該方案落地后,阿里巴巴將成為國內首家服務器級備電的互聯網企業,并和Google、微軟同樣擁有該備電技術的企業。
(圖中左側為阿里服務器內置鋰電池BBU)
在電力方面,絕大多數數據中心備用電源系統都是集中式UPS再加上鉛酸電池,但這種集中式UPS供電方式在面對快節奏的互聯網行業時,暴露出的問題越來越多,導致巨型互聯網公司開始轉向分布式鋰電池BBU,尤以Google、阿里巴巴、微軟為代表。
集中式UPS主要有以下四大硬傷:
一:單臺UPS設備故障會導致后端數十甚至數千個服務器機架斷電,故障影響范圍廣。
二:UPS電能轉換次數多,供電效率低。
三:UPS投資運營成本高,系統通常需要按照最大負載配置銅排、配電柜、斷路器開關等配電設備,而大部分情況下服務器負載較低,造成基礎設施配電線路浪費。
四:運維不方便,鉛酸電池具有記憶特性,因此每年要人工對UPS做數次充放電測試檢查電池老化程度,占用太多時間和人力成本。
按照阿里巴巴的設計,外部供電一旦斷電,安裝在服務器內部的12V鋰電池可以立即工作,為服務器提供12V電源支持,效率高達99%,接近理論最優值。對比傳統UPS或者240V高壓直流還需要做二次電壓轉換,效率提升8%以上,進而有效降低PUE達10%-15%。所以對于海量計算的數據中心這個省電容量是巨大的。
和UPS集中式部署不同的是,鋰電池BBU最大一個好處是可以和服務器一起按需采購和建設,避免了傳統UPS空置和利用率低,減少資金成本,能夠提升15%數據中心整體交付時間。
在投資運營方面,以10KW級的數據中心為例,此前每年支出的數千萬元UPS運營成本、UPS+配電設備的前期投資也將全部節省掉。此外鋰電池的使用壽命達10-15年,對比鉛酸電池4-6年的壽命,會節約近一半的成本投入。
阿里如何破解電池管理這道世界難題?
在汽車領域,特斯拉電動汽車的電池管理系統被多家汽車評測機構暴力拆解,最終得出的結論是,特斯拉電池管理系統是當前電動汽車行業中最好的。
回到數據中心,如何對數以萬計的電池進行統一管理,是運營中的最大難題之一。
劉水旺表示,“電動汽車釋放的電能相對穩定并連續性,數據中心鋰電池需要在很短的時間內提供特別大的電能,然后等待其它備電系統啟動。從高可靠、高安全、長壽命,以及對數以萬計的電池進行故障定位等指標看,數據中心面臨的電池管理系統難題遠大于電動汽車。”
對于電能輸出,阿里采用的是直接可以為服務器供電的12V電池,斷電瞬間可立即為服務器供電。針對電池故障定位問題,阿里復用了PSU接口協議,鋰電池BBU采用了與服務器PSU同樣的接口協議,所以數以萬計的BBU可以平滑的沿用服務器PSU的管理系統,當BBU出現故障時,可以通過服務器運營平臺進行故障定位,進而直接進行BBU的更換,這個過程快速準確。
從2011年發起天蝎計劃,推動整機柜服務器在數據中心快速普及,到2017年推出互聯網行業全球首個浸沒液冷服務器集群,阿里巴巴一直在對數據中心的產品技術進行升級改革,作為發動機承載阿里巴巴電商、金融、制造、云計算、人工智能等業務及新技術發展。此次于業界率先推出的鋰電池BBU服務器,或許會再次引領互聯網數據中心以及電池行業的新一輪變革,開啟一個新的數據中心供電時代。