中國自動化學會專家咨詢工作委員會指定宣傳媒體
新聞詳情
gkongbbs

石油HPC:成熟平臺架構需把握“平衡”

http://m.casecurityhq.com 2009-07-14 09:34 來源:中國計算機報

 

 

   近年來每年上億元的IT建設資金投入,讓中石油東方地球物理公司研究院(BGP)的高性能計算(HPC)部署規(guī)模迅速擴大。據(jù)該研究院副總工程師兼處理中心總工程師賴能和介紹,BGP的計算機規(guī)模已達到28014個核,運算能力為230T,存儲也有3600 TB,整裝、規(guī)模化軟硬件資源,為保證處理周期、及時提交成果提供了很好的保障?!斑@三年來,各油田的HPC都發(fā)展得很快,基本上達到了一定規(guī)模?!辟嚹芎驼f。

  這個被稱為“給地球做CT”的石油物探行業(yè)在商用HPC應用中相對成熟,對前沿技術的接受程度也很高。然而,也正是因為成熟,石油行業(yè)對于HPC的未來思考也就更為深入。未來石油業(yè)的HPC發(fā)展要抓住哪些大的技術趨勢,以適應地震資料成像應用的快速發(fā)展?上規(guī)模后的軟硬件資源又該如何進行科學化管理?

  平衡的思維

  BGP曾經為大港油田的3200平方米的地區(qū)做過模擬,投入近1萬顆CPU計算,7天就完成了任務,而在幾年前,這樣的效率幾乎是不可想象的。對于物探部門來說,硬件提供的是基礎能力支撐,軟件應用則是直接決定產出的關鍵。

  客觀地說,同樣是“做CT”,但最后片子的成像質量會有不同,差別在于算法。算法的發(fā)展是從二維向三維、從聲波向彈性波發(fā)展?!拔覀兊钠品椒◤某R?guī)疊后、積分化的時間偏移到了現(xiàn)在的單層波振動偏移,與國外相比還有差距。我們正在實驗雙層波,再下一步才是彈性波?!辟嚹芎驼f。相應地,地震資料處理模型演進,對計算平臺資源的需求呈急劇增長趨勢。

  英特爾軟件與服務集團高性能計算及工作站應用總監(jiān)Paresh Pattani指出:“石油行業(yè)用戶不但要考慮軟件在多核上面的性能,還要看到將來在眾核、在異構多核上的發(fā)展?!蓖瑫r,在系統(tǒng)需求方面,用戶也應從平衡的角度出發(fā),考慮單位面積投資的性能、每瓦性能,要考慮到系統(tǒng)能不能適應未來的系統(tǒng)架構……這一切都需要一個平衡系統(tǒng)?!暗卣鹳Y料處理的算法逐步發(fā)展,對計算能力提出高要求的不僅僅是CPU性能,還包括內存、帶寬、I/O、互聯(lián),這一切都是需要共同平衡發(fā)展的性能。”Paresh Pattani說。

  為了確保設計的均衡性,英特爾在高性能計算上其實做了很多方面的工作,不僅在處理器和服務器平臺上,在軟件工具、互聯(lián),甚至數(shù)據(jù)中心設計方面,也都有相應的資源投入。其中,軟件方面的支持,對于發(fā)揮平臺潛能起著關鍵作用。Paresh Pattani表示:“在我們的多核到眾核,再到將來異構核發(fā)展的藍圖里,我們希望軟件的發(fā)展能始終向后兼容,不需要用戶再次投資,將原有積累打破?!?這樣做的好處,在Larrabee問世后就可以感受得到。

  作為平臺廠商,英特爾的軟硬件先天就具有相互優(yōu)化的優(yōu)勢,比如在后續(xù)路線圖中,SSE擴展的下一代產品AVX現(xiàn)在已經獲得支持,它可以更好地支持通用的向量計算。Paresh Pattani估計,在HPC領域,尤其是在用到大量向量運算的結構力學、航天航空、地震資料處理方面,收益將達到10%以上。為了充分釋放多核潛能,英特爾提供了相應工具,以實現(xiàn)更高程度的并行化。在中國,由何萬青博士領導的英特爾支持團隊,就為HPC用戶做了大量優(yōu)化工作,幫助用戶改進MPI應用,最大程度地提高應用效率。

  可預期的平臺演進

  從硬件平臺來說,高性能計算對硬件平臺的需求主要聚焦于浮點性能、內存帶寬和I/O。基于Nehalem架構的英特爾至強5500處理器正因在這三方面的出色表現(xiàn),走進越來越多的石油用戶的機房?!皬募夹g架構和實際表現(xiàn)來看,至強5500平臺不僅面向今天的需求,還面向未來地震資料處理模型對計算資源、I/O資源、內存帶寬的需求?!庇⑻貭柗掌髌脚_產品經理顧凡表示。

  從技術角度來看,至強5500通過架構改進,無疑在浮點計算方面取得了更大突破,AVX加速了這一進程。而同時,在與內存帶寬及I/O帶寬的平衡搭配方面,也因為其技術的先進性得到了充分發(fā)揮。顧凡介紹說,在內存帶寬方面,引入QPI之前,英特爾從單條前端總線到兩條獨立總線,再到把每條總線的主頻提升到1600MHz,直到Nehalem架構去除前端總線,代之以點對點串行總線,充分釋放CPU性能。“QPI是一個標志性的時間點,未來的QPI會向下一代繼續(xù)演進,提高QPI帶寬,增加QPI可支持的串行連接數(shù)量?!痹贗/O方面,PCI-E的演進仍在繼續(xù),預計在2011年左右,第三代PCI-E也將面世,保證I/O的通道暢通。而SSD的推廣使用,無論是替代內存、硬盤或是作為啟動硬盤,也都會在I/O方面帶來巨大提升。

  油藏模擬、地震資料處理等應用對內存帶寬的依賴都非常大。對于內存帶寬敏感型的應用來說,至強5500相比前代的性能提升接近2倍,甚至2.5倍?!盀槭裁凑f至強5500也能滿足未來需求呢?我們目前采用的地震資料處理模型也許提升幅度不一定達到兩倍,約為在30%~40%。但當模型向前演進后,內存帶寬一定是重中之重。至強5500會持續(xù)帶來性能提升?!鳖櫡舱f。

  科學地管理好資源

  快速擴大規(guī)模之后,軟硬件資源管理成為擺在石油行業(yè)用戶面前的一道難題。在這方面,BGP以數(shù)字化手段進行集中管理,成為行業(yè)標桿?!斑^去我們管理一二百個CPU很容易,現(xiàn)在是幾萬顆CPU,按照過去的方式管理就會出問題。計算機機房達到一定規(guī)模后,我們的生產和設備的安全問題也無法得到保障,究竟怎么管理?”賴能和道出了這樣做的初衷。

  困難還不止于此,軟件相對跟不上造成應用效率比較低,這又連帶造成了大規(guī)模投資。后來BGP意識到,持續(xù)通過硬件擴充來增加產值并非高明的策略。這會造成折舊非常驚人。“BGP 在2008年折舊費達到1.2億元,全年電費又是1100多萬元,我們的運作壓力非常大。” 賴能和牽頭開發(fā)了一整套數(shù)字化管理系統(tǒng),來解決這樣的難題。

  據(jù)介紹,BGP共開發(fā)了四套系統(tǒng),對機房實現(xiàn)了全面管理。一是用數(shù)字化管理平臺管理所有生產項目,項目進度和所用資源都一目了然,每個項目運作的每個階段用了多少成本,很容易進行統(tǒng)計。二是開發(fā)CPU資源管理平臺,對集群實行統(tǒng)一協(xié)調管理,在一個板面上可以實時監(jiān)控到一百多個機柜的運行狀況,再加上視頻會議系統(tǒng),就可以實現(xiàn)前后方遠程質量監(jiān)控專家協(xié)同工作,軟硬件技術支持和系統(tǒng)維護。三是開發(fā)存儲和網絡管理平臺,實現(xiàn)所有存儲資源的遠程集中監(jiān)控。四是開發(fā)UPS空調配電實時監(jiān)控軟件,確保設備安全。

  不僅如此,BGP還致力于提高數(shù)據(jù)中心的效能。他們不僅采用最新的節(jié)能設備,在基礎建設方面也下足了功夫,如水冷技術、風道節(jié)能設計。在計算設備上,BGP最大的一筆開支節(jié)省是借助開發(fā)的自適應節(jié)能軟件。“用這個軟件動態(tài)調整服務器狀態(tài),節(jié)能達到25%左右。一萬顆CPU一年

                                   

  

版權所有 中華工控網 Copyright?2024 Gkong.com, All Rights Reserved