超大規(guī)模高性能并行圖像處理器常常集成了數(shù)十億計(jì)的晶體管,工作頻率達(dá)GHz以上。這樣當(dāng)處理復(fù)雜圖像應(yīng)用程序時(shí),GPU將在微秒時(shí)間內(nèi)急劇上升到數(shù)百瓦功耗,這對(duì)電源分布系統(tǒng)(PDS)將產(chǎn)生巨大的沖擊,導(dǎo)致GPU芯片電壓不足,從而出現(xiàn)系統(tǒng)功能異常。
系統(tǒng)異常的原因分析
● GPU中CMOS工藝的要求:
為了降低功耗,GPU芯片工作電壓較低,并允許在寬的范圍工作,如0.7V-1.2V。電壓越高時(shí),內(nèi)部開(kāi)關(guān)MOS管的Vgs越高,MOS管導(dǎo)通電阻越小,因而傳輸時(shí)間常數(shù)減少,工作頻率提高;當(dāng)電壓過(guò)低時(shí),MOS管將無(wú)法形成正常導(dǎo)電溝道,引起邏輯錯(cuò)誤。因次,一個(gè)電壓相對(duì)穩(wěn)定的電源供應(yīng)系統(tǒng)(PDS)是系統(tǒng)正常工作的前提。
● GPU動(dòng)態(tài)工作模式的需求:
高性能GPU采用了很多先進(jìn)功率控制技術(shù),使得最大功耗達(dá)到幾百瓦,而待機(jī)功耗約幾瓦,動(dòng)態(tài)性能模式切換(DPM)便是其中技術(shù)之一。通常DPM時(shí)鐘頻率設(shè)置在100MHz-1000MHz范圍,電壓在0.7V-1.2V之間。如圖1所示,GPU可在不同DPM狀態(tài)切換,當(dāng)GPU處理負(fù)載加重時(shí),將快速轉(zhuǎn)換到高性能模式,如HCLK1-HCLK4,電壓V3,而如果電壓不足,內(nèi)部電路將不能維持這個(gè)模式,而引起系統(tǒng)故障。
● PDS性能限制
開(kāi)關(guān)電源本身性能的限制。開(kāi)關(guān)電源供電能力強(qiáng),體積小,成本便宜,帶有OCP、OVP保護(hù)功能。但是開(kāi)關(guān)電源周期性地打開(kāi)和關(guān)閉MOS管,會(huì)產(chǎn)生很大的電源紋波和噪聲。
電源分布網(wǎng)絡(luò)參數(shù)限制。它是指從電源至負(fù)載的所有電氣分布參數(shù)的總和,即線(xiàn)路的R、L、C、G的整體效應(yīng),來(lái)源于PCB材料、層疊、印制線(xiàn)、過(guò)孔、屏蔽以及GPU封裝以及內(nèi)部硅電路設(shè)計(jì)。所有這些分布參數(shù),會(huì)在電路中產(chǎn)生分壓、分流以及反射、衰減損耗等多種影響。
對(duì)GPU負(fù)載而言,交流高頻信號(hào)來(lái)源于負(fù)載的動(dòng)態(tài)切換引起的電流瞬態(tài)變化,加之電源分布網(wǎng)絡(luò)中的阻抗不連續(xù),而在LC分布網(wǎng)絡(luò)中產(chǎn)生高頻噪聲信號(hào)。對(duì)大電流(如200A以上)的GPU來(lái)說(shuō),電壓跌落達(dá)數(shù)百毫伏,超出DPM設(shè)置范圍。
峰值電流控制技術(shù)
GPU瞬態(tài)電流變化過(guò)大,必然造成供電網(wǎng)絡(luò)損耗增大,GPU可獲得電壓降低。為了避開(kāi)電壓跌落造成的沖擊,GPU須及時(shí)向下切換動(dòng)態(tài)模式,降低時(shí)鐘頻率,降低工作電壓。峰值電流控制技術(shù)正是基于這個(gè)目的所設(shè)計(jì)的,它還需要軟件一起協(xié)作。圖2所示是峰值電流控制技術(shù)軟件流程圖。系統(tǒng)通過(guò)及時(shí)檢測(cè)工作電流變化,可快速調(diào)整工作狀態(tài),減少芯片功耗,避免系統(tǒng)死機(jī)。
GPU工作電流感應(yīng)的硬件電路實(shí)現(xiàn)
如圖3所示,為了對(duì)GPU瞬間大電流變化做出及時(shí)反應(yīng),電流檢測(cè)由硬件電路完成。當(dāng)GPU動(dòng)態(tài)電流超過(guò)預(yù)定閾值時(shí),硬件電路會(huì)產(chǎn)生一個(gè)邏輯信號(hào)通知軟件單元。本技術(shù)巧妙地利用電源網(wǎng)絡(luò)分布電阻來(lái)感應(yīng)在線(xiàn)路中損耗而產(chǎn)生的電壓降。我們?nèi)‰娫摧敵龆薃點(diǎn)和負(fù)載端B點(diǎn)作為電流放大器的輸入。當(dāng)A、B點(diǎn)壓降過(guò)大時(shí),GPU消耗的電流過(guò)大,電壓比較器輸出一個(gè)高電平通知軟件及時(shí)調(diào)整GPU動(dòng)態(tài)模式,降低頻率和電壓,從而保證GPU及電源均能夠正常工作,避免死機(jī)。
測(cè)試結(jié)果
該方案已經(jīng)應(yīng)用到某型號(hào)GPU產(chǎn)品上,經(jīng)過(guò)調(diào)試及性能測(cè)試,取得了滿(mǎn)意的效果。圖4是GPU芯片電流瞬間變化時(shí)用示波器所測(cè)試得到的波形圖。
結(jié)語(yǔ)
由上分析及測(cè)試結(jié)果可知,峰值電流控制技術(shù)是一種能夠合理分配GPU負(fù)載,避免系統(tǒng)意外死機(jī)的很好的控制機(jī)制,可顯著提高系統(tǒng)的穩(wěn)定性和可靠性,可在高性能計(jì)算、圖形處理芯片設(shè)計(jì)等領(lǐng)域投入實(shí)際應(yīng)用。
相關(guān)閱讀:
峰值電流控制的非隔離負(fù)電壓DC/DC開(kāi)關(guān)電源設(shè)計(jì)
直擊boost升壓電路負(fù)載能力及峰值【原創(chuàng)】
探究:反激變壓器峰值感量方式的三種計(jì)算分析