你的位置:首頁(yè) > 測(cè)試測(cè)量 > 正文
英特爾面向 CPU、GPU 和 IPU發(fā)布了重大技術(shù)架構(gòu)的改變和創(chuàng)新
發(fā)布時(shí)間:2021-08-22 責(zé)任編輯:lina
【導(dǎo)讀】在 2021 年英特爾架構(gòu)日上,英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理 Raja Koduri 攜手多位英特爾架構(gòu)師,全面介紹了兩種全新 x86 內(nèi)核架構(gòu)的詳情;英特爾首個(gè)性能混合架構(gòu),代號(hào)“Alder Lake”,以及智能的英特爾® 硬件線程調(diào)度器;專為數(shù)據(jù)中心設(shè)計(jì)的下一代英特爾® 至強(qiáng)® 可擴(kuò)展處理器 Sapphire Rapids;基礎(chǔ)設(shè)施處理器(IPU);即將推出的顯卡架構(gòu),包括 Xe HPG 微架構(gòu)和 Xe HPC 微架構(gòu),以及 Alchemist SoC, Ponte Vecchio SoC。
英特爾驅(qū)動(dòng)數(shù)據(jù)中心、邊緣和客戶端邁入下一個(gè)計(jì)算時(shí)代,直面未來(lái)工作負(fù)載和計(jì)算挑戰(zhàn)
2021 年 8 月 19 日——在 2021 年英特爾架構(gòu)日上,英特爾公司高級(jí)副總裁兼加速計(jì)算系統(tǒng)和圖形事業(yè)部總經(jīng)理 Raja Koduri 攜手多位英特爾架構(gòu)師,全面介紹了兩種全新 x86 內(nèi)核架構(gòu)的詳情;英特爾首個(gè)性能混合架構(gòu),代號(hào)“Alder Lake”,以及智能的英特爾® 硬件線程調(diào)度器;專為數(shù)據(jù)中心設(shè)計(jì)的下一代英特爾® 至強(qiáng)® 可擴(kuò)展處理器 Sapphire Rapids;基礎(chǔ)設(shè)施處理器(IPU);即將推出的顯卡架構(gòu),包括 Xe HPG 微架構(gòu)和 Xe HPC 微架構(gòu),以及 Alchemist SoC, Ponte Vecchio SoC。
這些新架構(gòu)將為即將推出的高性能產(chǎn)品注入動(dòng)力,并為英特爾的下一個(gè)創(chuàng)新時(shí)代奠定基礎(chǔ),以滿足世界對(duì)高計(jì)算能力日益增長(zhǎng)的需求。
Raja Koduri 強(qiáng)調(diào)了架構(gòu)提升對(duì)于滿足這一需求的重要性:“架構(gòu)是硬件和軟件的‘煉金術(shù)’。它將特定計(jì)算引擎所需的先進(jìn)的晶體管結(jié)合在一起,通過(guò)領(lǐng)先的封裝技術(shù)將它們連接,集成高帶寬和低功耗緩存,并在封裝中為混合計(jì)算集群配備高容量、高帶寬內(nèi)存和低時(shí)延、可擴(kuò)展互連,同時(shí)確保所有軟件無(wú)縫加速。隨著桌面到數(shù)據(jù)中心的工作負(fù)載變得前所未有的密集、復(fù)雜、且多樣,今年公布的這些新突破也展示了架構(gòu)將如何滿足對(duì)于更高計(jì)算性能的迫切需求。”
x86 內(nèi)核
能效核
全新的英特爾能效核微架構(gòu),曾用代號(hào)“Gracemont”,旨在面對(duì)當(dāng)今多任務(wù)場(chǎng)景,提高吞吐量效率并提供可擴(kuò)展多線程性能。此高能效 x86 微架構(gòu)在有限的硅片空間實(shí)現(xiàn)多核任務(wù)負(fù)載,并具備寬泛的頻率范圍。該架構(gòu)致力通過(guò)低電壓能效核降低整體功率消耗,為更高頻率運(yùn)行提供功率熱空間。這也讓能效核提升性能,以滿足更多動(dòng)態(tài)任務(wù)負(fù)載。
能效核可以利用各種技術(shù)進(jìn)步,在不耗費(fèi)處理器功率的情況下對(duì)工作負(fù)載進(jìn)行優(yōu)先級(jí)排序,并通過(guò)每周期指令數(shù)(IPC)改進(jìn)功能直接提高性能,這些功能包括:
●擁有 5000 個(gè)條目的分支目標(biāo)緩存區(qū),實(shí)現(xiàn)更準(zhǔn)確的分支預(yù)測(cè)
●64KB 指令緩存,在不耗費(fèi)內(nèi)存子系統(tǒng)功率的情況下保存可用指令
●英特爾的首款按需指令長(zhǎng)度解碼器,可生成預(yù)解碼信息
●英特爾的簇亂序執(zhí)行解碼器,可在保持能效的同時(shí),每周期解碼多達(dá) 6 條指令
●后端寬度(Wide Back End)具備 5 組寬度分配(Five-wide allocation)和 8 組寬度引退、256 個(gè)亂序窗口入口和 17 個(gè)執(zhí)行端口
●支持英特爾® 控制流強(qiáng)制技術(shù)和英特爾® 虛擬化技術(shù)重定向保護(hù)等功能
●實(shí)現(xiàn)了 AVX 指令集以及支持整數(shù)人工智能操作的新擴(kuò)展
相比英特爾最多產(chǎn)的 CPU 內(nèi)核 Skylake,在單線程性能下,能效核能夠在相同功耗下實(shí)現(xiàn) 40% 的性能提升,或在功耗不到 40% 的情況下提供同等性能 1。與運(yùn)行四個(gè)線程的兩個(gè) Skylake 內(nèi)核相比,四個(gè)能效核所提供的吞吐量性能,能夠在功耗更低的情況下同時(shí)帶來(lái) 80% 的性能提升,而在提供相同吞吐量性能時(shí),功耗減少 80%。1
性能核
英特爾全新性能核微架構(gòu),曾用代號(hào)“Golden Cove”,旨在提高速度,突破低時(shí)延和單線程應(yīng)用程序性能的限制。工作負(fù)載的代碼體積正在不斷增長(zhǎng),需要更強(qiáng)的執(zhí)行能力。數(shù)據(jù)集也隨著數(shù)據(jù)帶寬的需求提升而大幅增加。英特爾全新性能核微架構(gòu)帶來(lái)了顯著增速同時(shí)更好地支持代碼體積較大的應(yīng)用程序。
性能核擁有更寬、更深、更智能的架構(gòu):
●更寬:解碼器由 4 個(gè)增至 6 個(gè),6µop 緩存增至 8µop,分配由 5 路增至 6 路,執(zhí)行端口由 10 個(gè)增至 12 個(gè)
●更深:更大的物理寄存器文件(physical register files),擁有 512 條目的重排序緩沖區(qū)
●更智能:提高了分支預(yù)測(cè)準(zhǔn)確度,降低了有效的一級(jí)時(shí)延,優(yōu)化了二級(jí)的全寫入預(yù)測(cè)帶寬
性能核是英特爾有史以來(lái)構(gòu)建的性能最高的 CPU 內(nèi)核,并通過(guò)以下功能突破了低時(shí)延和單線程應(yīng)用程序性能的極限:
●相比目前的第 11 代英特爾® 酷睿™ 處理器架構(gòu)(Cypress Cove),在通用性能的 ISO 頻率下,針對(duì)大范圍的工作負(fù)載實(shí)現(xiàn)了平均約 19% 的改進(jìn) 1
●呈現(xiàn)出更高的并行性和執(zhí)行并行性的增加
●搭載英特爾® 高級(jí)矩形擴(kuò)展(AMX),內(nèi)置下一代 AI 加速提升技術(shù), ●用于學(xué)習(xí)推理和訓(xùn)練。AMX 包括專用硬件和新指令集架構(gòu),以明顯提高矩陣乘法運(yùn)算
●減少時(shí)延,對(duì)大型數(shù)據(jù)和代碼體積較大的應(yīng)用程序提供更好的支持
客戶端
Alder Lake 客戶端 SoC
代號(hào)為“Alder Lake”的英特爾下一代客戶端架構(gòu)是英特爾的首款性能混合架構(gòu),它首次集成了兩種內(nèi)核類型:性能核和能效核,以帶來(lái)跨越所有工作負(fù)載類型的顯著性能提升。Alder Lake 基于 Intel 7 制程工藝打造而成,支持最新內(nèi)存和最快 I/O。
Alder Lake 將提供驚人的性能,支持從超便攜式筆記本,到發(fā)燒級(jí),到商用臺(tái)式機(jī)的所有客戶端設(shè)備,它采用了單一、高度可擴(kuò)展的 SoC 架構(gòu),提供三類產(chǎn)品設(shè)計(jì)形態(tài):
●高性能、雙芯片、插座式的臺(tái)式機(jī)處理器 ,具有領(lǐng)先性能和能效。支持高規(guī)格的內(nèi)存和 I/O
●高性能筆記本處理器,采用 BGA 封裝,并加入圖像單元,更大的 Xe 顯卡和 Thunderbolt 4 連接
●輕薄、低功耗的筆記本處理器,采用高密度的封裝,配置優(yōu)化的 I/O 和電能傳輸
構(gòu)建如此高度可擴(kuò)展架構(gòu)的挑戰(zhàn),我們需要在不影響功率的情況下滿足計(jì)算和 I/O 代理對(duì)帶寬超乎尋常的需求。為了解決這一挑戰(zhàn),我們?cè)O(shè)計(jì)了三種獨(dú)立的內(nèi)部總線,每一種都采用基于需求的實(shí)時(shí)啟發(fā)式后處理方式。
●計(jì)算內(nèi)部總線可支持高達(dá) 1000GBps——即每個(gè)內(nèi)核或每集群 100GBps,通過(guò)最后一級(jí)緩存將內(nèi)核和顯卡連接到內(nèi)存
具有高動(dòng)態(tài)頻率范圍,并且能夠動(dòng)態(tài)選擇數(shù)據(jù)路徑,根據(jù)實(shí)際總線結(jié)構(gòu) 負(fù)載而進(jìn)行時(shí)延和帶寬優(yōu)化
根據(jù)利用率動(dòng)態(tài)調(diào)整最后一級(jí)緩存策略——也就是“包含”或“不包含”
●I/O 內(nèi)部總線支持可高達(dá) 64 GBps,連接不同類型的 I/O 和內(nèi)部設(shè)備,能在不干擾設(shè)備正常運(yùn)行的情況下無(wú)縫改變速度,選擇內(nèi)部總線速度來(lái)匹配所需的數(shù)據(jù)傳輸量
●內(nèi)存結(jié)構(gòu)可提供高達(dá) 204 GBps 的數(shù)據(jù),并動(dòng)態(tài)擴(kuò)展其總線寬度和速度,以支持高帶寬、低時(shí)延或低功耗的多個(gè)操作點(diǎn)
英特爾硬件線程調(diào)度器
為使性能核和能效核與操作系統(tǒng)無(wú)縫協(xié)作,英特爾開發(fā)了一種改進(jìn)的調(diào)度技術(shù),稱之為“英特爾硬件線程調(diào)度器”。硬件線程調(diào)度器直接內(nèi)置于硬件中,可提供對(duì)內(nèi)核狀態(tài)和線程指令混合比的低級(jí)遙測(cè),讓操作系統(tǒng)能夠在恰當(dāng)?shù)臅r(shí)間將合適的線程放置在合適的內(nèi)核上。硬件線程調(diào)度器具有動(dòng)態(tài)性和自適應(yīng)性——它會(huì)根據(jù)實(shí)時(shí)的計(jì)算需求調(diào)整調(diào)度決策——而非一種簡(jiǎn)單的、基于規(guī)則的靜態(tài)方法。
傳統(tǒng)意義上,操作系統(tǒng)會(huì)根據(jù)有限的可用數(shù)據(jù)做出決策,如前臺(tái)和后臺(tái)任務(wù)。硬件線程調(diào)度器可通過(guò)以下方式增加新維度:
●使用硬件遙測(cè)工具將需要更高性能的線程引導(dǎo)到當(dāng)時(shí)適合的性能核上
●更精細(xì)地監(jiān)控指令組合、每?jī)?nèi)核當(dāng)前狀態(tài)以及相關(guān)的微架構(gòu)遙測(cè),從而幫助操作系統(tǒng)做出更智能的調(diào)度決策
●通過(guò)與微軟合作,優(yōu)化英特爾硬件線程調(diào)度器在 Windows11 上的極佳性能
●擴(kuò)展 PowerThrottling API,使得開發(fā)人員能夠?yàn)槠渚€程明確指定服務(wù)質(zhì)量屬性
●應(yīng)用全新 EcoQoS 分類,該分類可讓調(diào)度程序獲悉線程是否更傾向于能效(此類線程會(huì)被調(diào)度到能效核)
Xe HPG 微架構(gòu)和 Alchemist SoC
Xe HPG 是一款全新的獨(dú)立顯卡微架構(gòu),專為游戲和創(chuàng)作工作負(fù)載提供發(fā)燒級(jí)的高性能。Xe HPG 微架構(gòu)為 Alchemist 系列 SoC 提供動(dòng)力,首批相關(guān)產(chǎn)品將于 2022 年第一季度上市,并采用新的品牌名——英特爾銳炫™(Intel®Arc™)。 Xe HPG 微架構(gòu)采用全新的 Xe 內(nèi)核,是一款聚焦計(jì)算、可編程且可擴(kuò)展的元件。
客戶端顯卡路線圖包括 Alchemist(此前稱之為 DG2)、Battlemage、Celestial 和 Druid SoC。在演講中,英特爾展示了微架構(gòu)細(xì)節(jié),并分享了在試產(chǎn)階段的 Alchemist SoC 上運(yùn)行的演示視頻,包括真實(shí)游戲展示,虛幻引擎 5 測(cè)試良好,全新的基于神經(jīng)網(wǎng)絡(luò)的超取樣技術(shù) Xe SS 等。
基于 Xe HPG 微架構(gòu)的 Alchemist SoC 能夠提供出色的可擴(kuò)展性和計(jì)算效率,并擁有以下關(guān)鍵架構(gòu)特征:
●多達(dá) 8 個(gè)具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設(shè)計(jì)
●全新 Xe 內(nèi)核,擁有 16 個(gè)矢量引擎和 16 個(gè)矩陣引擎(被稱為 XMX,即 Xe Matrix eXtension)、高速緩存和共享內(nèi)部顯存
支持 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光線追蹤單元
●通過(guò)架構(gòu)、邏輯設(shè)計(jì)、電路設(shè)計(jì)、制程工藝技術(shù)和軟件優(yōu)化,相比 Xe LP 微架構(gòu)實(shí)現(xiàn) 5 倍的頻率提升和 1.5 倍的每瓦性能提升 1
●使用臺(tái)積電的 N6 制程節(jié)點(diǎn)上進(jìn)行制造
英特爾顯卡設(shè)計(jì)的核心是軟件優(yōu)先:
●我們正與開發(fā)人員密切合作進(jìn)行 Xe 微架構(gòu)的設(shè)計(jì),力求與行業(yè)標(biāo)準(zhǔn)保持一致
●通過(guò)在一個(gè)統(tǒng)一的代碼庫(kù)中涵蓋集成和獨(dú)立顯卡產(chǎn)品的驅(qū)動(dòng)設(shè)計(jì),英特爾的第一款高性能游戲顯卡將性能和質(zhì)量放在首位
●英特爾已完成了內(nèi)核顯卡驅(qū)動(dòng)程序組件的重新架構(gòu),特別是內(nèi)存管理器和編譯器,從而使計(jì)算密集型游戲的吞吐量提高了 15% (至多 80%),游戲加載時(shí)間縮短了 25%
Xe SS
Xe SS 利用 Alchemist 的內(nèi)置 XMX AI 加速,帶來(lái)了一種可實(shí)現(xiàn)高性能和高保真視覺(jué)的全新升頻技術(shù)。其使用深度學(xué)習(xí)來(lái)合成非常接近原生高分辨率渲染質(zhì)量的圖像。憑借 Xe SS,那些只能在低畫質(zhì)設(shè)置或低分辨率下玩的游戲也能在更高畫質(zhì)設(shè)置和分辨率下順利運(yùn)行。
●Xe SS 的工作原理是通過(guò)從相鄰像素,以及對(duì)前一幀進(jìn)行運(yùn)動(dòng)補(bǔ)償,來(lái)重建子像素細(xì)節(jié)
●重構(gòu)由經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)執(zhí)行,可提供高性能和高畫質(zhì),同時(shí)性能提升高達(dá)兩倍 1
●Xe SS 憑借 DP4a 指令,在包括集成顯卡在內(nèi)的各種硬件上提供基于 AI 的超級(jí)采樣
●多家早期的游戲開發(fā)商已開始使用 Xe SS, 本月將向獨(dú)立軟件供應(yīng)商(ISV)提供 XMX 初始版本的 SDK,DP4a 版本將于今年晚些時(shí)候推出
數(shù)據(jù)中心
下一代英特爾至強(qiáng)可擴(kuò)展處理器(代號(hào)為“Sapphire Rapids”)
Sapphire Rapids 代表了業(yè)界在數(shù)據(jù)中心平臺(tái)上的一大進(jìn)步。該處理器可在不斷變化且要求日益增高的數(shù)據(jù)中心使用中提供可觀的計(jì)算性能,并對(duì)工作負(fù)載進(jìn)行優(yōu)化,以在云、微服務(wù)和 AI 等彈性計(jì)算模型上提供高性能。
Sapphire Rapids 的核心是一個(gè)分區(qū)塊、模塊化的 SoC 架構(gòu),采用英特爾的嵌入式多芯片互連橋接(EMIB)封裝技術(shù),在保持單晶片 CPU 接口優(yōu)勢(shì)的同時(shí),具有顯著的可擴(kuò)展性。Sapphire Rapids 提供了一個(gè)單一、平衡的統(tǒng)一內(nèi)存訪問(wèn)架構(gòu),每個(gè)線程均可完全訪問(wèn)緩存、內(nèi)存和 I/O 等所有單元上的全部資源,由此實(shí)現(xiàn)整個(gè) SoC 具有一致的低時(shí)延和高橫向帶寬。
Sapphire Rapids 基于 Intel 7 制程工藝技術(shù),采用英特爾全新的性能核微架構(gòu),該架構(gòu)旨在提高速度,突破低時(shí)延和單線程應(yīng)用性能的極限。
Sapphire Rapids 提供業(yè)界廣泛的數(shù)據(jù)中心相關(guān)加速器,包括新的指令集架構(gòu)和集成 IP,以在各種客戶工作負(fù)載和使用中提升性能。新的內(nèi)置加速器引擎包括:
●英特爾® 加速器接口架構(gòu)指令集(AIA)——支持對(duì)加速器和設(shè)備的有效調(diào)度、同步和信號(hào)傳遞
●英特爾® 高級(jí)矩陣擴(kuò)展(AMX)——Sapphire Rapids 中引入的新加速引擎,可為深度學(xué)習(xí)算法核心的 Tensor 處理提供大幅加速。其可以在每個(gè)周期內(nèi)進(jìn)行 2000 次 INT8 運(yùn)算和 1000 次 BFP16 運(yùn)算,實(shí)現(xiàn)計(jì)算能力的大幅提升。使用早期的 Sapphire Rapids 芯片,與使用英特爾 AVX-512 VNNI 指令的相同微基準(zhǔn)測(cè)試版本相比,使用新的英特爾 AMX 指令集擴(kuò)展優(yōu)化的內(nèi)部矩陣乘法微基準(zhǔn)測(cè)試的運(yùn)行速度提高了 7 倍以上,為 AI 工作負(fù)載中的訓(xùn)練和推理上提供了顯著的性能提升
●英特爾® 數(shù)據(jù)流加速器(DSA)——旨在卸載最常見的數(shù)據(jù)移動(dòng)任務(wù),這些任務(wù)會(huì)導(dǎo)致數(shù)據(jù)中心規(guī)模部署中的開銷。英特爾 DSA 改進(jìn)了對(duì)這些開銷任務(wù)的處理,以提供更高的整體工作負(fù)載性能,并可以在 CPU、內(nèi)存和緩存以及所有附加的內(nèi)存、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備之間移動(dòng)數(shù)據(jù)
這些架構(gòu)上的改進(jìn)使 Sapphire Rapids 能夠?yàn)樵啤?shù)據(jù)中心、網(wǎng)絡(luò)和智能邊緣中廣泛的工作負(fù)載和部署模式提供開箱即用的性能。該處理器旨在通過(guò)先進(jìn)的內(nèi)存和下一代 I/O,包括 PCIe 5.0、CXL 1.1、DDR5 和 HBM 技術(shù),來(lái)推動(dòng)行業(yè)技術(shù)轉(zhuǎn)型。
基礎(chǔ)設(shè)施處理器(IPU)
IPU 是一種可編程的網(wǎng)絡(luò)設(shè)備,旨在使云和通信服務(wù)提供商減少在中央處理器(CPU)方面的開銷,并充分釋放性能價(jià)值。
英特爾基于 IPU 的架構(gòu)有以下主要優(yōu)勢(shì):
●基礎(chǔ)設(shè)施功能和客戶工作負(fù)載的強(qiáng)分離使客戶能夠完全控制 CPU
●云運(yùn)營(yíng)商可以將基礎(chǔ)設(shè)施任務(wù)卸載到 IPU 上,更大化實(shí)現(xiàn) CPU 利用率和收益
●IPU 可以管理存儲(chǔ)流量,減少時(shí)延,同時(shí)通過(guò)無(wú)磁盤服務(wù)器架構(gòu)有效利用存儲(chǔ)容量。借助 IPU,客戶可以通過(guò)一個(gè)安全、可編程、穩(wěn)定的解決方案更好地利用資源,使其能夠平衡處理與存儲(chǔ)
英特爾認(rèn)識(shí)到“單一產(chǎn)品無(wú)法滿足所有需求”,因此對(duì)其 IPU 架構(gòu)進(jìn)行了更深入的研究,并推出了以下 IPU 家族的新成員——均為應(yīng)對(duì)多樣化數(shù)據(jù)中心的復(fù)雜性而設(shè)計(jì)。
Mount Evans 是英特爾的首個(gè) ASIC IPU。Mount Evans 是與一家一流云服務(wù)提供商共同設(shè)計(jì)和開發(fā)的,它融合了多代 FPGA SmartNIC 的經(jīng)驗(yàn)。
●超大規(guī)模就緒,提供高性能網(wǎng)絡(luò)和存儲(chǔ)虛擬化卸載,同時(shí)保持高度控制
●提供業(yè)界一流的可編程數(shù)據(jù)包處理引擎,支持防火墻和虛擬路由等用例
●使用硬件加速的 NVMe 存儲(chǔ)接口,該接口擴(kuò)展自英特爾傲騰技術(shù),以模擬 NVMe 設(shè)備
●采用英特爾® 高性能 Quick Assist 技術(shù),部署高級(jí)加密和壓縮加速
可使用現(xiàn)有普遍部署的 DPDK、SPDK 等軟件環(huán)境進(jìn)行編程,并且可以采用英特爾 Barefoot Switch 部門開創(chuàng)的 P4 編程語(yǔ)言來(lái)配置管線
Oak Springs Canyon是一個(gè) IPU 參考平臺(tái),基于英特爾® 至強(qiáng) D 處理器(Intel® Xeon-D)和擁有業(yè)界領(lǐng)先的功率、效率、性能的英特爾® Agilex™ FPGA 構(gòu)建:
●卸載 Open Virtual Switch(OVS)等網(wǎng)絡(luò)虛擬化功能以及 NVMe over Fabric 和 RoCE v2 等存儲(chǔ)功能,并提供硬化的加密模塊,提供更安全、高速的 2x 100Gb 以太網(wǎng)網(wǎng)絡(luò)接口
●讓英特爾的合作伙伴和客戶能夠使用英特爾® 開放式 FPGA 開發(fā)堆棧(英特爾® OFS)定制其解決方案,這是一款可擴(kuò)展、開源軟件和硬件基礎(chǔ)設(shè)施
●使用現(xiàn)有普遍部署的軟件環(huán)境進(jìn)行編程,包括已在 x86 上優(yōu)化的 DPDK 和 SPDK
英特爾 N6000 加速開發(fā)平臺(tái),代號(hào)為“Arrow Creek”,是專為搭載至強(qiáng)服務(wù)器設(shè)計(jì)的 SmartNIC。其特性包括:
●在功耗、效率和性能方面處于行業(yè)領(lǐng)先地位的英特爾 Agilex FPGA。用于高性能的 100GB 網(wǎng)絡(luò)加速的英特爾以太網(wǎng) 800 系列控制器
●支持多種基礎(chǔ)設(shè)施工作負(fù)載,使通信服務(wù)提供商(CoSP)能夠提供靈活的加速工作負(fù)載,如 Juniper Contrail、OVS 和 SRv6,它以英特爾 PAC-N3000 的成功為基礎(chǔ),該產(chǎn)品已在部分業(yè)界一流的 CoSP 中部署。
Xe HPC 和 Ponte Vecchio
Ponte Vecchio 基于 Xe HPC 微架構(gòu),提供業(yè)界領(lǐng)先的每秒浮點(diǎn)運(yùn)算次數(shù)(FLOPs)和計(jì)算密度,以加速 AI、HPC 和高級(jí)分析工作負(fù)載。英特爾公布了 Xe HPC 微架構(gòu)的 IP 模塊信息;包括每個(gè) Xe 核的 8 個(gè)矢量和矩陣引擎(稱為 XMX Xe Matrix eXtensions);切片和堆棧信息;以及包括計(jì)算、基礎(chǔ)和 Xe Link 單元的處理節(jié)點(diǎn)的單元信息。在架構(gòu)日上,英特爾表示,早期的 Ponte Vecchio 芯片展示了領(lǐng)先的性能,在流行的 AI 基準(zhǔn)測(cè)試中創(chuàng)造了推理和訓(xùn)練吞吐量的行業(yè)記錄。1 英特爾 A0 芯片性能提供了高于 45 TFLOPS 的 FP32 吞吐量,高于5 TBps 的內(nèi)存結(jié)構(gòu)帶寬,以及高于 2 TBps 的連接帶寬。同時(shí),英特爾分享了一段演示視頻,展示了ResNet推理性能超過(guò) 43,000 張圖像/秒和超過(guò)每秒 3400 張圖像/秒的 ResNet 訓(xùn)練,并且這兩項(xiàng)性能都有望實(shí)現(xiàn)行業(yè)領(lǐng)先。1
Ponte Vecchio 由多個(gè)復(fù)雜的設(shè)計(jì)組成,這些設(shè)計(jì)以單元形式呈現(xiàn),然后通過(guò)嵌入式多芯片互連橋接(EMIB)單元進(jìn)行組裝,實(shí)現(xiàn)單元之間的低功耗、高速連接。這些設(shè)計(jì)均被集成于 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個(gè)堆棧的擴(kuò)展。
計(jì)算單元是一個(gè)密集的多個(gè) Xe 內(nèi)核,是 Ponte Vecchio 的核心。
●一塊單元有 8 個(gè) Xe 內(nèi)核,總共有 4MB 一級(jí)緩存,是提供高效計(jì)算的關(guān)鍵
●基于臺(tái)積電先進(jìn)的 N5 制程工藝技術(shù)
●英特爾已通過(guò)設(shè)計(jì)基礎(chǔ)設(shè)施設(shè)置和工具流程以及方法,為測(cè)試和驗(yàn)證該節(jié)點(diǎn)的單元鋪平了道路
●該單元具有極其緊湊的 36 微米凸點(diǎn)間距,可與 Foveros 進(jìn)行 3D 堆疊
基礎(chǔ)單元是 Ponte Vecchio 的連接組織。它是基于 Intel 7 制程工藝的大型芯片,針對(duì) Foveros 技術(shù)進(jìn)行了優(yōu)化。
●基礎(chǔ)單元是所有復(fù)雜的 I/O 和高帶寬組件與 SoC 基礎(chǔ)設(shè)施——PCIe Gen5、HBM2e 內(nèi)存、連接不同單元 MDFI 鏈路和 EMIB 橋接
●采用高 2D 互連的超高帶寬 3D 連接時(shí)延很低,使其成為一臺(tái)無(wú)限連接的機(jī)器
●英特爾技術(shù)開發(fā)團(tuán)隊(duì)致力于滿足帶寬、凸點(diǎn)間距和信號(hào)完整性方面的要求
Xe 鏈路單元提供了 GPU 之間的連接,支持每單元 8 個(gè)鏈路。
●對(duì) HPC 和 AI 計(jì)算的擴(kuò)展至關(guān)重要
●旨在實(shí)現(xiàn)支持高達(dá) 90G 的更高速 SerDes
●該單元已被添加到“極光”(Aurora)百億億次級(jí)超級(jí)計(jì)算機(jī)的擴(kuò)展解決方案中
Ponte Vecchio 已走下生產(chǎn)線進(jìn)行上電驗(yàn)證,并已開始向客戶提供限量樣品。Ponte Vecchio 預(yù)計(jì)將于 2022 年面向 HPC 和 AI 市場(chǎng)發(fā)布。
oneAPI
oneAPI 提供了一個(gè)開放、規(guī)范、跨架構(gòu)和跨廠商的統(tǒng)一軟件棧,讓開發(fā)者能夠擺脫專有語(yǔ)言和編程模型的束縛。目前,NVIDIA GPU、AMD GPU 和 Arm CPU 均有 Data Parallel C++(DPC++)和 oneAPI 庫(kù)。oneAPI 正在被獨(dú)立軟件提供商、操作系統(tǒng)供應(yīng)商、終端用戶和學(xué)術(shù)界廣泛采用。行業(yè)領(lǐng)導(dǎo)者正在協(xié)助發(fā)展該規(guī)范,以支持更多的用例和架構(gòu)。同時(shí),英特爾還提供了商業(yè)產(chǎn)品,包括基本的 oneAPI 基礎(chǔ)工具包,它在規(guī)范語(yǔ)言和庫(kù)之外增加了編譯器、分析器、調(diào)試器和移植工具。
oneAPI 提供跨架構(gòu)的兼容性,提高了開發(fā)人員的生產(chǎn)力和創(chuàng)新能力:
●英特爾的 oneAPI 工具包擁有超過(guò) 20 萬(wàn)次單獨(dú)安裝
●市場(chǎng)上部署的 300 多個(gè)應(yīng)用程序采用了 oneAPI 的統(tǒng)一編程模型
●超過(guò) 80 個(gè) HPC 和 AI 應(yīng)用程序使用英特爾 oneAPI 工具包在 Xe HPC 微架構(gòu)上運(yùn)行
●5 月份發(fā)布的 1 版臨時(shí)規(guī)范為深度學(xué)習(xí)工作負(fù)載和高級(jí)光線追蹤庫(kù)添加了新的圖形接口,預(yù)計(jì)將在年底完成
免責(zé)聲明:本文為轉(zhuǎn)載文章,轉(zhuǎn)載此文目的在于傳遞更多信息,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問(wèn)題,請(qǐng)電話或者郵箱聯(lián)系小編進(jìn)行侵刪。
特別推薦
- 克服碳化硅制造挑戰(zhàn),助力未來(lái)電力電子應(yīng)用
- 了解交流電壓的產(chǎn)生
- 單結(jié)晶體管符號(hào)和結(jié)構(gòu)
- 英飛凌推出用于汽車應(yīng)用識(shí)別和認(rèn)證的新型指紋傳感器IC
- Vishay推出負(fù)載電壓達(dá)100 V的業(yè)內(nèi)先進(jìn)的1 Form A固態(tài)繼電器
- 康佳特推出搭載AMD 銳龍嵌入式 8000系列的COM Express緊湊型模塊
- 村田推出3225尺寸車載PoC電感器LQW32FT_8H系列
技術(shù)文章更多>>
- “扒開”超級(jí)電容的“外衣”,看看超級(jí)電容“超級(jí)”在哪兒
- DigiKey 誠(chéng)邀各位參會(huì)者蒞臨SPS 2024?展會(huì)參觀交流,體驗(yàn)最新自動(dòng)化產(chǎn)品
- 提前圍觀第104屆中國(guó)電子展高端元器件展區(qū)
- 高性能碳化硅隔離柵極驅(qū)動(dòng)器如何選型,一文告訴您
- 貿(mào)澤電子新品推薦:2024年第三季度推出將近7000個(gè)新物料
技術(shù)白皮書下載更多>>
- 車規(guī)與基于V2X的車輛協(xié)同主動(dòng)避撞技術(shù)展望
- 數(shù)字隔離助力新能源汽車安全隔離的新挑戰(zhàn)
- 汽車模塊拋負(fù)載的解決方案
- 車用連接器的安全創(chuàng)新應(yīng)用
- Melexis Actuators Business Unit
- Position / Current Sensors - Triaxis Hall
熱門搜索
音頻IC
音頻SoC
音頻變壓器
引線電感
語(yǔ)音控制
元件符號(hào)
元器件選型
云電視
云計(jì)算
云母電容
真空三極管
振蕩器
振蕩線圈
振動(dòng)器
振動(dòng)設(shè)備
震動(dòng)馬達(dá)
整流變壓器
整流二極管
整流濾波
直流電機(jī)
智能抄表
智能電表
智能電網(wǎng)
智能家居
智能交通
智能手機(jī)
中電華星
中電器材
中功率管
中間繼電器