本站真誠介紹香港這個「東方之珠」和「亞洲國際都會」

亞洲國際都會 asiasworldcity

22年前的一篇報告,預言了今天的CPU

(本文内容不代表本站观点。)
香港飛龍 Hong Kong HK Dragon
香港飛龍.online 官方授權發布的第4代「香港飛龍」標誌

本文内容:

公衆號記得加星標??,第一時間看推送不會錯過。來源:內容編譯自semiwiki。2003年,傳奇計算機架構師邁克爾·J·弗林(Michael J. Flynn)發出警告,但當時業界大多數成員都對此感到遲疑。衆所周知,CPU 不斷向更復雜的方向發展——例如推測執行、深度流水線和臃腫的指令處理——已變得難以爲繼。在一篇題爲《omputer Architecture and Technology: Some Thoughts on the Road Ahead》的論文中,弗林預測,計算的未來將不再依賴於日益複雜的通用處理器,而是依賴於簡單、並行、確定性和領域特定性的設計。二十年後,隨着推測執行的漏洞逐漸暴露,以及人工智能加速器的興起重塑硬件格局,Flynn 的批評似乎頗具預見性。他倡導架構簡潔性、確定性和專業化,如今已在谷歌、NVIDIA、Meta 等行業領導者以及 Simplex Micro 等新興企業的設計理念中得到呼應。值得一提的是,Thang Tran 博士近期的兩項專利——“具有矢量指令時間調度執行功能的微處理器”和“具有靜態調度執行時間計數器的微處理器”——引入了一種確定性矢量處理器設計,用基於時間的指令調度取代了亂序推測。這實現了可預測的高吞吐量執行、更低的功耗以及簡化的硬件驗證。這些創新與 Flynn 的論斷相符:未來的性能提升並非來自複雜性,而是來自嚴謹的簡單性和明確的並行性。投機的幽靈(The Spectre of Speculation)Flynn 對推測執行的批評遠早於 2018 年 Spectre 和 Meltdown 漏洞對整個行業造成衝擊之前。這些側信道攻擊利用現代 CPU 中的推測執行路徑,跨隔離邊界泄露敏感數據——這正是 Flynn 所警告的複雜性帶來的意外後果。推測執行的性能提升是以高昂的代價換來的:不僅在功耗和驗證工作量方面,還在安全性和信任方面。事後看來,弗林的警告非常有先見之明。早在 Spectre 和 Meltdown 暴露推測執行的危險之前,弗林就認爲推測執行是一種脆弱的優化:它會引發深度設計顛覆,使形式驗證更加困難,並且功耗與其性能提升不成比例。它所需的複雜性——分支預測器、重新排序緩衝區、推測緩存——隨着工作負載變得越來越並行且受內存限制,其收益也越來越少。如今,一場悄然的路線調整正在進行。英特爾等主要芯片製造商正在重新思考其架構優先級。英特爾的 Lunar Lake 和 Sierra Forest 核心優先考慮效率而非激進的推測,並針對每瓦吞吐量進行優化。蘋果的 M 系列芯片採用寬廣的亂序流水線,但它們越來越強調可預測的延遲和編譯器主導的優化,而非純粹的推測深度。在嵌入式領域,Arm 的 Cortex-M 和 Neoverse 產品線趨向於簡化的流水線和明確的調度,通常會完全放棄推測邏輯以滿足實時性和功耗限制。或許最重要的是,開放的 RISC-V 生態系統使新一代 CPU 和加速器設計人員能夠從第一原理出發進行構建——通常無需任何推測。像 Simplex Micro 這樣的供應商正在倡導確定性、低開銷的執行模型,利用向量和矩陣擴展或預測調度來取代推測。這些選擇直接體現了 Flynn 的論點:當正確性、性能和可擴展性比峯值 IPC 更重要時,簡潔性將勝出。值得注意的是,Tenstorrent 雖然經常與 RISC-V 創新聯繫在一起,但目前其矢量處理器尚未實現確定性調度。他們的架構融合了推測執行和亂序執行以優化吞吐量,從而增加了控制複雜度。雖然這提升了原始性能,但卻與 Flynn 所倡導的簡潔性和可預測性背道而馳。儘管如此,Tenstorrent 對特定領域加速和並行性的運用與 Flynn 願景的其他方面相符。平行未來:人工智能芯片與弗林的願景在人工智能加速器的興起中,弗林的願景得到了最生動的體現。從谷歌的張量處理單元 (TPU) 到英偉達的張量核心,從 Cerebras 的晶圓級引擎到 Groq 的數據流處理器,趨勢顯而易見:拋棄推測複雜性,轉而擁抱大規模並行、確定性計算。谷歌的 TPU 正是這種轉變的典範。它摒棄了推測執行、亂序邏輯和深度控制流水線,而是通過脈動陣列(一種高度規則、可重複的架構,非常適合 AI 工作負載)來處理矩陣運算。這種方法實現了高吞吐量和確定性延遲,符合 Flynn 對簡潔且針對特定領域進行優化的硬件的訴求。Cerebras Systems 將這一概念進一步發展。其晶圓級引擎 (Wafer Scale Engine) 將數十萬個處理元件集成到單個晶圓大小的芯片上。它沒有緩存層次結構,沒有分支預測,也沒有推測控制流——只有緊密連接的網格上大規模、均勻的並行性。通過優化數據局部性和可預測性,Cerebras 完全符合 Flynn 的觀點,即規律性和確定性是可擴展性能的關鍵。Groq 由 TPU 架構師 Jonathan Ross 聯合創立,圍繞編譯時調度數據流構建芯片。其架構具有極強的確定性:沒有指令緩存或分支預測器。所有執行路徑均已預先定義,從而消除了推測邏輯的時序可變性和設計複雜性。最終形成了一箇可預測的、軟件驅動的執行模型,體現了 Flynn 對顯式控制和簡化驗證的重視。即使是曾經完全依賴現成 GPU 的 Meta(前身爲 Facebook),也在其定製的 MTIA(元訓練和推理加速器)芯片中融入了 Flynn 式的思維。這些處理器專爲推薦系統等推理工作負載而設計,強調可預測的吞吐量和能效,而非純粹的靈活性。Meta 決定自行設計針對特定模型的硬件,這與 Flynn 的主張相呼應:不同的計算領域不應被強制採用“一刀切”的架構。特定領域的簡單性:DSA 革命Flynn 還預測計算將分裂成領域特定架構 (DSA)。他預見到,服務器、客戶端、嵌入式系統和 AI 處理器將不再由單一通用 CPU 來處理所有工作負載,而是演變成針對各自任務而定製的獨特、精簡的架構。這一預測已成爲現代硅片設計的基礎。如今的硬件生態系統充滿了 DSA:1、人工智能專用處理器(TPU、MTIA、Cerebras)2、網絡和存儲加速器(SmartNIC、DPU)3、以安全爲中心的微控制器(例如汽車中的鎖步 RISC-V 內核)4、超低功耗邊緣 SoC(例如 GreenWaves GAP9、Kneron、Ambiq)這些架構去掉了不必要的功能,最大限度地降低了控制複雜性,並專注於在給定領域內最大限度地提高每瓦性能——這正是 Flynn 概述的設計目標。甚至 GPU 也朝着這個方向發展。GPU 最初是爲圖形渲染而設計的,現在融合了張量核心、稀疏計算單元和低精度流水線,實際上成爲了針對機器學習而非通用並行性進行優化的 DSA。簡約的傳承Flynn 在 2003 年傳遞的信息非常明確:複雜性不可擴展,而簡單性纔可擴展。如今,從 TPU 到 RISC-V 矢量處理器等領先的架構都採用了這一理念,但往往沒有明確提及 Flynn 奠定的基礎。數據流架構、顯式調度和確定性流水線的復興表明,業界終於開始傾聽他的呼聲。在這個安全性、能效和實時可靠性比以往任何時候都更重要的時代——尤其是在人工智能推理、汽車安全和邊緣計算領域——弗林對後推測計算的願景不僅具有現實意義,而且至關重要。他是對的。附PPT:https://semiwiki.com/artificial-intelligence/356512-flynn-was-right-how-a-2003-warning-foretold-todays-architectural-pivot/*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4075期內容,歡迎關注。加星標??第一時間看推送,小號防走丟求推薦


(本文内容不代表本站观点。)
---------------------------------
本网站以及域名有仲裁协议(arbitration agreement)。

依据《伯尔尼公约》、香港、中国内地的法律规定,本站对部分文章享有对应的版权。

本站真诚介绍香港这个「东方之珠」和「亚洲国际都会」,香港和「东方之珠」和「亚洲国际都会」是本站的业务地点名称。

本网站是"非商业"(non-commercial),没有涉及商业利益或竞争。


2025-Jun-26 11:19am (UTC +8)
栏目列表