22年前的一篇報告，預言了今天的CPU - asiasworldcity.hk

本文内容：

公衆號記得加星標??，第一時間看推送不會錯過。來源：內容編譯自semiwiki。2003年，傳奇計算機架構師邁克爾·J·弗林（Michael J. Flynn）發出警告，但當時業界大多數成員都對此感到遲疑。衆所周知，CPU 不斷向更復雜的方向發展——例如推測執行、深度流水線和臃腫的指令處理——已變得難以爲繼。在一篇題爲《omputer Architecture and Technology: Some Thoughts on the Road Ahead》的論文中，弗林預測，計算的未來將不再依賴於日益複雜的通用處理器，而是依賴於簡單、並行、確定性和領域特定性的設計。二十年後，隨着推測執行的漏洞逐漸暴露，以及人工智能加速器的興起重塑硬件格局，Flynn 的批評似乎頗具預見性。他倡導架構簡潔性、確定性和專業化，如今已在谷歌、NVIDIA、Meta 等行業領導者以及 Simplex Micro 等新興企業的設計理念中得到呼應。值得一提的是，Thang Tran 博士近期的兩項專利——“具有矢量指令時間調度執行功能的微處理器”和“具有靜態調度執行時間計數器的微處理器”——引入了一種確定性矢量處理器設計，用基於時間的指令調度取代了亂序推測。這實現了可預測的高吞吐量執行、更低的功耗以及簡化的硬件驗證。這些創新與 Flynn 的論斷相符：未來的性能提升並非來自複雜性，而是來自嚴謹的簡單性和明確的並行性。投機的幽靈（The Spectre of Speculation）Flynn 對推測執行的批評遠早於 2018 年 Spectre 和 Meltdown 漏洞對整個行業造成衝擊之前。這些側信道攻擊利用現代 CPU 中的推測執行路徑，跨隔離邊界泄露敏感數據——這正是 Flynn 所警告的複雜性帶來的意外後果。推測執行的性能提升是以高昂的代價換來的：不僅在功耗和驗證工作量方面，還在安全性和信任方面。事後看來，弗林的警告非常有先見之明。早在 Spectre 和 Meltdown 暴露推測執行的危險之前，弗林就認爲推測執行是一種脆弱的優化：它會引發深度設計顛覆，使形式驗證更加困難，並且功耗與其性能提升不成比例。它所需的複雜性——分支預測器、重新排序緩衝區、推測緩存——隨着工作負載變得越來越並行且受內存限制，其收益也越來越少。如今，一場悄然的路線調整正在進行。英特爾等主要芯片製造商正在重新思考其架構優先級。英特爾的 Lunar Lake 和 Sierra Forest 核心優先考慮效率而非激進的推測，並針對每瓦吞吐量進行優化。蘋果的 M 系列芯片採用寬廣的亂序流水線，但它們越來越強調可預測的延遲和編譯器主導的優化，而非純粹的推測深度。在嵌入式領域，Arm 的 Cortex-M 和 Neoverse 產品線趨向於簡化的流水線和明確的調度，通常會完全放棄推測邏輯以滿足實時性和功耗限制。或許最重要的是，開放的 RISC-V 生態系統使新一代 CPU 和加速器設計人員能夠從第一原理出發進行構建——通常無需任何推測。像 Simplex Micro 這樣的供應商正在倡導確定性、低開銷的執行模型，利用向量和矩陣擴展或預測調度來取代推測。這些選擇直接體現了 Flynn 的論點：當正確性、性能和可擴展性比峯值 IPC 更重要時，簡潔性將勝出。值得注意的是，Tenstorrent 雖然經常與 RISC-V 創新聯繫在一起，但目前其矢量處理器尚未實現確定性調度。他們的架構融合了推測執行和亂序執行以優化吞吐量，從而增加了控制複雜度。雖然這提升了原始性能，但卻與 Flynn 所倡導的簡潔性和可預測性背道而馳。儘管如此，Tenstorrent 對特定領域加速和並行性的運用與 Flynn 願景的其他方面相符。平行未來：人工智能芯片與弗林的願景在人工智能加速器的興起中，弗林的願景得到了最生動的體現。從谷歌的張量處理單元 (TPU) 到英偉達的張量核心，從 Cerebras 的晶圓級引擎到 Groq 的數據流處理器，趨勢顯而易見：拋棄推測複雜性，轉而擁抱大規模並行、確定性計算。谷歌的 TPU 正是這種轉變的典範。它摒棄了推測執行、亂序邏輯和深度控制流水線，而是通過脈動陣列（一種高度規則、可重複的架構，非常適合 AI 工作負載）來處理矩陣運算。這種方法實現了高吞吐量和確定性延遲，符合 Flynn 對簡潔且針對特定領域進行優化的硬件的訴求。Cerebras Systems 將這一概念進一步發展。其晶圓級引擎 (Wafer Scale Engine) 將數十萬個處理元件集成到單個晶圓大小的芯片上。它沒有緩存層次結構，沒有分支預測，也沒有推測控制流——只有緊密連接的網格上大規模、均勻的並行性。通過優化數據局部性和可預測性，Cerebras 完全符合 Flynn 的觀點，即規律性和確定性是可擴展性能的關鍵。Groq 由 TPU 架構師 Jonathan Ross 聯合創立，圍繞編譯時調度數據流構建芯片。其架構具有極強的確定性：沒有指令緩存或分支預測器。所有執行路徑均已預先定義，從而消除了推測邏輯的時序可變性和設計複雜性。最終形成了一箇可預測的、軟件驅動的執行模型，體現了 Flynn 對顯式控制和簡化驗證的重視。即使是曾經完全依賴現成 GPU 的 Meta（前身爲 Facebook），也在其定製的 MTIA（元訓練和推理加速器）芯片中融入了 Flynn 式的思維。這些處理器專爲推薦系統等推理工作負載而設計，強調可預測的吞吐量和能效，而非純粹的靈活性。Meta 決定自行設計針對特定模型的硬件，這與 Flynn 的主張相呼應：不同的計算領域不應被強制採用“一刀切”的架構。特定領域的簡單性：DSA 革命Flynn 還預測計算將分裂成領域特定架構 (DSA)。他預見到，服務器、客戶端、嵌入式系統和 AI 處理器將不再由單一通用 CPU 來處理所有工作負載，而是演變成針對各自任務而定製的獨特、精簡的架構。這一預測已成爲現代硅片設計的基礎。如今的硬件生態系統充滿了 DSA：1、人工智能專用處理器（TPU、MTIA、Cerebras）2、網絡和存儲加速器（SmartNIC、DPU）3、以安全爲中心的微控制器（例如汽車中的鎖步 RISC-V 內核）4、超低功耗邊緣 SoC（例如 GreenWaves GAP9、Kneron、Ambiq）這些架構去掉了不必要的功能，最大限度地降低了控制複雜性，並專注於在給定領域內最大限度地提高每瓦性能——這正是 Flynn 概述的設計目標。甚至 GPU 也朝着這個方向發展。GPU 最初是爲圖形渲染而設計的，現在融合了張量核心、稀疏計算單元和低精度流水線，實際上成爲了針對機器學習而非通用並行性進行優化的 DSA。簡約的傳承Flynn 在 2003 年傳遞的信息非常明確：複雜性不可擴展，而簡單性纔可擴展。如今，從 TPU 到 RISC-V 矢量處理器等領先的架構都採用了這一理念，但往往沒有明確提及 Flynn 奠定的基礎。數據流架構、顯式調度和確定性流水線的復興表明，業界終於開始傾聽他的呼聲。在這個安全性、能效和實時可靠性比以往任何時候都更重要的時代——尤其是在人工智能推理、汽車安全和邊緣計算領域——弗林對後推測計算的願景不僅具有現實意義，而且至關重要。他是對的。附PPT：https://semiwiki.com/artificial-intelligence/356512-flynn-was-right-how-a-2003-warning-foretold-todays-architectural-pivot/*免責聲明：本文由作者原創。文章內容系作者個人觀點，半導體行業觀察轉載僅爲了傳達一種不同的觀點，不代表半導體行業觀察對該觀點贊同或支持，如果有任何異議，歡迎聯繫半導體行業觀察。今天是《半導體行業觀察》爲您分享的第4075期內容，歡迎關注。加星標??第一時間看推送，小號防走丟求推薦

(本文内容不代表本站观点。)
---------------------------------