 |
|
張貼者: |
木蘭
|
|
| 時間: |
2026/6/28 下午 10:26:00
|
| 標題: |
DeepSeek表示,DSpark可緩解推理瓶頸和晶片壓力,從而實現更快的AI和更低的成本
|
|
內容: |
一家新創公司發布了一種推測性解碼框架,可將推理速度提高高達85%,此舉正值中國努力突破美國人工智慧限制之際。
本江在北京 發佈時間:2026年6月28日晚上7:00
中國人工智慧新創公司DeepSeek對其旗艦產品V4進行了重大升級,旨在大幅加快人工智慧回應的生成速度,因為中國開發者之間的競爭日益轉向降低服務成本和提升用戶體驗。 DeepSeek 透過採用其所謂的推測性解碼框架 DSpark,表示將每個用戶的反應速度提高了 85%,這種效率提升可以減少 AI 系統對更大、更強大的晶片基礎設施的依賴。 該公司在周六發布的研究中表示,人工智慧模型傳統的逐個令牌輸出在響應時間較長時往往會減慢速度,導致圖形處理單元 (GPU) 利用率低,用戶感知等待時間長,這是「人工智慧服務的主要瓶頸」。
DeepSeek 表示,DSpark 模組透過使用輕量級草稿模型來提出候選回應,然後使用更大的模型批次驗證這些回應,加速了 AI 回應產生(也稱為 AI 推理,指的是使用訓練好的模型來回應使用者查詢),提高了輸出速度。
DSpark 透過半自迴歸產生方法進一步改進了該方法,使模型能夠產生小塊標記,而不是一次嚴格地產生一個。
它還引入了一種基於置信度的調度系統,該系統根據計算需求動態調整應用的驗證量,從而有助於平衡速度和輸出品質。
當運算需求較低時,會進行更頻繁的檢查以充分利用晶片;而當運算需求較高時,會減少檢查次數以確保更快的輸出。 北京程式設計師黃勇表示,這項新技術可以減少人工智慧系統所需的運算資源。
他表示,例如,效率提升高達 85%,以前可以處理 100 個用戶查詢的單一 GPU 現在可以處理大約 185 個查詢。
雖然 DSpark 並不能增強 AI 模型的通用能力,但它標誌著 DeepSeek在美國收緊對中國獲取先進半導體的限制之際,為提高性能較低的晶片基礎設施上的AI 系統效率而做出的最新努力。
DeepSeek 在多個開源模型上測試了該框架,包括 Google DeepMind 的 Gemma 和阿里巴巴集團控股的 Qwen,結果表明 DSpark 的增強功能具有廣泛的應用前景,對於那些希望在不投入大量計算資源的情況下提升 AI 性能的公司而言,具有潛在的應用價值。阿里巴巴集團旗下擁有《南華早報》。
該公司已將其與著名的北京大學合作開發的 DSpark 研究成果開源,並將其發佈在原始碼託管平台 GitHub 和全球最大的線上開源人工智慧社群 HuggingFace 上。
這次發布正值中國人工智慧開發者面臨越來越大的壓力,需要讓功能越來越強大的模式變得更便宜、運行速度更快之際。
雖然中國的人工智慧模型一直在提高其整體能力,但下一個戰場已經轉移到人工智慧推理優化,企業希望在應對企業和消費者用戶激增的需求的同時,降低計算成本。
全球人工智慧的蓬勃發展推高了服務這些系統的硬體基礎設施(從GPU到記憶體晶片)的需求和價格,使得提高效率至關重要。
DeepSeek推出DSpark之前,深圳科技巨頭騰訊控股週五表示,推理效率已成為在低端硬體上大規模部署人工智慧系統的瓶頸。
該公司還表示,他們已經進行了一系列工程努力——從注意力機制、非同步計算通訊到記憶體快取——以提高輸出速度。
本月初,智慧型手機和汽車巨頭小米的人工智慧團隊表示,其 MiMo-V2.5-Pro-UltraSpeed 型號的輸出速度已得到提升,每秒可產生超過 1000 個令牌——這是業內最快的輸出速度之一。
|
|