Apple-Nvidia 合作將 AI 模型生產速度提高了三倍

蘋果最新的機器學習研究可以為以下物件建立模型透過提出一種技術,在使用 Nvidia GPU 時,產生代幣的速度幾乎提高了三倍,速度更快。

為提供基於 AI 的功能(例如 Apple Intelligence)的工具和應用程式創建大型語言模型 (LLM) 的問題之一是,首先產生 LLM 的效率低下。機器學習的訓練模型是一個資源密集且緩慢的過程,通常透過購買更多硬體和增加能源成本來應對。

2024 年初,Apple 發布並開源了 Recurrent Drafter(稱為 ReDrafter),這是一種用於提高訓練表現的推測性解碼方法。它使用結合波束搜尋和動態樹注意力的 RNN(循環神經網路)草稿模型來預測和驗證來自多個路徑的草稿標記。

與典型的自回歸令牌生成技術相比,這將每個生成步驟的 LLM 令牌產生速度提高了 3.5 倍。

在一個郵政蘋果的機器學習研究網站解釋說,除了現有的工作之外,還使用,事情並沒有就此停止。週三發布的新報告詳細介紹了該團隊如何應用該研究來創建 ReDrafter,使其可以與 Nvidia GPU 一起投入生產。

Nvidia GPU 通常用於 LLM 產生的伺服器中,但高效能硬體通常成本高昂。多 GPU 伺服器的成本並不罕見單獨的硬件,更不用說任何所需的基礎設施或其他連接成本。

Apple 與 Nvidia 合作,將 ReDrafter 整合到 Nvidia TensorRT-LLM 推理加速框架中。由於 ReDrafter 使用其他推測解碼方法不使用的運算符,因此 Nvidia 必須添加額外的元素才能使其工作。

透過集成,在工作中使用 Nvidia GPU 的 ML 開發人員現在可以在使用 TensorRT-LLM 進行生產時使用 ReDrafter 的加速令牌生成,而不僅僅是那些使用 Apple Silicon 的開發人員。

在 Nvidia GPU 上對數百億個參數生產模型進行基準測試後,貪婪編碼每秒產生的代幣速度提高了 2.7 倍。

結果是該過程可用於最大限度地減少用戶的延遲並減少所需的硬體數量。簡而言之,用戶可以期望從基於雲端的查詢中獲得更快的結果,而公司可以在花費更少的情況下提供更多服務。

在英偉達的技術部落格關於這個主題,顯示卡生產商表示,這次合作使 TensorRT-LLM“更強大、更靈活,使 LLM 社區能夠創新更複雜的模型並輕鬆部署它們。”

該報告是在蘋果公司發布之後發布的該公司正在研究使用亞馬遜的 Trainium2 晶片來訓練用於 Apple Intelligence 功能的模型的可能性。當時,預計使用這些晶片進行預訓練的效率將比現有硬體提高 50%。