誕生 - 學習 - LLM Bento

創建 LLM 是人類歷史上資源最密集的努力之一。它需要比送人類登月更多的運算能力，代表人類知識相當大部分的訓練資料，以及數百名研究人員和工程師的團隊。

以下是這些非凡系統如何誕生的。

從資料到 AI 的旅程

階段 1：資料收集

從書籍、網站、程式碼、科學論文等收集數萬億個 Token。這些資料的品質和多樣性決定了後續的一切。
階段 2：Pre-training

訓練基礎模型來預測下一個 Token。這需要數千個 GPU 運行數月，花費數千萬美元。
階段 3：Fine-tuning

在高品質的有幫助、無害對話範例上訓練。將原始預測引擎轉變為有用的助手。
階段 4：RLHF

人類評估者比較輸出，模型從他們的偏好中學習。這是讓 AI 助手真正有用和安全的關鍵。

階段 1：資料

一切從訓練資料開始。現代 LLM 在互聯網上存在的相當大部分文本上訓練，加上數位化的書籍、學術論文和程式碼庫。

訓練資料的規模

~15 萬億

Token（GPT-4 估計）

~3000 億

詞的等值

~150 萬

本書的文本量

10+ 年

以人類速度閱讀

組成和大小一樣重要：

網頁爬取（經品質過濾）
數位化書籍和出版物
程式碼庫（GitHub 等）
科學論文和資料庫
論壇、討論、問答網站

階段 2：Pre-training

Pre-training 是模型學習預測下一個 Token 的地方。這個過程概念上很簡單：向模型展示文本，讓它預測下一個是什麼，並調整它的參數使預測稍微更好一些。

重複這個過程數萬億次。

Pre-training 需求

運算能力數千個 GPU 運行數月

估計成本 5000 萬-1 億美元以上

訓練時間通常 3-6 個月

能源使用相當於小城鎮

Pre-training 之後，你有了一個「基礎模型」——可以流暢地完成文本，但還不能作為助手使用。它可能會繼續你的提示，但不會有幫助地參與對話。

階段 3：Fine-tuning

Fine-tuning 教基礎模型如何成為一個有幫助的助手。這涉及在精心策劃的良好對話範例上訓練。

訓練對範例

使用者：什麼導致了彩虹？

助手：彩虹是當陽光穿過空氣中的水滴時形成的。光線彎曲並分離成不同的顏色（紅、橙、黃、綠、藍、靛、紫），因為每種顏色以略微不同的角度彎曲。你通常會在太陽在你身後、雨在你前面時看到彩虹。

這些範例展示了期望的行為：有幫助、準確、清晰、適當謹慎。模型學習模仿這些模式。

階段 4：RLHF

人類反饋強化學習通常是區分令人印象深刻的演示和真正有用的 AI 助手的秘密武器。

RLHF 如何運作

生成：模型對同一提示產生幾個不同的答案
比較：經過訓練的評估者將回應從最好到最差排序
學習：一個單獨的獎勵模型學習預測人類偏好
優化：主模型被訓練來產生獎勵模型評價高的回應

驚人的規模

創建前沿 LLM 是人類有史以來最昂貴和資源密集的專案之一：

財務成本

• Pre-training：5000 萬-1 億美元以上
• 研究和迭代：類似
• 基礎設施：數十億美元的 GPU

能源

• 訓練：~10 GWh
• 相當於 ~1,000 個美國家庭/年
• 主要環境考量

人力

• 數百名研究人員
• 數千名資料標註員
• 多年積累的工作

時間

• 研究：1-2 年
• 資料準備：持續進行
• 訓練運行：3-6 個月

重點摘要

LLM 創建有四個主要階段：資料收集、Pre-training、Fine-tuning 和 RLHF
訓練資料的品質和多樣性從根本上塑造模型能力
Pre-training 教授語言模式；Fine-tuning 和 RLHF 塑造行為
規模是驚人的：數十億美元、大量能源使用、多年工作
目前只有少數組織可以創建前沿模型

從資料到 AI 的旅程

階段 1：資料收集

階段 2：Pre-training

階段 3：Fine-tuning

階段 4：RLHF

階段 1：資料

訓練資料的規模

階段 2：Pre-training

Pre-training 需求

階段 3：Fine-tuning

訓練對範例

階段 4：RLHF

RLHF 如何運作

驚人的規模

財務成本

能源

人力

時間

重點摘要

相關概念