創建 LLM 是人類歷史上資源最密集的努力之一。 它需要比送人類登月更多的運算能力,代表人類知識相當大部分的訓練資料, 以及數百名研究人員和工程師的團隊。

以下是這些非凡系統如何誕生的。

從資料到 AI 的旅程

  1. 階段 1:資料收集

    從書籍、網站、程式碼、科學論文等收集數萬億個 Token。 這些資料的品質和多樣性決定了後續的一切。

  2. 階段 2:Pre-training

    訓練基礎模型來預測下一個 Token。這需要數千個 GPU 運行數月, 花費數千萬美元。

  3. 階段 3:Fine-tuning

    在高品質的有幫助、無害對話範例上訓練。將原始預測引擎轉變為有用的助手。

  4. 階段 4:RLHF

    人類評估者比較輸出,模型從他們的偏好中學習。 這是讓 AI 助手真正有用和安全的關鍵。

階段 1:資料

一切從訓練資料開始。 現代 LLM 在互聯網上存在的相當大部分文本上訓練, 加上數位化的書籍、學術論文和程式碼庫。

訓練資料的規模

~15 萬億

Token(GPT-4 估計)

~3000 億

詞的等值

~150 萬

本書的文本量

10+ 年

以人類速度閱讀

組成和大小一樣重要:

  • 網頁爬取(經品質過濾)
  • 數位化書籍和出版物
  • 程式碼庫(GitHub 等)
  • 科學論文和資料庫
  • 論壇、討論、問答網站

階段 2:Pre-training

Pre-training 是模型學習預測下一個 Token 的地方。這個過程概念上很簡單: 向模型展示文本,讓它預測下一個是什麼,並調整它的 參數 使預測稍微更好一些。

重複這個過程數萬億次。

Pre-training 需求

運算能力 數千個 GPU 運行數月
估計成本 5000 萬-1 億美元以上
訓練時間 通常 3-6 個月
能源使用 相當於小城鎮

Pre-training 之後,你有了一個「基礎模型」——可以流暢地完成文本, 但還不能作為助手使用。它可能會繼續你的提示,但不會有幫助地參與對話。

階段 3:Fine-tuning

Fine-tuning 教基礎模型如何成為一個有幫助的助手。這涉及在精心策劃的良好對話範例上訓練。

訓練對範例

使用者:什麼導致了彩虹?
助手:彩虹是當陽光穿過空氣中的水滴時形成的。 光線彎曲並分離成不同的顏色(紅、橙、黃、綠、藍、靛、紫), 因為每種顏色以略微不同的角度彎曲。你通常會在太陽在你身後、 雨在你前面時看到彩虹。

這些範例展示了期望的行為:有幫助、準確、清晰、適當謹慎。 模型學習模仿這些模式。

階段 4:RLHF

人類反饋強化學習 通常是區分令人印象深刻的演示和真正有用的 AI 助手的秘密武器。

RLHF 如何運作

  1. 生成:模型對同一提示產生幾個不同的答案
  2. 比較:經過訓練的評估者將回應從最好到最差排序
  3. 學習:一個單獨的獎勵模型學習預測人類偏好
  4. 優化:主模型被訓練來產生獎勵模型評價高的回應

驚人的規模

創建前沿 LLM 是人類有史以來最昂貴和資源密集的專案之一:

財務成本

  • • Pre-training:5000 萬-1 億美元以上
  • • 研究和迭代:類似
  • • 基礎設施:數十億美元的 GPU

能源

  • • 訓練:~10 GWh
  • • 相當於 ~1,000 個美國家庭/年
  • • 主要環境考量

人力

  • • 數百名研究人員
  • • 數千名資料標註員
  • • 多年積累的工作

時間

  • • 研究:1-2 年
  • • 資料準備:持續進行
  • • 訓練運行:3-6 個月

重點摘要

  • LLM 創建有四個主要階段:資料收集、Pre-training、Fine-tuning 和 RLHF
  • 訓練資料的品質和多樣性從根本上塑造模型能力
  • Pre-training 教授語言模式;Fine-tuning 和 RLHF 塑造行為
  • 規模是驚人的:數十億美元、大量能源使用、多年工作
  • 目前只有少數組織可以創建前沿模型

相關概念

Theme
Language
Support
© funclosure 2025