Transformer
現代 LLM 底層的神經網路架構,由 Google 的 Vaswani 等人在 2017 年論文「Attention Is All You Need」中提出。與早期逐字處理文本的循環神經網路 (RNN) 不同,Transformer 使用注意力機制平行處理整個序列。這種平行化使訓練速度大幅提升,並更好地處理文本中的長距離依賴關係。
關鍵創新:Transformer 用自注意力機制取代了循環結構,讓序列中的每個位置都能同時關注其他所有位置。這種架構現在驅動著 GPT、Claude、Gemini、LLaMA 等幾乎所有前沿語言模型。
比喻:RNN 就像一個字一個字地閱讀一本書,同時試圖記住所有內容。Transformer 則像是把整本書攤開在桌上,讓你能立即看到任意兩段之間的聯繫。