超越文字
AI 如何看見和創造圖像
首先是文字。現在 AI 可以看、聽,和創造圖像。 多模態 AI 代表下一個前沿——理解和生成多種類型內容的系統。驅動語言模型的同樣核心想法 正在擴展到全新的領域。
一切變成 Token
關鍵洞見:處理語言的同樣架構可以處理其他東西——如果你可以把它們轉換成 Token。
從內容到 Token
- 文字:"Hello world" → 基於子詞的 Token
- 圖像:圖像 → 區塊 → 視覺編碼器 → Token
- 音訊:聲波 → 頻譜圖 → 音訊 Token
- 影片:幀 → 圖像 Token + 時間 Token
AI 如何看見:視覺模型
當你與 Claude 或 GPT-4V 分享圖像時,以下是發生的事:
1. 分成區塊
圖像被分成小方塊(通常每個 14x14 或 16x16 像素)。 一個 1024x1024 的圖像可能變成 64x64 的區塊網格。
2. 編碼成向量
視覺編碼器 (通常是預訓練的模型如 CLIP)將每個區塊轉換成捕捉其視覺含義的數值向量。
3. 與文字結合
這些視覺 Token 與文字 Token 一起輸入語言模型。 模型使用同樣的注意力機制處理它們。
4. 生成回應
模型產生引用它在圖像中「看到」的文字,回答問題或描述內容。
視覺模型能做什麼
- • 用自然語言描述圖像內容
- • 回答關於圖像中內容的問題
- • 讀取和提取文字(OCR)
- • 分析圖表、圖示和文件
- • 理解空間關係
- • 識別物體、人物、場景
創造圖像:擴散模型
圖像生成使用不同但同樣優雅的方法: 擴散模型。
核心想法出乎意料地簡單:訓練模型從圖像中去除雜訊。 然後反過來使用它——從純雜訊開始,逐漸去除雜訊直到圖像出現。
擴散如何運作
- 訓練:取真實圖像,在各種程度上添加隨機雜訊,訓練模型預測並去除那個雜訊。
- 生成:從純隨機靜態開始——就像電視雪花。
- 迭代:重複應用模型,每一步去除一點雜訊。結構從混沌中湧現。
- 引導:文字描述引導去噪過程朝向符合提示的圖像。
擴展的前沿
同樣的原理正在擴展到其他模態:
語音
像 Whisper 這樣的模型以接近人類的準確度將語音轉錄成文字。 語音合成從文字創造自然聽起來的語音。
音樂
AI 現在可以從文字描述生成音樂——包含結構、旋律和歌詞的完整歌曲。
影片
早期的影片生成模型可以從文字創建短片段。 更長、連貫的影片仍然是前沿挑戰。
機器人
多模態模型正被用於給機器人理解指令和環境的能力。
走向統一智能
趨勢是明確的:AI 正在變得越來越多模態。未來的系統可能會無縫處理 文字、圖像、音訊和影片——就像人類一樣。
不同的模態攜帶不同的資訊:
- 文字精確但可能遺漏視覺細節
- 圖像捕捉外觀但不是時間變化
- 音訊傳達文字經常遺漏的語調和情緒
- 影片展示事物如何隨時間變化
一個真正智能的系統需要所有這些——並且需要理解它們如何相互關聯。
這意味著什麼
多模態 AI 有深遠的影響:
新的創作工具
藝術家、設計師和創作者有了強大的新工具。 想像力和創造之間的界限比以往任何時候都更薄。
新的挑戰
深度偽造、合成媒體,以及區分真實和生成內容的困難 造成了嚴重的社會挑戰。
新的問題
如果 AI 可以創造任何圖像,「攝影」意味著什麼?如果它可以寫作和插圖, 什麼是人類創造力?這些問題正變得緊迫。
重點摘要
- 多模態 AI 將所有內容類型轉換為 Token 進行統一處理
- 視覺模型使用編碼器將圖像轉換為 LLM 可以理解的 Token
- 擴散模型透過學習去除雜訊來生成圖像
- 音訊、音樂和影片正在遵循類似的路徑
- 未來指向統一的多模態 AI 系統
相關概念
旅程完成
你已經探索了 LLM 如何運作的基礎——從機器語言的驚奇到多模態 AI。 這只是開始。這個領域發展迅速,總是有更多可以學習的。