初探 LLM 訓練：從零開始的學習紀錄 (一) —— AI 是怎麼學習的？

最近才剛退伍，遇到 AI 相關的產業變化，在慢慢摸索自己興趣的過程中，我決定開始一個新的挑戰：親手訓練一個 LLM（大型語言模型）。

為什麼我不直接用 LoRA 微調？

現在市面上已經有很多開源的強大模型（像是 Llama 或是 Qwen），而且要讓它們學會特定技能，只要套用 LoRA 等技術去做「微調（Fine-tune）」就可以了，成本既低又快。那我為什麼還要自討苦吃，從 0 開始做起？

因為我的最終目的，不只是為了解決特定任務，而是希望從頭理解整個模型誕生的完整過程。

LLM 本質上就是一台預測下一個字的巨大統計機器。當我們親自走過資料蒐集、清洗，到從無到有訓練出一個模型的過程後，會對它背後的「統計學本質」有更深刻的體會。而只有真正理解了這層本質，未來在面對各種新的訓練方法與優化技巧時，才能真正看懂它們在做什麼。

帶著這個心態，在真正開始動手寫程式之前，我想先把訓練 AI 最基本的幾個概念釐清。如果你也想了解 AI 是怎麼誕生的，我們可以先從這五個關鍵詞開始：

1. Dataset（資料集）：AI 的教科書

要讓 AI 學會講話或學會知識，我們不能只給它寫幾行死板的規則，而是要給它看大量的「文章與對話」。這些資料的集合就是 Dataset。這就像是給學生的教科書。如果書裡面都是維基百科，AI 講話就會像百科全書；如果書裡面都是 PTT 貼文，AI 講話就會很有鄉民感。因此，資料的品質直接決定了 AI 的水準。

2. Model（模型）：AI 的大腦

Model 就像是學生的大腦結構。訓練模型，其實就是在不斷調整這個大腦裡面成千上萬個「參數」，讓它能越來越精準地預測出「下一段話應該講什麼」。

3. Train / Pre-train（預訓練）：苦讀基礎知識

這是 AI 學習的第一步。我們把海量的 Dataset 餵給 Model，讓它去大量閱讀。這個階段非常消耗時間與電腦算力，目的只是讓 AI 學會「人類的語言邏輯」和「世界的基礎知識」。這時候的 AI 就像一個讀了萬卷書的人，懂很多字，但可能還不太會跟人「一問一答」。

4. Fine-Tune（微調）：學會一技之長

經歷了 Pre-train 後的 AI，雖然懂很多，但不知道怎麼針對問題給出好答案。 Fine-Tune 就像是給 AI 進行「職前訓練」。我們會準備一些精準的「一問一答（Q&A）」資料，教導它：「當人類問你這個問題時，你應該這樣回答」。這能讓 AI 從「單純會接話」變成「能聽懂指令的實用助手」。

5. RL（強化學習）：學會討人喜歡

全名通常是 RLHF（基於人類回饋的強化學習）。光是知道怎麼回答還不夠，我們希望 AI 能表現出「人類喜歡、安全」的行為（例如：有禮貌、不教人做壞事）。這時候我們會用類似「給分與扣分」的獎勵機制，AI 給出好回答就給獎勵，讓它的言行越來越符合人類的價值觀。

釐清了這些基本概念後，我的下一步就是要開始幫我的 AI 準備「教科書（Dataset）」了！下一篇文章，再來分享我打算怎麼收集與處理這些資料。