最近才剛退伍,遇到 AI 相關的產業變化,在慢慢摸索自己興趣的過程中,我決定開始一個新的挑戰:親手訓練一個 LLM(大型語言模型)

為什麼我不直接用 LoRA 微調?

現在市面上已經有很多開源的強大模型(像是 Llama 或是 Qwen),而且要讓它們學會特定技能,只要套用 LoRA 等技術去做「微調(Fine-tune)」就可以了,成本既低又快。那我為什麼還要自討苦吃,從 0 開始做起?

因為我的最終目的,不只是為了解決特定任務,而是希望從頭理解整個模型誕生的完整過程

LLM 本質上就是一台預測下一個字的巨大統計機器。當我們親自走過資料蒐集、清洗,到從無到有訓練出一個模型的過程後,會對它背後的「統計學本質」有更深刻的體會。而只有真正理解了這層本質,未來在面對各種新的訓練方法與優化技巧時,才能真正看懂它們在做什麼。

帶著這個心態,在真正開始動手寫程式之前,我想先把訓練 AI 最基本的幾個概念釐清。如果你也想了解 AI 是怎麼誕生的,我們可以先從這五個關鍵詞開始:

1. Dataset(資料集):AI 的教科書

要讓 AI 學會講話或學會知識,我們不能只給它寫幾行死板的規則,而是要給它看大量的「文章與對話」。這些資料的集合就是 Dataset。 這就像是給學生的教科書。如果書裡面都是維基百科,AI 講話就會像百科全書;如果書裡面都是 PTT 貼文,AI 講話就會很有鄉民感。因此,資料的品質直接決定了 AI 的水準。

2. Model(模型):AI 的大腦

Model 就像是學生的大腦結構。 訓練模型,其實就是在不斷調整這個大腦裡面成千上萬個「參數」,讓它能越來越精準地預測出「下一段話應該講什麼」。

3. Train / Pre-train(預訓練):苦讀基礎知識

這是 AI 學習的第一步。我們把海量的 Dataset 餵給 Model,讓它去大量閱讀。 這個階段非常消耗時間與電腦算力,目的只是讓 AI 學會「人類的語言邏輯」和「世界的基礎知識」。這時候的 AI 就像一個讀了萬卷書的人,懂很多字,但可能還不太會跟人「一問一答」。

4. Fine-Tune(微調):學會一技之長

經歷了 Pre-train 後的 AI,雖然懂很多,但不知道怎麼針對問題給出好答案。 Fine-Tune 就像是給 AI 進行「職前訓練」。我們會準備一些精準的「一問一答(Q&A)」資料,教導它:「當人類問你這個問題時,你應該這樣回答」。這能讓 AI 從「單純會接話」變成「能聽懂指令的實用助手」。

5. RL(強化學習):學會討人喜歡

全名通常是 RLHF(基於人類回饋的強化學習)。 光是知道怎麼回答還不夠,我們希望 AI 能表現出「人類喜歡、安全」的行為(例如:有禮貌、不教人做壞事)。這時候我們會用類似「給分與扣分」的獎勵機制,AI 給出好回答就給獎勵,讓它的言行越來越符合人類的價值觀。


釐清了這些基本概念後,我的下一步就是要開始幫我的 AI 準備「教科書(Dataset)」了!下一篇文章,再來分享我打算怎麼收集與處理這些資料。

參考資料