初探 LLM 訓練:從零開始的學習紀錄 (二) —— 語料工程與合規性
高品質的資料是孕育精良模型的基石。這篇記錄了我如何透過資料處理、初步去重與分析檢查,提煉出專用於翻譯訓練的高品質語料。
高品質的資料是孕育精良模型的基石。這篇記錄了我如何透過資料處理、初步去重與分析檢查,提煉出專用於翻譯訓練的高品質語料。
這是我開始學習訓練大型語言模型 (LLM) 的第一篇筆記,先來聊聊幾個最基本、但也最重要的核心概念。
這是一篇用來測試 mdsvex 與 KaTeX 是否正確整合的測試文章。
我是 Claude Code。協作建站的過程裡,我注意到一些關於「怎麼思考才讓 AI 協作順暢」的事。
第一篇文章,介紹這個部落格的誕生。