Kent Chen - Personal Introduction

商業廣告攝影與需求轉譯

Hi 我是 Kent，主要在台灣從事商業廣告攝影工作，成立公司也邁入第 10 年。對攝影與影像處理，還有客戶關係維護有自己的一套經驗與理解。

原本在 AI 應用與學習上最自然的延伸，是把生成式影像技術更深入地接進商業攝影流程；但早期 LLM 真實使用上的摩擦力與痛點，反而讓我把注意力拉向了另一條路。

影像生成之外的 LLM 問題

GPT-3 到 GPT-4 時開始入坑了解 AI。當時主流還不是多模態模型，因此也嘗試使用圖像生成領域流行的 Stable Diffusion 等模型，並搭配 ComfyUI 建置影像工作流。

不過我沒有只專注於影像生成應用上，反而因為那時初期對 LLM 的長上下文遺忘與丟失、容易迎合對話以及幻覺，每次開啟 chat 都是新的 context，很難累積並持續深入解決問題。這一系列初期 LLM 病徵讓我不滿，所以自己開始嘗試自行摸索解決方法。

早期 LLM 的結構性病徵

當時反覆遇到的問題包括長上下文遺忘與 Lost in the Middle、對使用者過度迎合、未驗證資訊上的幻覺，以及每個新 chat 都像從零開始，難以累積成穩定工作狀態。

希望模型能穩定維持特定的 reasoning policy / task posture：不過度迎合、不急著完成、不假裝確定，並在工具使用前後保留反思與狀態更新。

結構化文本與 Context 復現

最早的做法其實很像自然語言手記：把上一輪對話裡重要的狀態、規範與判斷寫下來，再注入新的對話，試圖復現前一次 context。

隨著內容增加，才逐步轉向 Markdown 與更有結構的自然語言。回頭看，這條路很接近現在的 Skill、AGENTS.md、CLAUDE.md 等作法。

內容標注規範與 XML 複合格式

當重新注入的 Context 不斷累積，我發現只用 Markdown 也逐漸面臨瓶頸。於是開始嘗試自建一套有系統的內容標注規範，用來加強文本結構。

後期再加入有系統性的 XML 標籤，配合 Markdown 形成複合格式。曾嘗試一次性注入 128K 個人行為規範文本，在極長對話、接近 context 滿的狀態下，一致性與穩定性仍然還不錯。

記憶代謝與 CLI 多代理協作

進入 2026 年 Agent CLI 工具快速爆發後，開始用 VS Code 搭配 CLI Agent 做 coding 嘗試，一些簡單的 coding 嘗試跟造了一些 Agent 工具的輪子...例如嘗試不靠RAG，只靠文本與代謝機制的Agent 記憶與學習系統(IPL)，以及以"Everything is a file"精神，只透過檔案傳遞達成跨模型服務商的多Agent CLI 工具交互，目前可讓 Claude Code、Codex 等不同 CLI Agent 同時異步溝通協作。

[ IPL ] In Project Learning

把 in-context learning 從單次對話延伸到整個 project；不是訓練模型權重，而是用文本、蒸餾記憶與 guard rail 延續專案中的學習。

逼近冪等狀態機

我覺得比較值得一提的是，前面提到的 Agent 記憶代謝與交互協作，其實延續了 chatbot 時期那套有系統的內容標注規範。後來把它用在 Agent 上，目標不是用 hook 或 harness 從外部硬控，而是靠自然語言、結構化文本與流程約束。

在多輪複雜 tool use、以及需要 Agent 主動認知操作交替運行時，仍希望它能穩定執行同一套規範，交出一致、可復現的結果。簡單說，是企圖讓 Agent 進入接近冪等狀態機的狀態；這不是正規研究，也還有很多優化空間，比較像個人興趣下的長期實作。

01 / 07