Kent Chen - Personal Introduction

商業廣告攝影與需求轉譯

主要在台灣從事商業廣告攝影工作，成立影像公司已邁入第 10 年。

核心經驗在於高精度視覺控制、影像處理演算法，以及將客戶抽象需求轉譯為確定性視覺資產的溝通機制。這份對於確定性的極致追求，成為日後探索 AI 邏輯控制的底色。

於 GPT-3 到 GPT-4 爆發期切入 AI 實作。早期專注於圖像生成領域，利用 Stable Diffusion 與 ComfyUI 節點式架構建置自動化影像工作流，並成功導入實際的商業廣告攝影生產線。

然而，在優化工作流的過程中，發現圖像生成僅是下游應用，轉而對上游 LLM 的推理控制機制產生了更本質的興趣。

在實戰與調試中，我深感早期大型語言模型存在若干難以逾越的結構病徵：長上下文失憶（Lost in the Middle）、迎合對話傾向、在未驗證資訊上產生幻覺，以及每次對話皆從零開始、無法累積工作狀態的無狀態性。

我希望模型能穩定維持特定的推理策略（Reasoning Policy），在工具呼叫前後保留狀態更新，而非扮演討好使用者的聊天機器人。

為了克服無狀態的限制，我開始嘗試以結構化 Markdown 文本，在會話開啟時重新注入並復現上一段對話的上下文狀態。

這種針對正確思考路徑與行為準則替 LLM 進行結構錨定的做法，在後來的業界實踐中，被證明與 Skill 組件、AGENTS.md 和 CLAUDE.md 等配置規範的設計精神高度吻合。

為解決單純 Markdown 在 context 膨脹時的語義偏移，我自建了 XML 與 Markdown 複合內容標記規範。

透過 XML 嚴格的標記階層約束，與 Markdown 的高可讀性，曾嘗試一次注入達 128K 的個人行為規範文本，使模型在極長對話中仍能保持極佳的行為一致性與推理紀律。

[ SCHEMA ] XML 複合標註格式示意

<rules>
  <rule id="honesty">寧可承認無知，不可推論迎合。</rule>
</rules>

自造了不依賴向量資料庫（RAG）、僅靠文本標記與自然衰減的記憶代謝系統。並基於 Everything is a file 的精神，以檔案異步傳遞達成跨服務商多 Agent 的協同工作。

此機制目前已成功使 Claude Code 與 Codex 等 CLI Agents 進行雙向狀態對齊與任務協作。

[ METABOLISM ] 記憶代謝與衰減公式

將上下文作為物理載體，按時間與重要度衰減權重，主動淘汰低權重資訊；Agent 狀態同步與指令發送均依賴本地 Markdown 文件的異步讀寫。

在不使用額外程式碼 Hook 或 Harness 控制器的前提下，僅透過自然語言與 XML 複合格式，在複雜工具呼叫與認知操作中，使 Agent 進入類似冪等狀態機的狀態。

確保相同的前置 Context 與系統約束，能穩定、可複現且無偏差地產生完全相同的執行路徑與結果。這並非正規學術研究，而是我個人的興趣實作與長期累積。

01 / 07