商業廣告攝影與需求轉譯

主要在台灣從事商業廣告攝影工作,成立影像公司已邁入第 10 年

核心經驗在於高精度視覺控制、影像處理演算法,以及將客戶抽象需求轉譯為確定性視覺資產的溝通機制。這份對於確定性的極致追求,成為日後探索 AI 邏輯控制的底色。

從 Stable Diffusion 到 ComfyUI

於 GPT-3 到 GPT-4 爆發期切入 AI 實作。早期專注於圖像生成領域,利用 Stable DiffusionComfyUI 節點式架構建置自動化影像工作流,並成功導入實際的商業廣告攝影生產線。

然而,在優化工作流的過程中,發現圖像生成僅是下游應用,轉而對上游 LLM 的推理控制機制產生了更本質的興趣。

早期 LLM 的結構性病徵

在實戰與調試中,我深感早期大型語言模型存在若干難以逾越的結構病徵:長上下文失憶(Lost in the Middle)、迎合對話傾向、在未驗證資訊上產生幻覺,以及每次對話皆從零開始、無法累積工作狀態的無狀態性。

我希望模型能穩定維持特定的推理策略(Reasoning Policy),在工具呼叫前後保留狀態更新,而非扮演討好使用者的聊天機器人。

結構化文本與 Context 復現

為了克服無狀態的限制,我開始嘗試以結構化 Markdown 文本,在會話開啟時重新注入並復現上一段對話的上下文狀態。

這種針對正確思考路徑與行為準則替 LLM 進行結構錨定的做法,在後來的業界實踐中,被證明與 Skill 組件、AGENTS.md 和 CLAUDE.md 等配置規範的設計精神高度吻合。

XML 與 Markdown 複合格式

為解決單純 Markdown 在 context 膨脹時的語義偏移,我自建了 XML 與 Markdown 複合內容標記規範

透過 XML 嚴格的標記階層約束,與 Markdown 的高可讀性,曾嘗試一次注入達 128K 的個人行為規範文本,使模型在極長對話中仍能保持極佳的行為一致性與推理紀律。

[ SCHEMA ] XML 複合標註格式示意
<rules>
  <rule id="honesty">寧可承認無知,不可推論迎合。</rule>
</rules>

記憶代謝與 CLI 多代理協作

自造了不依賴向量資料庫(RAG)、僅靠文本標記與自然衰減的 記憶代謝系統。並基於 Everything is a file 的精神,以檔案異步傳遞達成跨服務商多 Agent 的協同工作。

此機制目前已成功使 Claude Code 與 Codex 等 CLI Agents 進行雙向狀態對齊與任務協作。

[ METABOLISM ] 記憶代謝與衰減公式

將上下文作為物理載體,按時間與重要度衰減權重,主動淘汰低權重資訊;Agent 狀態同步與指令發送均依賴本地 Markdown 文件的異步讀寫。

逼近冪等狀態機

在不使用額外程式碼 Hook 或 Harness 控制器的前提下,僅透過自然語言與 XML 複合格式,在複雜工具呼叫與認知操作中,使 Agent 進入類似 冪等狀態機 的狀態。

確保相同的前置 Context 與系統約束,能穩定、可複現且無偏差地產生完全相同的執行路徑與結果。這並非正規學術研究,而是我個人的興趣實作與長期累積。

01 / 07