商業廣告攝影與需求轉譯
主要在台灣從事商業廣告攝影工作,成立影像公司已邁入第 10 年。
核心經驗在於高精度視覺控制、影像處理演算法,以及將客戶抽象需求轉譯為確定性視覺資產的溝通機制。這份對於確定性的極致追求,成為日後探索 AI 邏輯控制的底色。
Personal Introduction
主要在台灣從事商業廣告攝影工作,成立影像公司已邁入第 10 年。
核心經驗在於高精度視覺控制、影像處理演算法,以及將客戶抽象需求轉譯為確定性視覺資產的溝通機制。這份對於確定性的極致追求,成為日後探索 AI 邏輯控制的底色。
於 GPT-3 到 GPT-4 爆發期切入 AI 實作。早期專注於圖像生成領域,利用 Stable Diffusion 與 ComfyUI 節點式架構建置自動化影像工作流,並成功導入實際的商業廣告攝影生產線。
然而,在優化工作流的過程中,發現圖像生成僅是下游應用,轉而對上游 LLM 的推理控制機制產生了更本質的興趣。
在實戰與調試中,我深感早期大型語言模型存在若干難以逾越的結構病徵:長上下文失憶(Lost in the Middle)、迎合對話傾向、在未驗證資訊上產生幻覺,以及每次對話皆從零開始、無法累積工作狀態的無狀態性。
我希望模型能穩定維持特定的推理策略(Reasoning Policy),在工具呼叫前後保留狀態更新,而非扮演討好使用者的聊天機器人。
為了克服無狀態的限制,我開始嘗試以結構化 Markdown 文本,在會話開啟時重新注入並復現上一段對話的上下文狀態。
這種針對正確思考路徑與行為準則替 LLM 進行結構錨定的做法,在後來的業界實踐中,被證明與 Skill 組件、AGENTS.md 和 CLAUDE.md 等配置規範的設計精神高度吻合。
為解決單純 Markdown 在 context 膨脹時的語義偏移,我自建了 XML 與 Markdown 複合內容標記規範。
透過 XML 嚴格的標記階層約束,與 Markdown 的高可讀性,曾嘗試一次注入達 128K 的個人行為規範文本,使模型在極長對話中仍能保持極佳的行為一致性與推理紀律。
<rules>
<rule id="honesty">寧可承認無知,不可推論迎合。</rule>
</rules> 自造了不依賴向量資料庫(RAG)、僅靠文本標記與自然衰減的 記憶代謝系統。並基於 Everything is a file 的精神,以檔案異步傳遞達成跨服務商多 Agent 的協同工作。
此機制目前已成功使 Claude Code 與 Codex 等 CLI Agents 進行雙向狀態對齊與任務協作。
將上下文作為物理載體,按時間與重要度衰減權重,主動淘汰低權重資訊;Agent 狀態同步與指令發送均依賴本地 Markdown 文件的異步讀寫。
在不使用額外程式碼 Hook 或 Harness 控制器的前提下,僅透過自然語言與 XML 複合格式,在複雜工具呼叫與認知操作中,使 Agent 進入類似 冪等狀態機 的狀態。
確保相同的前置 Context 與系統約束,能穩定、可複現且無偏差地產生完全相同的執行路徑與結果。這並非正規學術研究,而是我個人的興趣實作與長期累積。