商業廣告攝影與需求轉譯
Hi Paul,我是 Kent,主要在台灣從事商業廣告攝影工作,成立公司也邁入第 10 年。對攝影與影像處理,還有客戶關係維護有自己的一套經驗與理解。
原本在 AI 應用與學習上最自然的延伸,是把生成式影像技術更深入地接進商業攝影流程;但早期 LLM 真實使用上的摩擦力與痛點,反而讓我把注意力拉向了另一條路。
Personal Introduction
Hi Paul,我是 Kent,主要在台灣從事商業廣告攝影工作,成立公司也邁入第 10 年。對攝影與影像處理,還有客戶關係維護有自己的一套經驗與理解。
原本在 AI 應用與學習上最自然的延伸,是把生成式影像技術更深入地接進商業攝影流程;但早期 LLM 真實使用上的摩擦力與痛點,反而讓我把注意力拉向了另一條路。
GPT-3 到 GPT-4 時開始入坑了解 AI。當時主流還不是多模態模型,因此也嘗試使用圖像生成領域流行的 Stable Diffusion 等模型,並搭配 ComfyUI 建置影像工作流。
不過我沒有只專注於影像生成應用上,反而因為那時初期對 LLM 的長上下文遺忘與丟失、容易迎合對話以及幻覺,每次開啟 chat 都是新的 context,很難累積並持續深入解決問題。這一系列初期 LLM 病徵讓我不滿,所以自己開始嘗試自行摸索解決方法。
當時反覆遇到的問題包括長上下文遺忘與 Lost in the Middle、對使用者過度迎合、未驗證資訊上的幻覺,以及每個新 chat 都像從零開始,難以累積成穩定工作狀態。
希望模型能穩定維持特定的 reasoning policy / task posture:不過度迎合、不急著完成、不假裝確定,並在工具使用前後保留反思與狀態更新。
最早的做法其實很像自然語言手記:把上一輪對話裡重要的狀態、規範與判斷寫下來,再注入新的對話,試圖復現前一次 context。
隨著內容增加,才逐步轉向 Markdown 與更有結構的自然語言。回頭看,這條路很接近現在的 Skill、AGENTS.md、CLAUDE.md 等作法。
當重新注入的 Context 不斷累積,我發現只用 Markdown 也逐漸面臨瓶頸。於是開始嘗試自建一套有系統的內容標注規範,用來加強文本結構。
後期再加入有系統性的 XML 標籤,配合 Markdown 形成複合格式。曾嘗試一次性注入 128K 個人行為規範文本,在極長對話、接近 context 滿的狀態下,一致性與穩定性仍然還不錯。
進入 2026 年 Agent CLI 工具快速爆發後,開始用 VS Code 搭配 CLI Agent 做 coding 嘗試,一些簡單的 coding 嘗試跟造了一些 Agent 工具的輪子...例如嘗試不靠RAG,只靠文本與代謝機制的Agent 記憶與學習系統(IPL),以及以"Everything is a file"精神,只透過檔案傳遞達成跨模型服務商的多Agent CLI 工具交互,目前可讓 Claude Code、Codex 等不同 CLI Agent 同時異步溝通協作。
把 in-context learning 從單次對話延伸到整個 project;不是訓練模型權重,而是用文本、蒸餾記憶與 guard rail 延續專案中的學習。
我覺得比較值得一提的是,前面提到的 Agent 記憶代謝與交互協作,其實延續了 chatbot 時期那套有系統的內容標注規範。後來把它用在 Agent 上,目標不是用 hook 或 harness 從外部硬控,而是靠自然語言、結構化文本與流程約束。
在多輪複雜 tool use、以及需要 Agent 主動認知操作交替運行時,仍希望它能穩定執行同一套規範,交出一致、可復現的結果。簡單說,是企圖讓 Agent 進入接近 冪等狀態機 的狀態;這不是正規研究,也還有很多優化空間,比較像個人興趣下的長期實作。