每個專案都是真實系統、真實測量。我自己定義問題、寫實作、裝好觀測, 並寫清楚哪裡有效、哪裡有限制。點 Tab 看完整的問題、動機、貢獻與可重現證據; 沒有「待補充」的部分。
多供應商 Agent 棧, 配 TLA+ 形式化驗證過的安全迴路。
前沿模型呼叫會以三種 Demo 看不到的方式失敗: 供應商宕機、prompt injection、靜默策略漂移。聊天機器人 Demo 不需要管這些; 生產級 Agent 系統必須 fail safe, 不是 fail loud。
我要的是一套敢把錢和真實使用者放上去的底盤。意味著 kill-circuit 要 可證明 安全 (不是希望它安全), 並且每一次外部呼叫都要可觀測、可回滾。
跨 OpenAI、Anthropic、本地 Ollama 的多供應商 LLM 編排, 帶自動 failover、content-hash 磁碟快取、逐次呼叫的成本/延遲/token 記帳。一台 TLA+ 形式化驗證過的安全狀態機在每次動作前把關; prompt-injection 偵測在輸入路徑上跑; 一個 EVM 執行層處理鏈上副作用; 一台 RAG 策略 oracle 把 Agent 錨定在我自己的文件庫裡。
端到端: 架構、TLA+ 規格、Agent 程式碼、Solidity 合約、評測框架, 以及一條指令跑完整個套件的 pipeline。18,400+ 行 Python、7 份 Solidity 合約、14 套測試; 5,866,037 個 TLA+ 狀態, 零違規。
安全迴路每次呼叫多花不到 1 秒, 而且是可證明正確的, 所以我願意拿這點延遲換故障率。「希望 LLM 這次別出錯」在 P95 圖上看不出來, 但在事故復盤裡看得很清楚。
OC1 是我能拿出來最接近教科書版 Agent Harness 的東西: 工具呼叫、評測、Trace、可觀測性、人在環 checkpoint、sandbox。TLA+ kill-circuit 是大多數團隊跳過不做的那一塊, 也是把 Demo 變成能上使用者的系統的關鍵。
三個 LLM 角色互相辯論, 判決在鏈上執行。
DeFi 動作常由單一簽名人或小規模多簽把守, 一次失誤的呼叫或一把被攻破的私鑰就能清空一個協議。加第二個簽名人沒用, 如果他只是給第一個背書的話。
同儕審查比單人審查強 (獨立的 Challenger 強迫 Proposer 為自己的方案辯護)。同一個思路能讓自主 Agent 比單次 LLM 呼叫安全; 前提是你有密碼學收據, 不是氛圍感。否則只是演戲。
一個三角色辯論模式: Proposer 起草 DeFi 動作, Challenger 攻擊它, Judge 提交判決, 三方都要在辯論紀錄上簽名。完整辯論做雜湊後寫到鏈上, Foundry 測試通過的 Solidity 棧 (DebateRegistry、JudgeCommitment、SlashingPool、EmergencyStop) 把守執行。任一環節異常, EmergencyStop 立刻停手, 讓人接手。
又是端到端。模式、提示工程、Agent 程式碼、4 份 Solidity 合約、ECDSA 驗證、辯論紀錄雜湊、76 套 Foundry 測試、gas 基準。最有意思的一步是: 在保留可密碼學驗證審計鏈的前提下, 鏈上成本還比 Optimism fault-proof 基線低 8.7%。
OC2 是 多 Agent Harness 模式的生產版本。Proposer / Challenger / Judge 直接對應到任何 Agent 平台都需要的這三個角色 (規劃者、批評者、把關人)。鏈上收據讓評測 外於 LLM, 不只是 LLM 給自己打分。
12 個 Agent 的穩定幣錨定救援系統, 已被 IEEE ICBC 2026 接收。
穩定幣儲備控制器通常只在平靜期資料上估協方差。壓力一來, 協方差會被低估約 7.17× (“2020 遺漏”), 當時最優的權重反而變成最脆弱的那一組; 2020/03 與 2023/03 的脫錨就是這樣發生的。
12 個 LLM Agent 跨 4 類角色 (trader / LP / arbitrageur / attacker) 在 Stress Harness 內對抗衝擊 (t=30 注入)。信任分數 T(a) 對協同動作或砸盤行為降權, 上層接一個受約束的均值-方差最佳化器, 對壓力增廣後的協方差做再平衡。
12 個並發 LLM Agent (5 traders、3 LPs、2 arbitrageurs、2 attackers) 跨 OpenAI、Anthropic、DeepSeek 調度, 輸出由 Pydantic 校驗, 進入 trust-weighted 風險狀態, 再到受約束的均值-方差最佳化器。1,200 次種子化 Black-Thursday 模擬跑在消費級硬體上 (每週期 47–99 秒)。
單作者論文, 獨立工程系統: Stress Harness、trust-weighted aggregation、壓力增廣協方差混合, 以及 1,200 次可重現模擬。約 12,500 行帶型別註記的 Python, 46 個模組。每次執行記下 seed、commit hash 與時戳。
衝擊前兩條線都貼近錨定。t=30 注入衝擊後, SAS 業界基線峰值跳到 7.4%, 恢復慢; MVF-Composer 峰值 3.2%, 跨過 1% 恢復線比基線快約 3.1× (14 vs 44 個 time step)。1,200 次種子化執行的中位數軌跡。
MVF-Composer 把 多 Agent + trust-weighted aggregation + mean-variance 模式打包進有真實資金、真實監管的場景。IEEE 同儕審查是這些數字能扛住獨立檢驗的背書。
鏈上 SNARK 驗證, 成本是現有委員會方案的一小部分。
現有預言機方案要麼信一個小委員會 (便宜, 脆弱), 要麼跑一套重共識 (貴, 慢)。委員會式設計被攻破過不止一次; 共識式設計把需要逐塊更新的用例價格擠出可用區。
密碼學證明讓你跳過信任假設: 驗證器在鏈上跑, 證明本身便宜, 想撒謊的唯一方式是攻破曲線。問題是, 能不能在這個想法上搭出 L2 價格就跑得起的生產系統。
一份 Solidity 0.8.23 預言機, 鏈上跑 Groth16 / BN254 驗證, 上面掛一層 staking、slashing、reputation-weighted consensus, 處理證明拿不到的情況。76 項 Foundry 測試全過, 含 256 次模糊套件與 gas 基準。37.5% 對手下 100% Byzantine 偵測率。
端到端: Solidity 合約、Groth16 驗證器整合、staking / slashing 邏輯、聲譽模型、測試框架、gas 基準。L2 單次更新成本比現有 committee oracle 低 21× — 這才是它能用於生產、而不只是寫在論文裡的原因。
L2 成本下, NOC 單次更新約 4 美分。committee oracle 同一更新約 84 美分。這個差距決定了你能否逐塊叫預言機, 還是只能在不得不叫的時候才叫。
NOC 是我作品集裡的 Web3 基礎設施 那塊。它說明我能把密碼學原語交付到生產, 並對成本/信任的權衡有足夠感覺, 知道什麼時候用哪個。大部分 Agent 平台團隊都會遇到至少一個預言機問題, 而答案很少是「直接用 Chainlink」。
面向 Agent Platform / Web3 Chatbot 方向 JD 的生產級 Agent 平台, 目前做最後整合。Trace / replay、人在環 checkpoint、工具註冊表、評測框架已在私有部署上端到端打通, 歡迎申請現場展示。
底盤已搭好。最後 20% 是拿真實負載和真實使用者跑一遍, 找出我還沒想到的失敗模式。我寧願寫「進行中」, 也不願假裝完工然後靠運氣。
代碼在簽 NDA 後可分享。Web3 Agent Platform 展示也可申請; 排期緊的話會先發一段 Loom 錄影兜底。每封郵件我都看。