專案

四個 Agent 系統, 一個人端到端交付, 每個都有數字可查。

每個專案都是真實系統、真實測量。我自己定義問題、寫實作、裝好觀測, 並寫清楚哪裡有效、哪裡有限制。點 Tab 看完整的問題、動機、貢獻與可重現證據; 沒有「待補充」的部分。

01OC1 · Agent 安全 02OC2 · 鏈上多 Agent 辯論 03MVF · 穩定幣 (ICBC 2026) 04NOC · SNARK 預言機 05Web3 Agent Platform
01 · Agent 平台

OC1: Agent 安全控制系統

多供應商 Agent 棧, 配 TLA+ 形式化驗證過的安全迴路。

狀態已交付 · 生產級
技術棧Python · FastAPI · TLA+ · Solidity
規模18,400+ 行 · 7 份合約 · 14 套測試
JD 對應Agent Harness · 評測 · Trace · 人在環

問題

前沿模型呼叫會以三種 Demo 看不到的方式失敗: 供應商宕機、prompt injection、靜默策略漂移。聊天機器人 Demo 不需要管這些; 生產級 Agent 系統必須 fail safe, 不是 fail loud。

動機

我要的是一套敢把錢和真實使用者放上去的底盤。意味著 kill-circuit 要 可證明 安全 (不是希望它安全), 並且每一次外部呼叫都要可觀測、可回滾。

具體造了什麼

跨 OpenAI、Anthropic、本地 Ollama 的多供應商 LLM 編排, 帶自動 failover、content-hash 磁碟快取、逐次呼叫的成本/延遲/token 記帳。一台 TLA+ 形式化驗證過的安全狀態機在每次動作前把關; prompt-injection 偵測在輸入路徑上跑; 一個 EVM 執行層處理鏈上副作用; 一台 RAG 策略 oracle 把 Agent 錨定在我自己的文件庫裡。

我一個人做了什麼

端到端: 架構、TLA+ 規格、Agent 程式碼、Solidity 合約、評測框架, 以及一條指令跑完整個套件的 pipeline。18,400+ 行 Python、7 份 Solidity 合約、14 套測試; 5,866,037 個 TLA+ 狀態, 零違規。

3.9s
端到端 P95 延遲
<5ms
安全迴路開銷
5.86M
TLA+ 狀態, 零違規
100/100
自適應 RL 攻擊全部存活

安全 vs. 速度: kill-circuit 的代價

OC1 壓測, 1,000 次混合動作請求
0 2s 5s 8s 10s 3.9s 開啟安全迴路 2.95s 關閉 (基線) +0.95s · 可接受

這代表什麼

安全迴路每次呼叫多花不到 1 秒, 而且是可證明正確的, 所以我願意拿這點延遲換故障率。「希望 LLM 這次別出錯」在 P95 圖上看不出來, 但在事故復盤裡看得很清楚。

開啟安全 基線

這個專案對 JD 有什麼用

OC1 是我能拿出來最接近教科書版 Agent Harness 的東西: 工具呼叫、評測、Trace、可觀測性、人在環 checkpoint、sandbox。TLA+ kill-circuit 是大多數團隊跳過不做的那一塊, 也是把 Demo 變成能上使用者的系統的關鍵。

多供應商 failover TLA+ 模型檢驗 prompt-injection F1 0.765 Q-learning 紅隊 EVM 執行 RAG 策略 oracle content-hash 快取 逐次呼叫遙測
02 · Web3 Chatbot · DeFi

OC2: 鏈上多 Agent 辯論

三個 LLM 角色互相辯論, 判決在鏈上執行。

狀態已交付 · 76 套 Foundry 測試全通過
技術棧Solidity 0.8.23 · Foundry · ECDSA · EVM
架構Proposer · Challenger · Judge
JD 對應多 Agent · 工具呼叫 · 評測 · Trace

問題

DeFi 動作常由單一簽名人或小規模多簽把守, 一次失誤的呼叫或一把被攻破的私鑰就能清空一個協議。加第二個簽名人沒用, 如果他只是給第一個背書的話。

動機

同儕審查比單人審查強 (獨立的 Challenger 強迫 Proposer 為自己的方案辯護)。同一個思路能讓自主 Agent 比單次 LLM 呼叫安全; 前提是你有密碼學收據, 不是氛圍感。否則只是演戲。

具體造了什麼

一個三角色辯論模式: Proposer 起草 DeFi 動作, Challenger 攻擊它, Judge 提交判決, 三方都要在辯論紀錄上簽名。完整辯論做雜湊後寫到鏈上, Foundry 測試通過的 Solidity 棧 (DebateRegistry、JudgeCommitment、SlashingPool、EmergencyStop) 把守執行。任一環節異常, EmergencyStop 立刻停手, 讓人接手。

我一個人做了什麼

又是端到端。模式、提示工程、Agent 程式碼、4 份 Solidity 合約、ECDSA 驗證、辯論紀錄雜湊、76 套 Foundry 測試、gas 基準。最有意思的一步是: 在保留可密碼學驗證審計鏈的前提下, 鏈上成本還比 Optimism fault-proof 基線低 8.7%。

90.2%
Judge 準確率 (BCa 95% CI [87.6, 92.8])
95%
真實鏈上動作專家一致率
16.8s
端到端辯論延遲
-8.7%
Gas 對比 Optimism fault-proof

Proposer / Challenger / Judge 流程與檢查點

OC2 設計, 4 份 Solidity 合約, 線上
PROPOSER 起草動作 CHALLENGER 攻擊方案 JUDGE 提交判決 執行 人工複核 緊急停止 鏈上 ECDSA + 辯論紀錄雜湊 動作 批評 通過 存疑 Foundry 測試套件 · 76 項 單元 (28) · 對抗 (24) · Gas 基準 (12) · 模糊 (12) 4 份合約驗證通過; ECDSA + 辯論紀錄雜湊在鏈上強制執行

這個專案對 JD 有什麼用

OC2 是 多 Agent Harness 模式的生產版本。Proposer / Challenger / Judge 直接對應到任何 Agent 平台都需要的這三個角色 (規劃者、批評者、把關人)。鏈上收據讓評測 外於 LLM, 不只是 LLM 給自己打分。

Foundry 測試 ECDSA 驗證 辯論紀錄雜湊 slashing pool EmergencyStop 多 Agent 評測 gas 優化
03 · 穩定幣 · IEEE ICBC 2026

MVF-Composer: 穩定幣儲備控制器

12 個 Agent 的穩定幣錨定救援系統, 已被 IEEE ICBC 2026 接收。

狀態已接收 · IEEE ICBC 2026
技術棧Stress Harness · 信任加權 MVF · 3 家 LLM
規模12 Agent · 1,200 次模擬 · 約 12,500 行
JD 對應Web3 風控 · 多 Agent 評測 · 對抗魯棒性

問題

穩定幣儲備控制器通常只在平靜期資料上估協方差。壓力一來, 協方差會被低估約 7.17× (“2020 遺漏”), 當時最優的權重反而變成最脆弱的那一組; 2020/03 與 2023/03 的脫錨就是這樣發生的。

思路

12 個 LLM Agent 跨 4 類角色 (trader / LP / arbitrageur / attacker) 在 Stress Harness 內對抗衝擊 (t=30 注入)。信任分數 T(a) 對協同動作或砸盤行為降權, 上層接一個受約束的均值-方差最佳化器, 對壓力增廣後的協方差做再平衡。

具體造了什麼

12 個並發 LLM Agent (5 traders、3 LPs、2 arbitrageurs、2 attackers) 跨 OpenAI、Anthropic、DeepSeek 調度, 輸出由 Pydantic 校驗, 進入 trust-weighted 風險狀態, 再到受約束的均值-方差最佳化器。1,200 次種子化 Black-Thursday 模擬跑在消費級硬體上 (每週期 47–99 秒)。

我一個人做了什麼

單作者論文, 獨立工程系統: Stress Harness、trust-weighted aggregation、壓力增廣協方差混合, 以及 1,200 次可重現模擬。約 12,500 行帶型別註記的 Python, 46 個模組。每次執行記下 seed、commit hash 與時戳。

57%
峰值錨定偏差削減 (vs. SAS 基線)
3.1×
回到 1% 帶內 time step 加速
12
並發 LLM Agent (5/3/2/2)
1,200
seed-controlled 可重現模擬

Black Thursday 回放: MVF-Composer vs. 業界基線 (SAS)

1,200 次模擬, 錨定偏差中位數軌跡, seed 控制
0% 8% 4% 時間步 → 衝擊後推進 錨定偏差 衝擊 @ t=30 1% 恢復線 MVF-Composer SAS 業界基線 峰值 3.2%

怎麼讀這張圖

衝擊前兩條線都貼近錨定。t=30 注入衝擊後, SAS 業界基線峰值跳到 7.4%, 恢復慢; MVF-Composer 峰值 3.2%, 跨過 1% 恢復線比基線快約 3.1× (14 vs 44 個 time step)。1,200 次種子化執行的中位數軌跡。

MVF-Composer (12 Agent) SAS 業界基線

這個專案為什麼重要

MVF-Composer 把 多 Agent + trust-weighted aggregation + mean-variance 模式打包進有真實資金、真實監管的場景。IEEE 同儕審查是這些數字能扛住獨立檢驗的背書。

Stress Harness trust-weighted aggregation mean-variance 最佳化 多供應商 LLM Pydantic v2 契約 seed 控制 IEEE ICBC 2026
04 · 預言機 · 密碼學

NOC: 可密碼學驗證的預言機

鏈上 SNARK 驗證, 成本是現有委員會方案的一小部分。

狀態已交付 · 76 項測試 + 256 次模糊
技術棧Solidity 0.8.23 · Groth16 · BN254
Byzantine37.5% 對手下 100% 偵測
JD 對應Web3 基礎設施 · 安全

問題

現有預言機方案要麼信一個小委員會 (便宜, 脆弱), 要麼跑一套重共識 (貴, 慢)。委員會式設計被攻破過不止一次; 共識式設計把需要逐塊更新的用例價格擠出可用區。

動機

密碼學證明讓你跳過信任假設: 驗證器在鏈上跑, 證明本身便宜, 想撒謊的唯一方式是攻破曲線。問題是, 能不能在這個想法上搭出 L2 價格就跑得起的生產系統。

具體造了什麼

一份 Solidity 0.8.23 預言機, 鏈上跑 Groth16 / BN254 驗證, 上面掛一層 staking、slashing、reputation-weighted consensus, 處理證明拿不到的情況。76 項 Foundry 測試全過, 含 256 次模糊套件與 gas 基準。37.5% 對手下 100% Byzantine 偵測率。

我一個人做了什麼

端到端: Solidity 合約、Groth16 驗證器整合、staking / slashing 邏輯、聲譽模型、測試框架、gas 基準。L2 單次更新成本比現有 committee oracle 低 21× — 這才是它能用於生產、而不只是寫在論文裡的原因。

$0.04
單次更新成本 (L2)
21×
對比 committee oracle 基線
100%
Byzantine 偵測 (37.5% 對手內)
76
Foundry 測試 · 256 次模糊

L2 預言機單次更新成本: NOC vs. committee 基線

L2 gas 快照, 30 gwei, ETH $3,200
$0 $0.50 $0.75 $1.00 $0.04 NOC (Groth16) $0.84 委員會基線 便宜 21×

這代表什麼

L2 成本下, NOC 單次更新約 4 美分。committee oracle 同一更新約 84 美分。這個差距決定了你能否逐塊叫預言機, 還是只能在不得不叫的時候才叫。

NOC committee oracle

這個專案對 JD 有什麼用

NOC 是我作品集裡的 Web3 基礎設施 那塊。它說明我能把密碼學原語交付到生產, 並對成本/信任的權衡有足夠感覺, 知道什麼時候用哪個。大部分 Agent 平台團隊都會遇到至少一個預言機問題, 而答案很少是「直接用 Chainlink」。

鏈上 Groth16 BN254 雙線性配對 staking & slashing 聲譽模型 模糊測試 gas 優化
進行中 · 展示可申請

Web3 Agent Platform

面向 Agent Platform / Web3 Chatbot 方向 JD 的生產級 Agent 平台, 目前做最後整合。Trace / replay、人在環 checkpoint、工具註冊表、評測框架已在私有部署上端到端打通, 歡迎申請現場展示。

已經搭好的部分

  • 工具註冊表 + 策略守門的工具呼叫 (按工具分級的權限範圍)
  • Trace / replay 檢視器, 完整記錄 LLM 呼叫與工具 I/O
  • 動作邊界上的人在環 checkpoint (通過 / 改寫 / 拒絕)
  • 評測框架, 含種子化回歸套件, 覆蓋 prompt 與工具變更
  • FastAPI on Cloud Run, Pydantic v2 契約, asyncio pipeline
  • LangGraph 編排器, 原生支援 Proposer / Challenger / Judge 角色

為 JD 做的設計選擇

  • 能力分層、模組邊界、權限模型做成一等公民
  • Agent 執行: 規劃、工具呼叫、上下文、結果校驗、重試、狀態恢復
  • Harness 級能力: 工具呼叫、workflow engine、沙箱、評測、Trace, 對 MCP 友善的 I/O
  • SDD-friendly: 每次改動按 spec / test / code 走, 評審按 diff 範圍

為什麼是「進行中」而不是「已發布」

底盤已搭好。最後 20% 是拿真實負載和真實使用者跑一遍, 找出我還沒想到的失敗模式。我寧願寫「進行中」, 也不願假裝完工然後靠運氣。

LangGraph FastAPI Cloud Run Pydantic v2 Trace / replay 人在環 評測框架 SDD 工作流

想看現場展示或要代碼?

代碼在簽 NDA 後可分享。Web3 Agent Platform 展示也可申請; 排期緊的話會先發一段 Loom 錄影兜底。每封郵件我都看。