项目

四个 Agent 系统, 一个人端到端交付, 每个都有数字可查。

每个项目都是真实系统、真实测量。我自己定义问题、写实现、装好观测, 并写清楚哪里有效、哪里有限制。点 Tab 看完整的问题、动机、贡献与可复现证据; 没有"待补充"的部分。

01OC1 · Agent 安全 02OC2 · 链上多 Agent 辩论 03MVF · 稳定币 (ICBC 2026) 04NOC · SNARK 预言机 05Web3 Agent Platform
01 · Agent 平台

OC1: Agent 安全控制系统

多供应商 Agent 栈, 配 TLA+ 形式化验证过的安全回路。

状态已交付 · 生产级
技术栈Python · FastAPI · TLA+ · Solidity
规模18,400+ 行 · 7 份合约 · 14 套测试
JD 对应Agent Harness · 评测 · Trace · 人在环

问题

前沿模型调用会以三种 Demo 看不到的方式失败: 供应商宕机、prompt injection、静默策略漂移。聊天机器人 Demo 不需要管这些; 生产级 Agent 系统必须 fail safe, 不是 fail loud。

动机

我要的是一套敢把钱和真用户放上去的底盘。意味着 kill-circuit 要 可证明 安全 (不是希望它安全), 并且每一次外部调用都要可观测、可回滚。

具体造了什么

跨 OpenAI、Anthropic、本地 Ollama 的多供应商 LLM 编排, 带自动 failover、内容哈希磁盘缓存、逐次调用的成本/延迟/token 记账。一台 TLA+ 形式化验证过的安全状态机在每次动作前把关; prompt-injection 检测在输入路径上跑; 一个 EVM 执行层处理链上副作用; 一台 RAG 策略 oracle 把 Agent 锚定在我自己的文档库里。

我一个人做了什么

端到端: 架构、TLA+ 规格、Agent 代码、Solidity 合约、评测框架, 以及一条命令跑完整个套件的流水线。18,400+ 行 Python、7 份 Solidity 合约、14 套测试; 5,866,037 个 TLA+ 状态, 零违例。

3.9s
端到端 P95 延迟
<5ms
安全回路开销
5.86M
TLA+ 状态, 零违例
100/100
自适应 RL 攻击全部存活

安全 vs. 速度: kill-circuit 的代价

OC1 压测, 1,000 次混合动作请求
0 2s 5s 8s 10s 3.9s 开启安全回路 2.95s 关闭 (基线) +0.95s · 可接受

这意味着什么

安全回路每次调用多花不到 1 秒, 而且是可证明正确的, 所以我愿意拿这点延迟换故障率。"希望 LLM 这次别出错"在 P95 图上看不出来, 但在事故复盘里看得很清楚。

开启安全 基线

这个项目对 JD 有什么用

OC1 是我能拿出来的最接近教科书版 Agent Harness 的东西: 工具调用、评测、Trace、可观测性、人在环 checkpoint、sandbox。TLA+ kill-circuit 是大多数团队跳过不做的那一块, 也是把 Demo 变成能上用户的系统的关键。

多供应商 failover TLA+ 模型检验 prompt-injection F1 0.765 Q-learning 红队 EVM 执行 RAG 策略 oracle content-hash 缓存 逐次调用遥测
02 · Web3 Chatbot · DeFi

OC2: 链上多 Agent 辩论

三个 LLM 角色互相辩论, 判决在链上执行。

状态已交付 · 76 套 Foundry 测试全通过
技术栈Solidity 0.8.23 · Foundry · ECDSA · EVM
架构Proposer · Challenger · Judge
JD 对应多 Agent · 工具调用 · 评测 · Trace

问题

DeFi 动作常由单一签名人或小规模多签把守, 一次失误的调用或一把被攻破的私钥就能清空一个协议。加第二个签名人没用, 如果他只是给第一个背书的话。

动机

同行评审比单人评审强 (独立的 Challenger 强迫 Proposer 为自己的方案辩护)。同一思路能让自主 Agent 比单次 LLM 调用安全; 前提是你有密码学收据, 不是氛围感。否则只是演戏。

具体造了什么

一个三角色辩论模式: Proposer 起草 DeFi 动作, Challenger 攻击它, Judge 提交判决, 三方都要在辩论记录上签名。完整辩论做哈希后写到链上, Foundry 测试通过的 Solidity 栈 (DebateRegistry、JudgeCommitment、SlashingPool、EmergencyStop) 把守执行。任一环节异常, EmergencyStop 立刻停手, 让人接手。

我一个人做了什么

又是端到端。模式、提示工程、Agent 代码、4 份 Solidity 合约、ECDSA 验证、辩论记录哈希、76 套 Foundry 测试、gas 基准。最有意思的一步是: 在保留可密码学验证审计链的前提下, 链上成本还比 Optimism fault-proof 基线低 8.7%。

90.2%
Judge 准确率 (BCa 95% CI [87.6, 92.8])
95%
真实链上动作专家一致率
16.8s
端到端辩论延迟
-8.7%
Gas 对比 Optimism fault-proof

Proposer / Challenger / Judge 流程与检查点

OC2 设计, 4 份 Solidity 合约, 线上
PROPOSER 起草动作 CHALLENGER 攻击方案 JUDGE 提交判决 执行 人工复核 紧急停止 链上 ECDSA + 辩论记录哈希 动作 批评 通过 存疑 Foundry 测试套件 · 76 项 单元 (28) · 对抗 (24) · Gas 基准 (12) · 模糊 (12) 4 份合约验证通过; ECDSA + 辩论记录哈希在链上强制执行

这个项目对 JD 有什么用

OC2 是 多 Agent Harness 模式的生产版本。Proposer / Challenger / Judge 直接映射到任何 Agent 平台都需要的三个角色 (规划者、批评者、把关人)。链上收据让评测 外于 LLM, 不只是 LLM 给自己打分。

Foundry 测试 ECDSA 验证 辩论记录哈希 slashing pool EmergencyStop 多 Agent 评测 gas 优化
03 · 稳定币 · IEEE ICBC 2026

MVF-Composer: 稳定币储备控制器

12 个 Agent 的稳定币锚定救援系统, 已被 IEEE ICBC 2026 接收。

状态已接收 · IEEE ICBC 2026
技术栈Stress Harness · 信任加权 MVF · 3 家 LLM
规模12 Agent · 1,200 次模拟 · 约 12,500 行
JD 对应Web3 风控 · 多 Agent 评测 · 对抗鲁棒性

问题

稳定币储备控制器通常只在平静期数据上估协方差。压力一来, 协方差会被低估约 7.17× (“2020 遗漏”), 当时最优的权重恰好变成最脆弱的那一组; 2020/03 和 2023/03 的脱锚就是这么来的。

思路

12 个 LLM Agent 跨 4 类角色 (trader / LP / arbitrageur / attacker) 在 Stress Harness 内对抗冲击 (t=30 注入)。信任分数 T(a) 给协同动作或砸盘行为降权, 上面挂一层受约束的均值-方差优化器, 对压力增广后的协方差做再平衡。

具体造了什么

12 个并发 LLM Agent (5 traders、3 LPs、2 arbitrageurs、2 attackers) 跨 OpenAI、Anthropic、DeepSeek 调度, Pydantic 校验输出, 进入 trust-weighted 风险状态, 再到受约束的均值-方差优化器。1,200 次种子化 Black-Thursday 模拟跑在消费级硬件上 (每周期 47–99 秒)。

我一个人做了什么

单作者论文, 独立工程系统: Stress Harness、trust-weighted aggregation、压力增广协方差混合, 以及 1,200 次可复现模拟。约 12,500 行带类型注解的 Python, 46 个模块。每次运行记 seed、commit hash 与时间戳。

57%
峰值锚定偏差削减 (vs. SAS 基线)
3.1×
回到 1% 带内所需 time step 加速
12
并发 LLM Agent (5/3/2/2)
1,200
seed-controlled 可复现模拟

Black Thursday 回放: MVF-Composer vs. 行业基线 (SAS)

1,200 次模拟, 锚定偏差中位数轨迹, seed 控制
0% 8% 4% 时间步 → 冲击后推进 锚定偏差 冲击 @ t=30 1% 恢复线 MVF-Composer SAS 行业基线 峰值 3.2%

怎么读这张图

冲击前两条线都贴近锚定。t=30 注入冲击后, SAS 行业基线峰值跳到 7.4%, 恢复慢; MVF-Composer 峰值 3.2%, 跨过 1% 恢复线比基线快约 3.1× (14 vs 44 个 time step)。1,200 次种子化运行的中位数轨迹。

MVF-Composer (12 Agent) SAS 行业基线

这个项目为什么重要

MVF-Composer 把 多 Agent + trust-weighted aggregation + mean-variance 模式打包进了有真实资金、真实监管的场景。IEEE 同行评审是这些数字能扛住独立审视的背书。

Stress Harness trust-weighted aggregation mean-variance 优化 多供应商 LLM Pydantic v2 契约 seed 控制 IEEE ICBC 2026
04 · 预言机 · 密码学

NOC: 可密码学验证的预言机

链上 SNARK 验证, 成本是现有委员会方案的一小部分。

状态已交付 · 76 项测试 + 256 次模糊
技术栈Solidity 0.8.23 · Groth16 · BN254
Byzantine37.5% 对手下 100% 检测
JD 对应Web3 基础设施 · 安全

问题

现有预言机方案要么信一个小委员会 (便宜, 脆弱), 要么跑一套重共识 (贵, 慢)。委员会式设计被攻破过不止一次; 共识式设计把需要逐块更新的用例价格挤出可用区。

动机

密码学证明让你跳过信任假设: 验证器在链上跑, 证明本身便宜, 想撒谎的唯一方式是攻破曲线。问题是, 能不能在这个想法上搭出 L2 价格就跑得起的生产系统。

具体造了什么

一份 Solidity 0.8.23 预言机, 链上跑 Groth16 / BN254 验证, 上面挂一层 staking、slashing、reputation-weighted consensus, 处理证明拿不到的情况。76 项 Foundry 测试全过, 含 256 次模糊套件与 gas 基准。37.5% 对手下 100% Byzantine 检测率。

我一个人做了什么

端到端: Solidity 合约、Groth16 验证器集成、staking / slashing 逻辑、声誉模型、测试框架、gas 基准。L2 单次更新成本比现有 committee oracle 低 21× — 这才是它能用在生产、而不只是写在论文里的原因。

$0.04
单次更新成本 (L2)
21×
对比 committee oracle 基线
100%
Byzantine 检测 (37.5% 对手内)
76
Foundry 测试 · 256 次模糊

L2 预言机单次更新成本: NOC vs. committee 基线

L2 gas 快照, 30 gwei, ETH $3,200
$0 $0.50 $0.75 $1.00 $0.04 NOC (Groth16) $0.84 委员会基线 便宜 21×

这意味着什么

L2 成本下, NOC 单次更新约 4 美分。committee oracle 同样一次更新约 84 美分。这个差距决定了你能否逐块调预言机, 还是只能在不得不调的时候才调。

NOC committee oracle

这个项目对 JD 有什么用

NOC 是我作品集里的 Web3 基础设施 那块。它说明我能把密码学原语交付到生产, 并对成本/信任的权衡有足够感觉, 知道什么时候用哪个。大部分 Agent 平台团队都会遇到至少一个预言机问题, 而答案很少是"直接用 Chainlink"。

链上 Groth16 BN254 双线性配对 staking & slashing 声誉模型 模糊测试 gas 优化
进行中 · 演示可申请

Web3 Agent Platform

面向 Agent Platform / Web3 Chatbot 方向 JD 的生产级 Agent 平台, 目前做最后整合。Trace / replay、人在环 checkpoint、工具注册表、评测框架已在私有部署上端到端打通, 欢迎申请现场演示。

已经搭好的部分

  • 工具注册表 + 策略守门的工具调用 (按工具分级的权限范围)
  • Trace / replay 查看器, 完整记录 LLM 调用与工具 I/O
  • 动作边界上的人在环 checkpoint (通过 / 改写 / 拒绝)
  • 评测框架, 带种子化回归套件, 覆盖 prompt 与工具变更
  • FastAPI on Cloud Run, Pydantic v2 契约, asyncio 流水线
  • LangGraph 编排器, 原生支持 Proposer / Challenger / Judge 角色

为 JD 做的设计选择

  • 能力分层、模块边界、权限模型做成一等公民
  • Agent 执行: 规划、工具调用、上下文、结果校验、重试、状态恢复
  • Harness 级能力: 工具调用、workflow engine、沙箱、评测、Trace, 对 MCP 友好的 I/O
  • SDD-friendly: 每次改动按 spec / test / code 走, 评审按 diff 范围

为什么是"进行中"而不是"已发布"

底盘已搭好。最后 20% 是拿真实负载和真实用户跑一遍, 找出我还没想到的失败模式。我宁愿写"进行中", 也不愿装作完工然后靠运气。

LangGraph FastAPI Cloud Run Pydantic v2 Trace / replay 人在环 评测框架 SDD 工作流

想看现场演示或要代码?

代码在签 NDA 后可分享。Web3 Agent Platform 演示也可申请; 排期紧的话会先发一段 Loom 录屏兜底。每封邮件我都看。