项目 · 游盛巍 (Shengwei You)

01 · Agent 平台

OC1: Agent 安全控制系统

多供应商 Agent 栈, 配 TLA+ 形式化验证过的安全回路。

状态已交付 · 生产级

技术栈Python · FastAPI · TLA+ · Solidity

规模18,400+ 行 · 7 份合约 · 14 套测试

JD 对应Agent Harness · 评测 · Trace · 人在环

问题

前沿模型调用会以三种 Demo 看不到的方式失败: 供应商宕机、prompt injection、静默策略漂移。聊天机器人 Demo 不需要管这些; 生产级 Agent 系统必须 fail safe, 不是 fail loud。

动机

我要的是一套敢把钱和真用户放上去的底盘。意味着 kill-circuit 要 可证明 安全 (不是希望它安全), 并且每一次外部调用都要可观测、可回滚。

具体造了什么

跨 OpenAI、Anthropic、本地 Ollama 的多供应商 LLM 编排, 带自动 failover、内容哈希磁盘缓存、逐次调用的成本/延迟/token 记账。一台 TLA+ 形式化验证过的安全状态机在每次动作前把关; prompt-injection 检测在输入路径上跑; 一个 EVM 执行层处理链上副作用; 一台 RAG 策略 oracle 把 Agent 锚定在我自己的文档库里。

我一个人做了什么

端到端: 架构、TLA+ 规格、Agent 代码、Solidity 合约、评测框架, 以及一条命令跑完整个套件的流水线。18,400+ 行 Python、7 份 Solidity 合约、14 套测试; 5,866,037 个 TLA+ 状态, 零违例。

3.9s

端到端 P95 延迟

<5ms

安全回路开销

5.86M

TLA+ 状态, 零违例

100/100

自适应 RL 攻击全部存活

安全 vs. 速度: kill-circuit 的代价

OC1 压测, 1,000 次混合动作请求

这意味着什么

安全回路每次调用多花不到 1 秒, 而且是可证明正确的, 所以我愿意拿这点延迟换故障率。"希望 LLM 这次别出错"在 P95 图上看不出来, 但在事故复盘里看得很清楚。

开启安全基线

这个项目对 JD 有什么用

OC1 是我能拿出来的最接近教科书版 Agent Harness 的东西: 工具调用、评测、Trace、可观测性、人在环 checkpoint、sandbox。TLA+ kill-circuit 是大多数团队跳过不做的那一块, 也是把 Demo 变成能上用户的系统的关键。

多供应商 failover TLA+ 模型检验 prompt-injection F1 0.765 Q-learning 红队 EVM 执行 RAG 策略 oracle content-hash 缓存逐次调用遥测

02 · Web3 Chatbot · DeFi

OC2: 链上多 Agent 辩论

三个 LLM 角色互相辩论, 判决在链上执行。

状态已交付 · 76 套 Foundry 测试全通过

技术栈Solidity 0.8.23 · Foundry · ECDSA · EVM

架构Proposer · Challenger · Judge

JD 对应多 Agent · 工具调用 · 评测 · Trace

问题

DeFi 动作常由单一签名人或小规模多签把守, 一次失误的调用或一把被攻破的私钥就能清空一个协议。加第二个签名人没用, 如果他只是给第一个背书的话。

动机

同行评审比单人评审强 (独立的 Challenger 强迫 Proposer 为自己的方案辩护)。同一思路能让自主 Agent 比单次 LLM 调用安全; 前提是你有密码学收据, 不是氛围感。否则只是演戏。

具体造了什么

一个三角色辩论模式: Proposer 起草 DeFi 动作, Challenger 攻击它, Judge 提交判决, 三方都要在辩论记录上签名。完整辩论做哈希后写到链上, Foundry 测试通过的 Solidity 栈 (DebateRegistry、JudgeCommitment、SlashingPool、EmergencyStop) 把守执行。任一环节异常, EmergencyStop 立刻停手, 让人接手。

我一个人做了什么

又是端到端。模式、提示工程、Agent 代码、4 份 Solidity 合约、ECDSA 验证、辩论记录哈希、76 套 Foundry 测试、gas 基准。最有意思的一步是: 在保留可密码学验证审计链的前提下, 链上成本还比 Optimism fault-proof 基线低 8.7%。

90.2%

Judge 准确率 (BCa 95% CI [87.6, 92.8])

95%

真实链上动作专家一致率

16.8s

端到端辩论延迟

-8.7%

Gas 对比 Optimism fault-proof

Proposer / Challenger / Judge 流程与检查点

OC2 设计, 4 份 Solidity 合约, 线上

这个项目对 JD 有什么用

OC2 是 多 Agent Harness 模式的生产版本。Proposer / Challenger / Judge 直接映射到任何 Agent 平台都需要的三个角色 (规划者、批评者、把关人)。链上收据让评测外于 LLM, 不只是 LLM 给自己打分。

Foundry 测试 ECDSA 验证辩论记录哈希 slashing pool EmergencyStop 多 Agent 评测 gas 优化

03 · 稳定币 · IEEE ICBC 2026

MVF-Composer: 稳定币储备控制器

12 个 Agent 的稳定币锚定救援系统, 已被 IEEE ICBC 2026 接收。

状态已接收 · IEEE ICBC 2026

技术栈Stress Harness · 信任加权 MVF · 3 家 LLM

规模12 Agent · 1,200 次模拟 · 约 12,500 行

JD 对应Web3 风控 · 多 Agent 评测 · 对抗鲁棒性

问题

稳定币储备控制器通常只在平静期数据上估协方差。压力一来, 协方差会被低估约 7.17× (“2020 遗漏”), 当时最优的权重恰好变成最脆弱的那一组; 2020/03 和 2023/03 的脱锚就是这么来的。

思路

12 个 LLM Agent 跨 4 类角色 (trader / LP / arbitrageur / attacker) 在 Stress Harness 内对抗冲击 (t=30 注入)。信任分数 T(a) 给协同动作或砸盘行为降权, 上面挂一层受约束的均值-方差优化器, 对压力增广后的协方差做再平衡。

具体造了什么

12 个并发 LLM Agent (5 traders、3 LPs、2 arbitrageurs、2 attackers) 跨 OpenAI、Anthropic、DeepSeek 调度, Pydantic 校验输出, 进入 trust-weighted 风险状态, 再到受约束的均值-方差优化器。1,200 次种子化 Black-Thursday 模拟跑在消费级硬件上 (每周期 47–99 秒)。

我一个人做了什么

单作者论文, 独立工程系统: Stress Harness、trust-weighted aggregation、压力增广协方差混合, 以及 1,200 次可复现模拟。约 12,500 行带类型注解的 Python, 46 个模块。每次运行记 seed、commit hash 与时间戳。

57%

峰值锚定偏差削减 (vs. SAS 基线)

3.1×

回到 1% 带内所需 time step 加速

12

并发 LLM Agent (5/3/2/2)

1,200

seed-controlled 可复现模拟

Black Thursday 回放: MVF-Composer vs. 行业基线 (SAS)

1,200 次模拟, 锚定偏差中位数轨迹, seed 控制

怎么读这张图

冲击前两条线都贴近锚定。t=30 注入冲击后, SAS 行业基线峰值跳到 7.4%, 恢复慢; MVF-Composer 峰值 3.2%, 跨过 1% 恢复线比基线快约 3.1× (14 vs 44 个 time step)。1,200 次种子化运行的中位数轨迹。

MVF-Composer (12 Agent) SAS 行业基线

这个项目为什么重要

MVF-Composer 把 多 Agent + trust-weighted aggregation + mean-variance 模式打包进了有真实资金、真实监管的场景。IEEE 同行评审是这些数字能扛住独立审视的背书。

Stress Harness trust-weighted aggregation mean-variance 优化多供应商 LLM Pydantic v2 契约 seed 控制 IEEE ICBC 2026

04 · 预言机 · 密码学

NOC: 可密码学验证的预言机

链上 SNARK 验证, 成本是现有委员会方案的一小部分。

状态已交付 · 76 项测试 + 256 次模糊

技术栈Solidity 0.8.23 · Groth16 · BN254

Byzantine37.5% 对手下 100% 检测

JD 对应Web3 基础设施 · 安全

问题

现有预言机方案要么信一个小委员会 (便宜, 脆弱), 要么跑一套重共识 (贵, 慢)。委员会式设计被攻破过不止一次; 共识式设计把需要逐块更新的用例价格挤出可用区。

动机

密码学证明让你跳过信任假设: 验证器在链上跑, 证明本身便宜, 想撒谎的唯一方式是攻破曲线。问题是, 能不能在这个想法上搭出 L2 价格就跑得起的生产系统。

具体造了什么

一份 Solidity 0.8.23 预言机, 链上跑 Groth16 / BN254 验证, 上面挂一层 staking、slashing、reputation-weighted consensus, 处理证明拿不到的情况。76 项 Foundry 测试全过, 含 256 次模糊套件与 gas 基准。37.5% 对手下 100% Byzantine 检测率。

我一个人做了什么

端到端: Solidity 合约、Groth16 验证器集成、staking / slashing 逻辑、声誉模型、测试框架、gas 基准。L2 单次更新成本比现有 committee oracle 低 21× — 这才是它能用在生产、而不只是写在论文里的原因。

$0.04

单次更新成本 (L2)

21×

对比 committee oracle 基线

100%

Byzantine 检测 (37.5% 对手内)

76

Foundry 测试 · 256 次模糊

L2 预言机单次更新成本: NOC vs. committee 基线

L2 gas 快照, 30 gwei, ETH $3,200

这意味着什么

L2 成本下, NOC 单次更新约 4 美分。committee oracle 同样一次更新约 84 美分。这个差距决定了你能否逐块调预言机, 还是只能在不得不调的时候才调。

NOC committee oracle

这个项目对 JD 有什么用

NOC 是我作品集里的 Web3 基础设施 那块。它说明我能把密码学原语交付到生产, 并对成本/信任的权衡有足够感觉, 知道什么时候用哪个。大部分 Agent 平台团队都会遇到至少一个预言机问题, 而答案很少是"直接用 Chainlink"。

链上 Groth16 BN254 双线性配对 staking & slashing 声誉模型模糊测试 gas 优化

进行中 · 演示可申请

Web3 Agent Platform

面向 Agent Platform / Web3 Chatbot 方向 JD 的生产级 Agent 平台, 目前做最后整合。Trace / replay、人在环 checkpoint、工具注册表、评测框架已在私有部署上端到端打通, 欢迎申请现场演示。

已经搭好的部分

工具注册表 + 策略守门的工具调用 (按工具分级的权限范围)
Trace / replay 查看器, 完整记录 LLM 调用与工具 I/O
动作边界上的人在环 checkpoint (通过 / 改写 / 拒绝)
评测框架, 带种子化回归套件, 覆盖 prompt 与工具变更
FastAPI on Cloud Run, Pydantic v2 契约, asyncio 流水线
LangGraph 编排器, 原生支持 Proposer / Challenger / Judge 角色

为 JD 做的设计选择

能力分层、模块边界、权限模型做成一等公民
Agent 执行: 规划、工具调用、上下文、结果校验、重试、状态恢复
Harness 级能力: 工具调用、workflow engine、沙箱、评测、Trace, 对 MCP 友好的 I/O
SDD-friendly: 每次改动按 spec / test / code 走, 评审按 diff 范围

为什么是"进行中"而不是"已发布"

底盘已搭好。最后 20% 是拿真实负载和真实用户跑一遍, 找出我还没想到的失败模式。我宁愿写"进行中", 也不愿装作完工然后靠运气。

LangGraph FastAPI Cloud Run Pydantic v2 Trace / replay 人在环评测框架 SDD 工作流

四个 Agent 系统, 一个人端到端交付, 每个都有数字可查。

OC1: Agent 安全控制系统

问题

动机

具体造了什么

我一个人做了什么

安全 vs. 速度: kill-circuit 的代价

这意味着什么

这个项目对 JD 有什么用

OC2: 链上多 Agent 辩论

问题

动机

具体造了什么

我一个人做了什么

Proposer / Challenger / Judge 流程与检查点

这个项目对 JD 有什么用

MVF-Composer: 稳定币储备控制器

问题

思路

具体造了什么

我一个人做了什么

Black Thursday 回放: MVF-Composer vs. 行业基线 (SAS)

怎么读这张图

这个项目为什么重要

NOC: 可密码学验证的预言机

问题

动机

具体造了什么

我一个人做了什么

L2 预言机单次更新成本: NOC vs. committee 基线

这意味着什么

这个项目对 JD 有什么用

Web3 Agent Platform

已经搭好的部分

为 JD 做的设计选择

为什么是"进行中"而不是"已发布"

想看现场演示或要代码?