每个项目都是真实系统、真实测量。我自己定义问题、写实现、装好观测, 并写清楚哪里有效、哪里有限制。点 Tab 看完整的问题、动机、贡献与可复现证据; 没有"待补充"的部分。
多供应商 Agent 栈, 配 TLA+ 形式化验证过的安全回路。
前沿模型调用会以三种 Demo 看不到的方式失败: 供应商宕机、prompt injection、静默策略漂移。聊天机器人 Demo 不需要管这些; 生产级 Agent 系统必须 fail safe, 不是 fail loud。
我要的是一套敢把钱和真用户放上去的底盘。意味着 kill-circuit 要 可证明 安全 (不是希望它安全), 并且每一次外部调用都要可观测、可回滚。
跨 OpenAI、Anthropic、本地 Ollama 的多供应商 LLM 编排, 带自动 failover、内容哈希磁盘缓存、逐次调用的成本/延迟/token 记账。一台 TLA+ 形式化验证过的安全状态机在每次动作前把关; prompt-injection 检测在输入路径上跑; 一个 EVM 执行层处理链上副作用; 一台 RAG 策略 oracle 把 Agent 锚定在我自己的文档库里。
端到端: 架构、TLA+ 规格、Agent 代码、Solidity 合约、评测框架, 以及一条命令跑完整个套件的流水线。18,400+ 行 Python、7 份 Solidity 合约、14 套测试; 5,866,037 个 TLA+ 状态, 零违例。
安全回路每次调用多花不到 1 秒, 而且是可证明正确的, 所以我愿意拿这点延迟换故障率。"希望 LLM 这次别出错"在 P95 图上看不出来, 但在事故复盘里看得很清楚。
OC1 是我能拿出来的最接近教科书版 Agent Harness 的东西: 工具调用、评测、Trace、可观测性、人在环 checkpoint、sandbox。TLA+ kill-circuit 是大多数团队跳过不做的那一块, 也是把 Demo 变成能上用户的系统的关键。
三个 LLM 角色互相辩论, 判决在链上执行。
DeFi 动作常由单一签名人或小规模多签把守, 一次失误的调用或一把被攻破的私钥就能清空一个协议。加第二个签名人没用, 如果他只是给第一个背书的话。
同行评审比单人评审强 (独立的 Challenger 强迫 Proposer 为自己的方案辩护)。同一思路能让自主 Agent 比单次 LLM 调用安全; 前提是你有密码学收据, 不是氛围感。否则只是演戏。
一个三角色辩论模式: Proposer 起草 DeFi 动作, Challenger 攻击它, Judge 提交判决, 三方都要在辩论记录上签名。完整辩论做哈希后写到链上, Foundry 测试通过的 Solidity 栈 (DebateRegistry、JudgeCommitment、SlashingPool、EmergencyStop) 把守执行。任一环节异常, EmergencyStop 立刻停手, 让人接手。
又是端到端。模式、提示工程、Agent 代码、4 份 Solidity 合约、ECDSA 验证、辩论记录哈希、76 套 Foundry 测试、gas 基准。最有意思的一步是: 在保留可密码学验证审计链的前提下, 链上成本还比 Optimism fault-proof 基线低 8.7%。
OC2 是 多 Agent Harness 模式的生产版本。Proposer / Challenger / Judge 直接映射到任何 Agent 平台都需要的三个角色 (规划者、批评者、把关人)。链上收据让评测 外于 LLM, 不只是 LLM 给自己打分。
12 个 Agent 的稳定币锚定救援系统, 已被 IEEE ICBC 2026 接收。
稳定币储备控制器通常只在平静期数据上估协方差。压力一来, 协方差会被低估约 7.17× (“2020 遗漏”), 当时最优的权重恰好变成最脆弱的那一组; 2020/03 和 2023/03 的脱锚就是这么来的。
12 个 LLM Agent 跨 4 类角色 (trader / LP / arbitrageur / attacker) 在 Stress Harness 内对抗冲击 (t=30 注入)。信任分数 T(a) 给协同动作或砸盘行为降权, 上面挂一层受约束的均值-方差优化器, 对压力增广后的协方差做再平衡。
12 个并发 LLM Agent (5 traders、3 LPs、2 arbitrageurs、2 attackers) 跨 OpenAI、Anthropic、DeepSeek 调度, Pydantic 校验输出, 进入 trust-weighted 风险状态, 再到受约束的均值-方差优化器。1,200 次种子化 Black-Thursday 模拟跑在消费级硬件上 (每周期 47–99 秒)。
单作者论文, 独立工程系统: Stress Harness、trust-weighted aggregation、压力增广协方差混合, 以及 1,200 次可复现模拟。约 12,500 行带类型注解的 Python, 46 个模块。每次运行记 seed、commit hash 与时间戳。
冲击前两条线都贴近锚定。t=30 注入冲击后, SAS 行业基线峰值跳到 7.4%, 恢复慢; MVF-Composer 峰值 3.2%, 跨过 1% 恢复线比基线快约 3.1× (14 vs 44 个 time step)。1,200 次种子化运行的中位数轨迹。
MVF-Composer 把 多 Agent + trust-weighted aggregation + mean-variance 模式打包进了有真实资金、真实监管的场景。IEEE 同行评审是这些数字能扛住独立审视的背书。
链上 SNARK 验证, 成本是现有委员会方案的一小部分。
现有预言机方案要么信一个小委员会 (便宜, 脆弱), 要么跑一套重共识 (贵, 慢)。委员会式设计被攻破过不止一次; 共识式设计把需要逐块更新的用例价格挤出可用区。
密码学证明让你跳过信任假设: 验证器在链上跑, 证明本身便宜, 想撒谎的唯一方式是攻破曲线。问题是, 能不能在这个想法上搭出 L2 价格就跑得起的生产系统。
一份 Solidity 0.8.23 预言机, 链上跑 Groth16 / BN254 验证, 上面挂一层 staking、slashing、reputation-weighted consensus, 处理证明拿不到的情况。76 项 Foundry 测试全过, 含 256 次模糊套件与 gas 基准。37.5% 对手下 100% Byzantine 检测率。
端到端: Solidity 合约、Groth16 验证器集成、staking / slashing 逻辑、声誉模型、测试框架、gas 基准。L2 单次更新成本比现有 committee oracle 低 21× — 这才是它能用在生产、而不只是写在论文里的原因。
L2 成本下, NOC 单次更新约 4 美分。committee oracle 同样一次更新约 84 美分。这个差距决定了你能否逐块调预言机, 还是只能在不得不调的时候才调。
NOC 是我作品集里的 Web3 基础设施 那块。它说明我能把密码学原语交付到生产, 并对成本/信任的权衡有足够感觉, 知道什么时候用哪个。大部分 Agent 平台团队都会遇到至少一个预言机问题, 而答案很少是"直接用 Chainlink"。
面向 Agent Platform / Web3 Chatbot 方向 JD 的生产级 Agent 平台, 目前做最后整合。Trace / replay、人在环 checkpoint、工具注册表、评测框架已在私有部署上端到端打通, 欢迎申请现场演示。
底盘已搭好。最后 20% 是拿真实负载和真实用户跑一遍, 找出我还没想到的失败模式。我宁愿写"进行中", 也不愿装作完工然后靠运气。
代码在签 NDA 后可分享。Web3 Agent Platform 演示也可申请; 排期紧的话会先发一段 Loom 录屏兜底。每封邮件我都看。