AI 已经走到核工业 1942 年那一步:LLM 是这个时代的浓缩铀,智力密度已经够了,缺的是引爆装置——我们在造的,就是这个。
研究判断:长时程的瓶颈不在单步智能,而在错误如何在状态中累积、检出、与回滚。
Joule 是一个 Token 量级认知架构研究计划。
原料已经够了——LLM 的智力密度足够。我们要造的是引爆装置:一个能把现有 AI 的智能编排、长程记忆、验证回溯约束成可靠产出的下一代任务操作系统。每把 Token 调度规模推高一个数量级,就有一整类任务和市场被打开。
我们不是让 1000 个 Agent 同时做简单任务,而是让一个 Agent 体系围绕难度逐次递增的复杂可泛化目标,进行长达数周、月,极少量人干预甚至无人干预,不出错、可回滚的有序执行。
解决这个问题,意味着 AI 系统能在无人干预下追求月级复杂目标——从工具,到自主 Agent。
- 花 $36 完成等价于一名工程师 12 个月的代码维护产出
- 花 $51 完成等价于一支研究团队 2 年的科研论文产出
三个方向从这一判断切入:
- Token 量级编排 — 验证-修复循环、状态压缩、效率度量,面向亿级 Token 任务
- 潜空间通信 — 用 KB/字节级连续表示替代 MB 级文本交换(我们的 512 字节压缩器在 GSM8K 上追平全 KV 基线)
- Agent 效率科学 — 实证绘制带宽-准确率曲线、认知卡诺效率、状态压缩损失率 ε 的任务族分布
接下来 4–6 周:基于已有 1,100+ agent trajectory / 32 跨仓 PR / token 预算探针数据,实证绘制 long-horizon 可靠性曲线,定位错误累积、检出、回滚三环节的边际贡献。
选一个研究方向,用研究提案模板在相关仓库提 issue。3 天内反馈,7–10 天单人可解;允许失败,只要可判定。做出来的人自然进入核心讨论。
| 项目 | 简介 | 状态 |
|---|---|---|
| ClawOSS | 自主多 Agent 开源贡献系统 | 进行中 |
| Deepgraph | 基于图的 Agent 编排研究 | 进行中 |
| Codex Testing Bench | Codex harness 模式的系统性研究 | 进行中 |
| Token 预算实验 | SWE-bench 子问题上的 Token 预算探针实验 | 进行中 |
| 潜空间通信 | 多 Agent 潜空间通信的 slot-attention 压缩方案 | 立项中 |
- GitHub Issues & Discussions(首选)
本组织是 Joule 研究计划的一部分。"Joule(焦耳)"——如同能量的基本单位——体现了我们的核心命题:Token 量级是认知能量,架构决定了多少能量转化为有用功。