Skip to content
@billion-token-one-task

billion token one task

Joule Research — The "Manhattan Project" for AI agents. Architectures that orchestrate up to 10¹² tokens toward one complex goal.

Joule — Token 量级认知架构研究

English

AI 已经走到核工业 1942 年那一步:LLM 是这个时代的浓缩铀,智力密度已经够了,缺的是引爆装置——我们在造的,就是这个。

研究判断:长时程的瓶颈不在单步智能,而在错误如何在状态中累积、检出、与回滚。


我们在做什么

Joule 是一个 Token 量级认知架构研究计划

原料已经够了——LLM 的智力密度足够。我们要造的是引爆装置:一个能把现有 AI 的智能编排、长程记忆、验证回溯约束成可靠产出的下一代任务操作系统。每把 Token 调度规模推高一个数量级,就有一整类任务和市场被打开。

我们不是让 1000 个 Agent 同时做简单任务,而是让一个 Agent 体系围绕难度逐次递增的复杂可泛化目标,进行长达数周、月,极少量人干预甚至无人干预,不出错、可回滚的有序执行。

解决这个问题,意味着 AI 系统能在无人干预下追求月级复杂目标——从工具,到自主 Agent。

已验证的能力

  • 花 $36 完成等价于一名工程师 12 个月的代码维护产出
  • 花 $51 完成等价于一支研究团队 2 年的科研论文产出

当前研究方向

三个方向从这一判断切入:

  • Token 量级编排 — 验证-修复循环、状态压缩、效率度量,面向亿级 Token 任务
  • 潜空间通信 — 用 KB/字节级连续表示替代 MB 级文本交换(我们的 512 字节压缩器在 GSM8K 上追平全 KV 基线)
  • Agent 效率科学 — 实证绘制带宽-准确率曲线、认知卡诺效率、状态压缩损失率 ε 的任务族分布

接下来 4–6 周:基于已有 1,100+ agent trajectory / 32 跨仓 PR / token 预算探针数据,实证绘制 long-horizon 可靠性曲线,定位错误累积、检出、回滚三环节的边际贡献。


如何参与

选一个研究方向,用研究提案模板在相关仓库提 issue。3 天内反馈,7–10 天单人可解;允许失败,只要可判定。做出来的人自然进入核心讨论。


当前项目

项目 简介 状态
ClawOSS 自主多 Agent 开源贡献系统 进行中
Deepgraph 基于图的 Agent 编排研究 进行中
Codex Testing Bench Codex harness 模式的系统性研究 进行中
Token 预算实验 SWE-bench 子问题上的 Token 预算探针实验 进行中
潜空间通信 多 Agent 潜空间通信的 slot-attention 压缩方案 立项中

联系方式

  • GitHub Issues & Discussions(首选)

本组织是 Joule 研究计划的一部分。"Joule(焦耳)"——如同能量的基本单位——体现了我们的核心命题:Token 量级是认知能量,架构决定了多少能量转化为有用功。

Popular repositories Loading

  1. ClawOSS ClawOSS Public

    modifications to OpenClaw that lets it autonomously make, judge, and submit & follow up PRs with 1 openclaw agent

    Swift 3 15

  2. Deepgraph Deepgraph Public

    Token-scale scientific discovery engine — autonomous hypothesis generation, experiment execution, and knowledge graph synthesis

    Python 1 4

  3. .github .github Public

    Organization profile, charter, CLA, and proposal templates for the Joule research program

    1

  4. latent-communication latent-communication Public

    Open call for collaborators on latent communication research for LLM agents

    1

  5. Kemal-FirstExplora-tokenbudget-probeexp-on-83-subquestion-on-Swe-bench Kemal-FirstExplora-tokenbudget-probeexp-on-83-subquestion-on-Swe-bench Public

    Token budget exp on 83 swe-bench sub questions

    Python

  6. Codex_testing_bench Codex_testing_bench Public

    systematic investigations and research conclusions into the harness patterns of Codex

    Rust

Repositories

Showing 7 of 7 repositories

People

This organization has no public members. You must be a member to see who’s a part of this organization.

Top languages

Loading…

Most used topics

Loading…