一个开源项目最近在 GitHub 拿到了 1.94 万星,被 AAAI 2026 接收。它不处理文本,不处理图像,它学的是金融 K 线。
这件事真正值得说的,不是它能预测股价,而是它换了一种"感知世界"的方式——而这种思路,可能是接下来 AI 在很多"非文本领域"的唯一出路。
一、Tokenizer:模型和世界之间的翻译层
模型只能处理数字。Tokenizer(分词器)决定了世界上的信息以什么方式被转换成数字序列。
换句话说:tokenizer 决定了 AI 看到的是什么"样的世界"。
GPT 用的 BPE(Byte Pair Encoding,字节对编码):把文本拆成子词,基于统计频率。"understanding" → "under" + "standing"。一维序列,一个词一个词排下去。在文本场景里,这套足够好。
但金融 K 线不是文本。一根 K 线 = 5 维连续值(开盘 / 最高 / 最低 / 收盘 / 成交量),不是可以拆成子词的离散符号。
把 K 线格式化成"开盘 3200.45,最高 3210.20,最低 3195.80……"扔给 GPT 微调,等于用中文拼音去描述一幅油画——工具和对象之间存在本质的不匹配。
二、Kronos 的做法:层次化量化
Kronos 给 K 线设计了一套两阶段 tokenizer:
- 第一阶段:捕捉宏观价格区间——这根 K 线大概在什么位置(高位 / 低位 / 中段)
- 第二阶段:捕捉微观细节——影线多长、实体多大、量能方向
- 组合输出:一根 K 线 → 几个有层次关系的 token
类比:就像中文汉字可以拆成偏旁部首,一根 K 线被拆成"价格水平 + 波动形态 + 成交量特征"的组合。
这相当于给金融市场设计了一套专属的"文字系统"。
效率差距是惊人的
| 表示方式 | 512 根 K 线占用 |
|---|---|
| 文本 token(一根 K 线 30-50 token) | 25,000 tokens |
| Kronos 层次化 token | ~1,500 tokens |
10 倍以上。这不只是省钱——它直接拓宽了模型能感知的时间视野。看得更远 = 预测得更准。
参数对比也耐人寻味
| 模型 | 参数量 |
|---|---|
| GPT-4 | > 1 万亿 |
| Kronos Large | 4.99 亿 |
不到 GPT-4 的千分之一。但在 K 线预测这个特定任务上,Kronos 的表现更好。
三、第一层范式转换:感知和认知应该解耦
为什么 5 亿够了?
- GPT 要学的事:语法、常识、推理、多语言、代码、数学……
- Kronos 要学的事:K 线序列的统计规律。仅此一件。
但这背后藏着一个更深的范式问题:
Transformer 是一个通用的序列学习引擎。BPE 是一个专门处理文本的 tokenizer。LLM(大语言模型)把这两件事粘在一起卖。
可一旦你意识到它们是两件事,"大语言模型一统天下"这个叙事就开始松动了:
- 通用的部分(Transformer 这个序列引擎)应该尽量通用
- 专用的部分(tokenizer 这个感知通道)应该尽量贴合领域
这两件事各自有各自的优化路径,不该被绑死。Kronos 在做的事,本质上是把 BPE 这个文本专用的感知通道,换成 K 线专用的感知通道——其他保持不变。
这件事如果泛化,会有很大的影响力。
四、第二层范式转换:所有"自成体系"的体系都是一种语言
Transformer 是足够通用的序列学习引擎。只要换一个 tokenizer,就能让它"听懂"一种全新的"语言"。
那"语言"的范围有多大?
自然语言、代码、数学、画、K 线、摩尔斯电码……任何自成体系的符号系统,都是一种语言。
"自成体系"的判断标准很朴素:
- 有自己的基本单元(字母 / 关键字 / 符号 / OHLCV / 点划)
- 有内在的组合规则(语法 / 算符 / 构图 / K 线序列 / 编码协议)
- 可以承载意义或预测(表达 / 计算 / 表现 / 价格走势 / 信息)
按这个标准盘一下:
| 体系 | 基本单元 | 内在规则 | 现有 tokenizer 状态 |
|---|---|---|---|
| 自然语言 | 字 / 词 | 语法 | BPE / WordPiece — 已成熟 |
| 代码 | 关键字 / 符号 | 语法树 + 类型 | BPE 是主流但不最优;AST(抽象语法树)方向有改进空间 |
| 数学 | 符号 / 算符 | 推理规则 | 主要靠 LaTeX 文本化;Lean / Coq 系的形式化是另一种思路 |
| 绘画 / 艺术 | 笔触 / 色块 | 构图 / 色彩理论 | 没有公认原生方案,VAE / diffusion 算半个 |
| 金融 K 线 | OHLCV | 时间序列 + 量价关系 | Kronos 的层次化量化 — 新出炉 |
| 摩尔斯电码 | 点 / 划 | 编码字典 | 本身就是预设离散编码,不需要再"造" |
| 音频 | 波形采样 | 频谱结构 | Whisper 的梅尔频谱 — 已成熟 |
| 蛋白质 | 氨基酸 | 折叠规则 | ESMFold — 已成熟 |
| 视觉 | 像素 | 物体 / 场景层次 | ViT 的 patch + diffusion 的 latent,进行中 |
已有 tokenizer ≠ 最优 tokenizer。
代码就是最好的例子。代码本来是高度结构化的(AST 是天然的层次化表示),但今天的 LLM 处理代码主要还是用 BPE——把代码当文本拆。这是历史路径依赖,不是工程最优。这意味着即使在已有 tokenizer 的领域,原生 tokenizer 还有大量重做的空间。
数学更明显:把公式 LaTeX 化扔给 GPT,等于把油画 OCR 成"勾勒线条 1 厘米向右"——能跑,但极其低效。
还有一些完全开放的领域
- 艺术 / 绘画:构图、笔触、色彩关系、情绪倾向都有内在层次,但还没有公认的原生 tokenizer
- 审美 / 设计:视觉系统、版式、留白节奏——开放空间
- 城市交通流:路网拓扑 + 时间序列 + 事件干扰
- 工业传感器:振动 / 温度 / 压力的多通道编码
- 医疗影像背后的"判断逻辑":医生看片的注意力路径、决策树
这些领域共同的特征:
- 自成体系(有基本单元 + 内在规则 + 可承载意义)
- 数据有内在层次结构(先粗后细 / 先全局再局部)
- 有大量同类样本可供 pretrain(预训练)
满足这三条,就有可能造出一套专属的"文字系统"。
五、能力边界:感知 ≠ 推理
要诚实地讲清楚 Kronos(以及所有这类原生 tokenizer 模型)不能做什么。
金融价格变动有两类原因:
| 类型 | 例子 | Kronos |
|---|---|---|
| 技术面 | 前面涨太多了所以跌(K 线模式) | 能捕捉 |
| 基本面 | 公司业绩预警所以跌(外部事件) | 看不到 |
Kronos 只学了"价格语言",没学"为什么"。它看不到新闻、财报、政策变化。
它提供的是 raw signals(原始信号),不是 trading strategy(交易策略)。从信号到策略,中间还需要大量金融工程工作——仓位管理、止损规则、事件过滤、多信号融合。
这条边界对所有原生 tokenizer 模型都成立:
它们解决"感知"问题,不解决"推理 / 因果"问题。
模式识别和因果推理是两件事。把它们混淆,是这一波 AI 工程里最常见的认知陷阱之一。
六、第三层范式转换:AGI 不如 AGS
把"AI 通用化"这件事拆开看:
- 通用的部分:序列学习引擎(Transformer 或它的下一代)
- 专用的部分:领域 tokenizer + 领域评估指标 + 领域数据
按这个拆法,所谓 AGI(Artificial General Intelligence,通用人工智能)是个有点误导性的口号。它暗示有"一个模型解决一切"。
一个引擎 + N 个感知通道。
类比人类大脑
- 大脑皮层很大程度是通用的(同一片皮层能处理视觉 / 听觉 / 触觉)
- 但视网膜、耳蜗、皮肤的传感器是完全分开造的——每个有自己的"编码方式"
- 没有人会说"人脑是一个通用的视觉模型"——它是一个通用的认知引擎,外接很多专用的感知器官
AI 的下一波进化,很可能是长出更多种"传感器",而不是把现有的传感器(BPE)做得更大。
七、对工程师 / 研究者的实操含义
如果上面这套范式判断成立,那么接下来一段时间,真正的杠杆点不在"训更大的模型",在"为还没有 tokenizer 的领域造 tokenizer"。
判断框架(v1.0 版本,欢迎拍砖)
任何"AI 在某领域不好用"的问题,先问三件事:
- 感知层:用的是通用 BPE 还是领域原生 tokenizer?
- 容量对位:模型容量是任务真正需要的,还是堆参数堆出来的?
- 边界清晰:输出是 raw signals 还是 strategy?两者边界清不清?
判断一个领域值不值得造原生 tokenizer,再问三件事:
- 原始数据是不是非文本(如果是文本,BPE 已经够好)
- 有没有内在层次结构(没有就造不出层次化量化)
- 有没有大量同类样本(pretrain 的最低门槛)
不满足任何一条,就别折腾。满足三条以上,且这个领域的 AI 应用现状不理想,可能就是下一个 Kronos 的位置。
八、收尾
"大语言模型"这个名字该改了。
LLM 这个名字暗示两件事:
- "大"——参数越多越好
- "语言"——处理的对象是人类语言
Kronos 同时挑战了这两个暗示:不大(5 亿参数),不处理语言(处理 K 线)。但用的是完全相同的核心架构(Transformer + 预训练 → 迁移)。
更准确的名字:Foundation Model(基础模型)——不限定规模,不限定数据类型。关键是"预训练 → 迁移"这个范式本身。
自然语言、代码、数学、绘画、K 线、摩尔斯电码、音频、蛋白质、城市交通、医生看片的判断路径——它们都是语言,只是大多数还没人教 AI 怎么读,或者只用次优的方式被读着。
接下来的杠杆,不在比谁的模型更大,而在比谁更早为这些自成体系的世界造出更好的文字系统。
附:v1.0 标记 + v2.0 触发条件
这是一篇判断成熟度 v1.0 的文章。它建立在一个新出现的实证案例(Kronos)+ 几条范式推论上。
什么会触发 v2.0 升级
- 第二个非文本垂直领域的 Foundation Model 出现(不是音频 / 蛋白质这类已成熟的),并且有公开 benchmark
- Kronos 上线半年后的真实实战表现(短期预测在生产环境的命中率、稳定性、失效模式)
- 学术界 / 工业界出现"如何造领域 tokenizer"的工程方法论(不是 paper 里的 ad-hoc 设计,是可复用的设计模式)
- 出现一个反例:某个看似满足三条件的领域,造原生 tokenizer 失败了——并且失败原因有结构性意义
任何一条触发,本文升级到 v2.0;两条以上触发,可能要重写。