K 线是一种语言,艺术也是

从 Kronos 说开去
为什么 5 亿参数的小模型,能在自己的领域里打败 1 万亿的大模型

2026-05-05  |  AQUABRIDGE 评论 v1.0

原文:人月岛 · K 线是一种语言

一个开源项目最近在 GitHub 拿到了 1.94 万星,被 AAAI 2026 接收。它不处理文本,不处理图像,它学的是金融 K 线。

这件事真正值得说的,不是它能预测股价,而是它换了一种"感知世界"的方式——而这种思路,可能是接下来 AI 在很多"非文本领域"的唯一出路。

一、Tokenizer:模型和世界之间的翻译层

模型只能处理数字。Tokenizer(分词器)决定了世界上的信息以什么方式被转换成数字序列

换句话说:tokenizer 决定了 AI 看到的是什么"样的世界"。

GPT 用的 BPE(Byte Pair Encoding,字节对编码):把文本拆成子词,基于统计频率。"understanding" → "under" + "standing"。一维序列,一个词一个词排下去。在文本场景里,这套足够好。

但金融 K 线不是文本。一根 K 线 = 5 维连续值(开盘 / 最高 / 最低 / 收盘 / 成交量),不是可以拆成子词的离散符号。

核心类比

把 K 线格式化成"开盘 3200.45,最高 3210.20,最低 3195.80……"扔给 GPT 微调,等于用中文拼音去描述一幅油画——工具和对象之间存在本质的不匹配。

二、Kronos 的做法:层次化量化

Kronos 给 K 线设计了一套两阶段 tokenizer:

  1. 第一阶段:捕捉宏观价格区间——这根 K 线大概在什么位置(高位 / 低位 / 中段)
  2. 第二阶段:捕捉微观细节——影线多长、实体多大、量能方向
  3. 组合输出:一根 K 线 → 几个有层次关系的 token

类比:就像中文汉字可以拆成偏旁部首,一根 K 线被拆成"价格水平 + 波动形态 + 成交量特征"的组合。

这相当于给金融市场设计了一套专属的"文字系统"

效率差距是惊人的

表示方式512 根 K 线占用
文本 token(一根 K 线 30-50 token)25,000 tokens
Kronos 层次化 token~1,500 tokens

10 倍以上。这不只是省钱——它直接拓宽了模型能感知的时间视野。看得更远 = 预测得更准。

参数对比也耐人寻味

模型参数量
GPT-4> 1 万亿
Kronos Large4.99 亿

不到 GPT-4 的千分之一。但在 K 线预测这个特定任务上,Kronos 的表现更好。

• • •

三、第一层范式转换:感知和认知应该解耦

为什么 5 亿够了?

容量对了任务,比容量大一万倍更管用

但这背后藏着一个更深的范式问题:

Transformer 是一个通用的序列学习引擎。BPE 是一个专门处理文本的 tokenizer。LLM(大语言模型)把这两件事粘在一起卖。

可一旦你意识到它们是两件事,"大语言模型一统天下"这个叙事就开始松动了:

这两件事各自有各自的优化路径,不该被绑死。Kronos 在做的事,本质上是把 BPE 这个文本专用的感知通道,换成 K 线专用的感知通道——其他保持不变。

这件事如果泛化,会有很大的影响力。

四、第二层范式转换:所有"自成体系"的体系都是一种语言

Transformer 是足够通用的序列学习引擎。只要换一个 tokenizer,就能让它"听懂"一种全新的"语言"

那"语言"的范围有多大?

自然语言、代码、数学、画、K 线、摩尔斯电码……任何自成体系的符号系统,都是一种语言。

"自成体系"的判断标准很朴素:

  1. 有自己的基本单元(字母 / 关键字 / 符号 / OHLCV / 点划)
  2. 有内在的组合规则(语法 / 算符 / 构图 / K 线序列 / 编码协议)
  3. 可以承载意义或预测(表达 / 计算 / 表现 / 价格走势 / 信息)

按这个标准盘一下:

体系基本单元内在规则现有 tokenizer 状态
自然语言字 / 词语法BPE / WordPiece — 已成熟
代码关键字 / 符号语法树 + 类型BPE 是主流但不最优;AST(抽象语法树)方向有改进空间
数学符号 / 算符推理规则主要靠 LaTeX 文本化;Lean / Coq 系的形式化是另一种思路
绘画 / 艺术笔触 / 色块构图 / 色彩理论没有公认原生方案,VAE / diffusion 算半个
金融 K 线OHLCV时间序列 + 量价关系Kronos 的层次化量化 — 新出炉
摩尔斯电码点 / 划编码字典本身就是预设离散编码,不需要再"造"
音频波形采样频谱结构Whisper 的梅尔频谱 — 已成熟
蛋白质氨基酸折叠规则ESMFold — 已成熟
视觉像素物体 / 场景层次ViT 的 patch + diffusion 的 latent,进行中
关键判断

已有 tokenizer ≠ 最优 tokenizer。

代码就是最好的例子。代码本来是高度结构化的(AST 是天然的层次化表示),但今天的 LLM 处理代码主要还是用 BPE——把代码当文本拆。这是历史路径依赖,不是工程最优。这意味着即使在已有 tokenizer 的领域,原生 tokenizer 还有大量重做的空间

数学更明显:把公式 LaTeX 化扔给 GPT,等于把油画 OCR 成"勾勒线条 1 厘米向右"——能跑,但极其低效。

还有一些完全开放的领域

这些领域共同的特征:

  1. 自成体系(有基本单元 + 内在规则 + 可承载意义)
  2. 数据有内在层次结构(先粗后细 / 先全局再局部)
  3. 有大量同类样本可供 pretrain(预训练)

满足这三条,就有可能造出一套专属的"文字系统"。

• • •

五、能力边界:感知 ≠ 推理

要诚实地讲清楚 Kronos(以及所有这类原生 tokenizer 模型)不能做什么

金融价格变动有两类原因:

类型例子Kronos
技术面前面涨太多了所以跌(K 线模式)能捕捉
基本面公司业绩预警所以跌(外部事件)看不到

Kronos 只学了"价格语言",没学"为什么"。它看不到新闻、财报、政策变化。

边界

它提供的是 raw signals(原始信号),不是 trading strategy(交易策略)。从信号到策略,中间还需要大量金融工程工作——仓位管理、止损规则、事件过滤、多信号融合。

这条边界对所有原生 tokenizer 模型都成立:

它们解决"感知"问题,不解决"推理 / 因果"问题。

模式识别和因果推理是两件事。把它们混淆,是这一波 AI 工程里最常见的认知陷阱之一。

六、第三层范式转换:AGI 不如 AGS

把"AI 通用化"这件事拆开看:

按这个拆法,所谓 AGI(Artificial General Intelligence,通用人工智能)是个有点误导性的口号。它暗示有"一个模型解决一切"。

更诚实的方向:AGS = 通用序列引擎 + 千个领域 tokenizer

一个引擎 + N 个感知通道。

类比人类大脑

AI 的下一波进化,很可能是长出更多种"传感器",而不是把现有的传感器(BPE)做得更大。

七、对工程师 / 研究者的实操含义

如果上面这套范式判断成立,那么接下来一段时间,真正的杠杆点不在"训更大的模型",在"为还没有 tokenizer 的领域造 tokenizer"

判断框架(v1.0 版本,欢迎拍砖)

任何"AI 在某领域不好用"的问题,先问三件事:

  1. 感知层:用的是通用 BPE 还是领域原生 tokenizer?
  2. 容量对位:模型容量是任务真正需要的,还是堆参数堆出来的?
  3. 边界清晰:输出是 raw signals 还是 strategy?两者边界清不清?

判断一个领域值不值得造原生 tokenizer,再问三件事:

  1. 原始数据是不是非文本(如果是文本,BPE 已经够好)
  2. 有没有内在层次结构(没有就造不出层次化量化)
  3. 有没有大量同类样本(pretrain 的最低门槛)

不满足任何一条,就别折腾。满足三条以上,且这个领域的 AI 应用现状不理想,可能就是下一个 Kronos 的位置

• • •

八、收尾

"大语言模型"这个名字该改了。

LLM 这个名字暗示两件事:

Kronos 同时挑战了这两个暗示:不大(5 亿参数),不处理语言(处理 K 线)。但用的是完全相同的核心架构(Transformer + 预训练 → 迁移)。

更准确的名字:Foundation Model(基础模型)——不限定规模,不限定数据类型。关键是"预训练 → 迁移"这个范式本身。

收尾

自然语言、代码、数学、绘画、K 线、摩尔斯电码、音频、蛋白质、城市交通、医生看片的判断路径——它们都是语言,只是大多数还没人教 AI 怎么读,或者只用次优的方式被读着

接下来的杠杆,不在比谁的模型更大,而在比谁更早为这些自成体系的世界造出更好的文字系统

• • •

附:v1.0 标记 + v2.0 触发条件

这是一篇判断成熟度 v1.0 的文章。它建立在一个新出现的实证案例(Kronos)+ 几条范式推论上。

什么会触发 v2.0 升级

  1. 第二个非文本垂直领域的 Foundation Model 出现(不是音频 / 蛋白质这类已成熟的),并且有公开 benchmark
  2. Kronos 上线半年后的真实实战表现(短期预测在生产环境的命中率、稳定性、失效模式)
  3. 学术界 / 工业界出现"如何造领域 tokenizer"的工程方法论(不是 paper 里的 ad-hoc 设计,是可复用的设计模式)
  4. 出现一个反例:某个看似满足三条件的领域,造原生 tokenizer 失败了——并且失败原因有结构性意义

任何一条触发,本文升级到 v2.0;两条以上触发,可能要重写。