K 线是一种语言，艺术也是

原文：https://mp.weixin.qq.com/s/ExDrFs6O9Vi1nCucvRhJGg

一个开源项目最近在 GitHub 拿到了 1.94 万星，被 AAAI 2026 接收。它不处理文本，不处理图像，它学的是金融 K 线。

这件事真正值得说的，不是它能预测股价，而是它换了一种"感知世界"的方式——而这种思路，可能是接下来 AI 在很多"非文本领域"的唯一出路。

一、Tokenizer：模型和世界之间的翻译层

模型只能处理数字。Tokenizer（分词器）决定了世界上的信息以什么方式被转换成数字序列。

换句话说：tokenizer 决定了 AI 看到的是什么"样的世界"。

GPT 用的 BPE（Byte Pair Encoding，字节对编码）：把文本拆成子词，基于统计频率。"understanding" → "under" + "standing"。一维序列，一个词一个词排下去。在文本场景里，这套足够好。

但金融 K 线不是文本。一根 K 线 = 5 维连续值（开盘 / 最高 / 最低 / 收盘 / 成交量），不是可以拆成子词的离散符号。

核心类比

把 K 线格式化成"开盘 3200.45，最高 3210.20，最低 3195.80……"扔给 GPT 微调，等于用中文拼音去描述一幅油画——工具和对象之间存在本质的不匹配。

二、Kronos 的做法：层次化量化

Kronos 给 K 线设计了一套两阶段 tokenizer：

第一阶段：捕捉宏观价格区间——这根 K 线大概在什么位置（高位 / 低位 / 中段）
第二阶段：捕捉微观细节——影线多长、实体多大、量能方向
组合输出：一根 K 线 → 几个有层次关系的 token

类比：就像中文汉字可以拆成偏旁部首，一根 K 线被拆成"价格水平 + 波动形态 + 成交量特征"的组合。

这相当于给金融市场设计了一套专属的"文字系统"。

效率差距是惊人的

表示方式	512 根 K 线占用
文本 token（一根 K 线 30-50 token）	25,000 tokens
Kronos 层次化 token	~1,500 tokens

10 倍以上。这不只是省钱——它直接拓宽了模型能感知的时间视野。看得更远 = 预测得更准。

参数对比也耐人寻味

模型	参数量
GPT-4	> 1 万亿
Kronos Large	4.99 亿

不到 GPT-4 的千分之一。但在 K 线预测这个特定任务上，Kronos 的表现更好。

• • •

三、第一层范式转换：感知和认知应该解耦

为什么 5 亿够了？

GPT 要学的事：语法、常识、推理、多语言、代码、数学……
Kronos 要学的事：K 线序列的统计规律。仅此一件。

容量对了任务，比容量大一万倍更管用

但这背后藏着一个更深的范式问题：

Transformer 是一个通用的序列学习引擎。BPE 是一个专门处理文本的 tokenizer。LLM（大语言模型）把这两件事粘在一起卖。

可一旦你意识到它们是两件事，"大语言模型一统天下"这个叙事就开始松动了：

通用的部分（Transformer 这个序列引擎）应该尽量通用
专用的部分（tokenizer 这个感知通道）应该尽量贴合领域

这两件事各自有各自的优化路径，不该被绑死。Kronos 在做的事，本质上是把 BPE 这个文本专用的感知通道，换成 K 线专用的感知通道——其他保持不变。

这件事如果泛化，会有很大的影响力。

四、第二层范式转换：所有"自成体系"的体系都是一种语言

Transformer 是足够通用的序列学习引擎。只要换一个 tokenizer，就能让它"听懂"一种全新的"语言"。

那"语言"的范围有多大？

自然语言、代码、数学、画、K 线、摩尔斯电码……任何自成体系的符号系统，都是一种语言。

"自成体系"的判断标准很朴素：

有自己的基本单元（字母 / 关键字 / 符号 / OHLCV / 点划）
有内在的组合规则（语法 / 算符 / 构图 / K 线序列 / 编码协议）
可以承载意义或预测（表达 / 计算 / 表现 / 价格走势 / 信息）

按这个标准盘一下：

体系	基本单元	内在规则	现有 tokenizer 状态
自然语言	字 / 词	语法	BPE / WordPiece — 已成熟
代码	关键字 / 符号	语法树 + 类型	BPE 是主流但不最优；AST（抽象语法树）方向有改进空间
数学	符号 / 算符	推理规则	主要靠 LaTeX 文本化；Lean / Coq 系的形式化是另一种思路
绘画 / 艺术	笔触 / 色块	构图 / 色彩理论	没有公认原生方案，VAE / diffusion 算半个
金融 K 线	OHLCV	时间序列 + 量价关系	Kronos 的层次化量化 — 新出炉
摩尔斯电码	点 / 划	编码字典	本身就是预设离散编码，不需要再"造"
音频	波形采样	频谱结构	Whisper 的梅尔频谱 — 已成熟
蛋白质	氨基酸	折叠规则	ESMFold — 已成熟
视觉	像素	物体 / 场景层次	ViT 的 patch + diffusion 的 latent，进行中

关键判断

已有 tokenizer ≠ 最优 tokenizer。

代码就是最好的例子。代码本来是高度结构化的（AST 是天然的层次化表示），但今天的 LLM 处理代码主要还是用 BPE——把代码当文本拆。这是历史路径依赖，不是工程最优。这意味着即使在已有 tokenizer 的领域，原生 tokenizer 还有大量重做的空间。

数学更明显：把公式 LaTeX 化扔给 GPT，等于把油画 OCR 成"勾勒线条 1 厘米向右"——能跑，但极其低效。

还有一些完全开放的领域

艺术 / 绘画：构图、笔触、色彩关系、情绪倾向都有内在层次，但还没有公认的原生 tokenizer
审美 / 设计：视觉系统、版式、留白节奏——开放空间
城市交通流：路网拓扑 + 时间序列 + 事件干扰
工业传感器：振动 / 温度 / 压力的多通道编码
医疗影像背后的"判断逻辑"：医生看片的注意力路径、决策树

这些领域共同的特征：

自成体系（有基本单元 + 内在规则 + 可承载意义）
数据有内在层次结构（先粗后细 / 先全局再局部）
有大量同类样本可供 pretrain（预训练）

满足这三条，就有可能造出一套专属的"文字系统"。

• • •

五、能力边界：感知 ≠ 推理

要诚实地讲清楚 Kronos（以及所有这类原生 tokenizer 模型）不能做什么。

金融价格变动有两类原因：

类型	例子	Kronos
技术面	前面涨太多了所以跌（K 线模式）	能捕捉
基本面	公司业绩预警所以跌（外部事件）	看不到

Kronos 只学了"价格语言"，没学"为什么"。它看不到新闻、财报、政策变化。

边界

它提供的是 raw signals（原始信号），不是 trading strategy（交易策略）。从信号到策略，中间还需要大量金融工程工作——仓位管理、止损规则、事件过滤、多信号融合。

这条边界对所有原生 tokenizer 模型都成立：

它们解决"感知"问题，不解决"推理 / 因果"问题。

模式识别和因果推理是两件事。把它们混淆，是这一波 AI 工程里最常见的认知陷阱之一。

六、第三层范式转换：AGI 不如 AGS

把"AI 通用化"这件事拆开看：

通用的部分：序列学习引擎（Transformer 或它的下一代）
专用的部分：领域 tokenizer + 领域评估指标 + 领域数据

按这个拆法，所谓 AGI（Artificial General Intelligence，通用人工智能）是个有点误导性的口号。它暗示有"一个模型解决一切"。

更诚实的方向：AGS = 通用序列引擎 + 千个领域 tokenizer

一个引擎 + N 个感知通道。

类比人类大脑

大脑皮层很大程度是通用的（同一片皮层能处理视觉 / 听觉 / 触觉）
但视网膜、耳蜗、皮肤的传感器是完全分开造的——每个有自己的"编码方式"
没有人会说"人脑是一个通用的视觉模型"——它是一个通用的认知引擎，外接很多专用的感知器官

AI 的下一波进化，很可能是长出更多种"传感器"，而不是把现有的传感器（BPE）做得更大。

七、对工程师 / 研究者的实操含义

如果上面这套范式判断成立，那么接下来一段时间，真正的杠杆点不在"训更大的模型"，在"为还没有 tokenizer 的领域造 tokenizer"。

判断框架（v1.0 版本，欢迎拍砖）

任何"AI 在某领域不好用"的问题，先问三件事：

感知层：用的是通用 BPE 还是领域原生 tokenizer？
容量对位：模型容量是任务真正需要的，还是堆参数堆出来的？
边界清晰：输出是 raw signals 还是 strategy？两者边界清不清？

判断一个领域值不值得造原生 tokenizer，再问三件事：

原始数据是不是非文本（如果是文本，BPE 已经够好）
有没有内在层次结构（没有就造不出层次化量化）
有没有大量同类样本（pretrain 的最低门槛）

不满足任何一条，就别折腾。满足三条以上，且这个领域的 AI 应用现状不理想，可能就是下一个 Kronos 的位置。

• • •

八、收尾

"大语言模型"这个名字该改了。

LLM 这个名字暗示两件事：

"大"——参数越多越好
"语言"——处理的对象是人类语言

Kronos 同时挑战了这两个暗示：不大（5 亿参数），不处理语言（处理 K 线）。但用的是完全相同的核心架构（Transformer + 预训练 → 迁移）。

更准确的名字：Foundation Model（基础模型）——不限定规模，不限定数据类型。关键是"预训练 → 迁移"这个范式本身。

收尾

自然语言、代码、数学、绘画、K 线、摩尔斯电码、音频、蛋白质、城市交通、医生看片的判断路径——它们都是语言，只是大多数还没人教 AI 怎么读，或者只用次优的方式被读着。

接下来的杠杆，不在比谁的模型更大，而在比谁更早为这些自成体系的世界造出更好的文字系统。

• • •

附：v1.0 标记 + v2.0 触发条件

这是一篇判断成熟度 v1.0 的文章。它建立在一个新出现的实证案例（Kronos）+ 几条范式推论上。

什么会触发 v2.0 升级

第二个非文本垂直领域的 Foundation Model 出现（不是音频 / 蛋白质这类已成熟的），并且有公开 benchmark
Kronos 上线半年后的真实实战表现（短期预测在生产环境的命中率、稳定性、失效模式）
学术界 / 工业界出现"如何造领域 tokenizer"的工程方法论（不是 paper 里的 ad-hoc 设计，是可复用的设计模式）
出现一个反例：某个看似满足三条件的领域，造原生 tokenizer 失败了——并且失败原因有结构性意义

任何一条触发，本文升级到 v2.0；两条以上触发，可能要重写。

原文：https://mp.weixin.qq.com/s/ExDrFs6O9Vi1nCucvRhJGg