一、论文核心要点
研究背景与技术路径
浙江大学+比勒费尔德大学联合研究,17年数据(2007-2024)。微调开源LLM Qwen3 8B,从中英文新闻标题提取情感信号(+1/0/-1),与传统表格数据融合,LSTM预测月度铝价。
新闻采集
→
LLM情感提取
→
多源数据融合
→
LSTM预测
→
交易回测
核心数据一览
+359%
Sharpe提升(高波动)
292%
累计收益(含情感)
131%
累计收益(纯表格)
• • •
二、四大核心发现
发现 1
市场越动荡,情感信号越"能打"
| 市场环境 | 融合情感 Sharpe | 纯表格 Sharpe | 提升 |
|---|---|---|---|
| 高波动 | 1.04 | 0.23 | +359% |
| 中等波动 | 0.51 | 0.34 | 纯情感更优(1.19) |
| 低波动 | 0.29-0.54 | 0.29-0.54 | 趋同 |
传统模型在极端行情中失效,而新闻情感能精准捕捉恐慌与复苏信号。
发现 2
不是所有新闻都有用 — 8话题最优组合
12个话题中筛出8个最优组合,Sharpe从0.81→1.00(+23.6%)。
0.62
事实报道 Sharpe
-0.01
前瞻预测 Sharpe
颠覆性发现:分析师预测、公司指引等前瞻性新闻几乎无预测价值。已发生的事实才能带来真正的价格边际变化。
发现 3
来源质量 > 模型大小
| 新闻来源 | Sharpe | 累计收益 |
|---|---|---|
| 路透社 | 0.80 | 433% |
| 道琼斯 | 0.18 | 32% |
| 中新社 | 0.15 | 22% |
同一个模型,换数据源,Sharpe差4倍。信噪比和话题分配决定天花板。
发现 4
轻量微调 > 传统专用模型
微调后的 Qwen3 8B 全面碾压金融专用模型 FinBERT。开源通用大模型 + 领域微调 = 中小机构的新工具窗口。
• • •
三、三个反常识发现
反常识 1
前瞻性新闻无用 — 分析师预测、公司指引等"看起来最有价值"的前瞻新闻,Sharpe几乎为0。已发生的事实才有预测力。有效市场假说的完美验证:公开预期早已被价格消化。
反常识 2
中等波动下纯情感优于融合 — 直觉上"数据越多越好",但平稳市场中表格数据反而是噪音。纯情感Sharpe 1.19,融合仅0.51。
反常识 3
来源比模型重要 — 同一个Qwen3模型,换路透社vs道琼斯新闻,Sharpe差4倍(0.80 vs 0.18)。数据质量决定天花板,模型只决定你离天花板多近。
• • •
四、通用模式提取
模式1:信号-噪音分离
底层机制:信息过载时,噪音危害 > 信号缺失
论文证据:12话题过滤到8个,Sharpe +23.6%
TZ映射:OV数据坚持单一来源;27矩阵过滤非共振品种
行动触发:当因子增多但策略表现下降时,先做减法
底层机制:信息过载时,噪音危害 > 信号缺失
论文证据:12话题过滤到8个,Sharpe +23.6%
TZ映射:OV数据坚持单一来源;27矩阵过滤非共振品种
行动触发:当因子增多但策略表现下降时,先做减法
模式2:来源质量 > 处理能力
底层机制:垃圾进垃圾出,再好的模型无法从低信噪比数据中提取有效信号
论文证据:同模型同方法,路透社 vs 道琼斯 Sharpe差4倍
TZ映射:研报精读选源头(一手 > 二手);IV数据只用OV
行动触发:新建任何数据管线时,先验证数据源质量
底层机制:垃圾进垃圾出,再好的模型无法从低信噪比数据中提取有效信号
论文证据:同模型同方法,路透社 vs 道琼斯 Sharpe差4倍
TZ映射:研报精读选源头(一手 > 二手);IV数据只用OV
行动触发:新建任何数据管线时,先验证数据源质量
模式3:事实 > 预测
底层机制:有效市场假说 — 公开预期已被价格消化,只有新事实带来边际变化
论文证据:事实报道Sharpe 0.62 vs 前瞻预测 -0.01
TZ映射:关注实际发生的IV变化(RV),而非分析师对未来IV的预测
行动触发:过滤信息流中的"分析师观点",优先处理"已发生事件"
底层机制:有效市场假说 — 公开预期已被价格消化,只有新事实带来边际变化
论文证据:事实报道Sharpe 0.62 vs 前瞻预测 -0.01
TZ映射:关注实际发生的IV变化(RV),而非分析师对未来IV的预测
行动触发:过滤信息流中的"分析师观点",优先处理"已发生事件"
模式4:极端环境放大信号价值
底层机制:平静时所有方法趋同,极端环境才是差异化竞争力的战场
论文证据:高波动Sharpe 1.04,低波动0.29-0.54趋同
TZ映射:Gamma Radar在高波动环境下价值最大
行动触发:VIX/IV急升时,加大情感/Gamma信号权重
底层机制:平静时所有方法趋同,极端环境才是差异化竞争力的战场
论文证据:高波动Sharpe 1.04,低波动0.29-0.54趋同
TZ映射:Gamma Radar在高波动环境下价值最大
行动触发:VIX/IV急升时,加大情感/Gamma信号权重
• • •
五、TZ实战框架:情感信号融合路径
第一层:数据源选择(决定天花板)
| 优先级 | 来源 | 理由 |
|---|---|---|
| P0 | 路透社/Bloomberg | 信噪比最高 |
| P1 | 财联社/Wind快讯 | 国内期货一手事实 |
| P2 | 行业协会(SMM等) | 库存/产量硬数据 |
| 过滤 | 分析师预测/公司指引 | Sharpe≈0,无价值 |
第二层:与现有体系融合
| 论文发现 | 对应TZ工具 | 融合方式 |
|---|---|---|
| 情感信号在高波动最有效 | Gamma Radar | 高波动环境叠加情感因子 |
| 事实 > 预测 | 27矩阵 | 基差方向用实际数据 |
| 来源质量决定天花板 | OV数据 | 继续坚持单一权威来源 |
| 月度频率限制 | 日度RV | 短周期用RV,长周期用情感 |
行动项
- 关注arxiv原文,评估核心流程可复现性
- 评估财联社/Wind快讯作为国内期货情感数据源的可行性
- 考虑在晨报/27-Hunter中加入"市场情绪"维度
• • •
六、金句摘录
"LLM提取的新闻情感信号,并非预测的'锦上添花',而是高波动市场中的'定海神针'"
"情感分析的核心,从来不是'用了多大的模型',而是'用了什么质量的数据'"
"公开的市场预期早已被价格消化,只有新发生的事实,才会带来真正的价格边际变化"
"传统误差指标看的是全周期的价格预测偏差,而交易赚钱,只需要在关键的市场转折点猜对价格方向"