LLM情感信号与大宗商品预测

从新闻噪音中提取交易Alpha
夏普比从0.23到1.04的跨越

2026-04-14  |  COGNITION PIPELINE

mp.weixin.qq.com/s/uUgq1ubC1CgDwZgLvxDKvg

一、论文核心要点

研究背景与技术路径

浙江大学+比勒费尔德大学联合研究,17年数据(2007-2024)。微调开源LLM Qwen3 8B,从中英文新闻标题提取情感信号(+1/0/-1),与传统表格数据融合,LSTM预测月度铝价。

新闻采集 LLM情感提取 多源数据融合 LSTM预测 交易回测

核心数据一览

+359%
Sharpe提升(高波动)
292%
累计收益(含情感)
131%
累计收益(纯表格)
• • •

二、四大核心发现

发现 1

市场越动荡,情感信号越"能打"

市场环境融合情感 Sharpe纯表格 Sharpe提升
高波动1.040.23+359%
中等波动0.510.34纯情感更优(1.19)
低波动0.29-0.540.29-0.54趋同

传统模型在极端行情中失效,而新闻情感能精准捕捉恐慌与复苏信号。

发现 2

不是所有新闻都有用 — 8话题最优组合

12个话题中筛出8个最优组合,Sharpe从0.81→1.00(+23.6%)。

0.62
事实报道 Sharpe
-0.01
前瞻预测 Sharpe

颠覆性发现:分析师预测、公司指引等前瞻性新闻几乎无预测价值。已发生的事实才能带来真正的价格边际变化。

发现 3

来源质量 > 模型大小

新闻来源Sharpe累计收益
路透社0.80433%
道琼斯0.1832%
中新社0.1522%

同一个模型,换数据源,Sharpe差4倍。信噪比和话题分配决定天花板。

发现 4

轻量微调 > 传统专用模型

微调后的 Qwen3 8B 全面碾压金融专用模型 FinBERT。开源通用大模型 + 领域微调 = 中小机构的新工具窗口。

• • •

三、三个反常识发现

反常识 1

前瞻性新闻无用 — 分析师预测、公司指引等"看起来最有价值"的前瞻新闻,Sharpe几乎为0。已发生的事实才有预测力。有效市场假说的完美验证:公开预期早已被价格消化。

反常识 2

中等波动下纯情感优于融合 — 直觉上"数据越多越好",但平稳市场中表格数据反而是噪音。纯情感Sharpe 1.19,融合仅0.51。

反常识 3

来源比模型重要 — 同一个Qwen3模型,换路透社vs道琼斯新闻,Sharpe差4倍(0.80 vs 0.18)。数据质量决定天花板,模型只决定你离天花板多近。

• • •

四、通用模式提取

模式1:信号-噪音分离
底层机制:信息过载时,噪音危害 > 信号缺失
论文证据:12话题过滤到8个,Sharpe +23.6%
TZ映射:OV数据坚持单一来源;27矩阵过滤非共振品种
行动触发:当因子增多但策略表现下降时,先做减法
模式2:来源质量 > 处理能力
底层机制:垃圾进垃圾出,再好的模型无法从低信噪比数据中提取有效信号
论文证据:同模型同方法,路透社 vs 道琼斯 Sharpe差4倍
TZ映射:研报精读选源头(一手 > 二手);IV数据只用OV
行动触发:新建任何数据管线时,先验证数据源质量
模式3:事实 > 预测
底层机制:有效市场假说 — 公开预期已被价格消化,只有新事实带来边际变化
论文证据:事实报道Sharpe 0.62 vs 前瞻预测 -0.01
TZ映射:关注实际发生的IV变化(RV),而非分析师对未来IV的预测
行动触发:过滤信息流中的"分析师观点",优先处理"已发生事件"
模式4:极端环境放大信号价值
底层机制:平静时所有方法趋同,极端环境才是差异化竞争力的战场
论文证据:高波动Sharpe 1.04,低波动0.29-0.54趋同
TZ映射:Gamma Radar在高波动环境下价值最大
行动触发:VIX/IV急升时,加大情感/Gamma信号权重
• • •

五、TZ实战框架:情感信号融合路径

第一层:数据源选择(决定天花板)

优先级来源理由
P0路透社/Bloomberg信噪比最高
P1财联社/Wind快讯国内期货一手事实
P2行业协会(SMM等)库存/产量硬数据
过滤分析师预测/公司指引Sharpe≈0,无价值

第二层:与现有体系融合

论文发现对应TZ工具融合方式
情感信号在高波动最有效Gamma Radar高波动环境叠加情感因子
事实 > 预测27矩阵基差方向用实际数据
来源质量决定天花板OV数据继续坚持单一权威来源
月度频率限制日度RV短周期用RV,长周期用情感

行动项

  1. 关注arxiv原文,评估核心流程可复现性
  2. 评估财联社/Wind快讯作为国内期货情感数据源的可行性
  3. 考虑在晨报/27-Hunter中加入"市场情绪"维度
• • •

六、金句摘录

"LLM提取的新闻情感信号,并非预测的'锦上添花',而是高波动市场中的'定海神针'"
"情感分析的核心,从来不是'用了多大的模型',而是'用了什么质量的数据'"
"公开的市场预期早已被价格消化,只有新发生的事实,才会带来真正的价格边际变化"
"传统误差指标看的是全周期的价格预测偏差,而交易赚钱,只需要在关键的市场转折点猜对价格方向"