这是一个非常值得深挖的金融认识论问题,涉及市场数据的可靠性、分析方法论的有效性、以及"价格发现"这一核心命题的本质。我逐层分析。
一、数据造假:金融市场的结构性顽疾
金融市场的数据失真不是偶发事件,而是系统性的、结构性的。至少存在于以下几个维度:
1. 财务数据:利益驱动下的主动造假
从安然到瑞幸,从康美药业到各类中概股造假,上市公司财务造假从未停止。更隐蔽的是"合法的数据修饰"——盈余管理、收入确认时点选择、表外安排、关联交易非关联化。这些不算"造假",但离"真实"有相当距离。
2. 交易数据:流动性幻觉
高频交易中的虚假挂单(spoofing)、洗售交易(wash trading)制造了虚假的流动性。你在Level 2数据中看到的买卖盘口深度,可能大量是"幽灵订单",挂出即撤,从未打算成交。在加密货币市场,这个问题更加严重——多项研究表明,主要交易所的现货交易量中有相当比例是洗售交易。
3. 估值数据:主观性的制度化
场外资产、债券、复杂衍生品的估值高度依赖模型输入,"盯模"(mark-to-model)本身就是一个充满主观判断的过程。同一个资产池,不同机构的估值可能差异显著。
4. 宏观数据:滞后的、修正的、政治化的
GDP、CPI、就业数据等宏观指标存在时滞、口径调整、多次修正。不同国家的统计口径本身就不可比。
结论: 金融市场中,除极少数场景外,绝大多数数据都经过了不同程度的"加工"。所谓"真实数据"是一个连续光谱,而非非黑即白的二分。
二、基于不实数据的策略研究:方法论的内在荒谬
"Garbage in, garbage out"是计算机科学的基本原则,在金融领域同样适用,但被广泛忽视。
1. 回测的致命缺陷
绝大多数量化策略研究依赖历史数据回测。如果基础数据本身存在造假或失真,那么:
回测中的"完美收益曲线"可能只是拟合了造假的财务数据模式
策略的统计显著性建立在虚假信号之上
夏普比率、最大回撤等指标毫无意义
2. 过拟合的叠加效应
即便数据是真实的,金融数据的低信噪比已经导致严重的过拟合问题。在数据造假的前提下,过拟合变成了"拟合噪声中的噪声",荒谬程度呈指数级上升。
3. 幸存者偏差的放大
能用于回测的数据本身已经经过了市场选择——退市的、造假被揭露的公司在数据库中被标注或剔除。你在用"幸存者"的数据做研究,而造假者恰恰是"幸存者"中最可疑的群体。
结论: 绝大多数公开发表的量化策略研究,其有效性建立在一个未经检验的假设上——"历史数据是真实的"。这个假设在金融市场中从未成立过,未来也不会成立。
三、悖论:为什么有人竟然还能长期盈利?
这是你问题中最精彩的部分。如果数据普遍不可靠,为什么还有人能长期盈利?这至少有四种解释,且可能同时成立:
解释A:他们掌握了相对真实的信息
顶级机构的调研能力、产业链信息、卫星数据、信用卡消费数据等另类数据源,虽然不完美,但比公开财务数据更接近真实。他们的alpha来自信息质量的不对称。
解释B:市场存在真正的非随机性
即便数据有噪声,人类行为的系统性偏差(损失厌恶、锚定效应、羊群行为)是稳定的、可重复的。趋势跟随、均值回归等策略的有效性不依赖于精确数据,而依赖于市场参与者的行为模式——这比任何财务数据都"真实"。
解释C:他们的"真实"不在数据层面
许多长期盈利的交易者根本不依赖财务数据或技术指标。他们交易的是市场结构(做市商的bid-ask spread)、流动性事件(期权到期日的gamma挤压)、制度性摩擦(ETF申赎套利)。这些机会的"信号"来自市场机制本身,而非外部数据。
解释D:幸存者偏差本身
"长期盈利"的样本中也存在幸存者偏差。我们听到的故事来自活下来的人。但如果一个人持续盈利10年、20年,跨越多个市场周期——纯靠运气的概率趋近于零。所以必须承认,某些人确实掌握了某种"接近真实"的东西。
结论: 长期盈利的存在,恰恰说明市场中存在某种超越数据噪声的结构性真实——但这种真实不在财务报表里,不在技术指标里,而在市场参与者的行为模式、市场机制的结构性摩擦、以及信息不对称的持续存在中。
四、价格数据:"最后一片净土"的裂缝
你提到价格数据是"唯一真实数据",这在传统金融理论中是一个被广泛接受的假设——价格是真金白银的交易结果,是所有市场参与者信息的最终汇总(有效市场假说的核心)。
但在高频环境下,这个假设也开始出现裂缝:
1. 闪崩与流动性幻觉
2010年5月6日的"闪电崩盘"中,某些股票价格在几秒内跌到1美分再恢复。这些价格是"真实的"吗?成交确实发生了,但它反映的不是基本面信息,而是流动性瞬间枯竭后的机械性成交。
2. Spoofing与价格操纵
高频交易者通过大量虚假挂单制造供需假象,诱导其他算法做出反应,从而推动价格向有利于自己的方向移动。虽然spoofing已被法律禁止,但它在技术上很难被完全检测和追溯。价格在被"轻微操纵"的状态下运行。
3. 延迟套利与信息不对称
交易所之间的微小延迟(微秒级)意味着同一资产在不同场所的价格短暂不一致。"真实价格"到底是哪个?在高频尺度上,不存在一个统一的"真实价格"——价格发现本身变成了一个分布式的、有延迟的、不完美的过程。
4. 暗池与碎片化
大量交易发生在暗池(dark pool)中,不在公开价格发现机制中体现。公开市场的价格可能只是"冰山一角"。
结论: 价格数据确实是所有金融数据中最接近"真实"的——但在高频环境下,它也并非绝对可靠。价格失真不是"数据错误",而是价格发现机制在高频率下本身的不完备性。这更像是一个物理测量问题:你用越精密的仪器去测量,量子效应就越明显,"精确值"本身就变得不确定。
五、总结性结论
表格
层面 结论
数据造假 不是"是否存在"的问题,而是"失真程度"的问题。几乎所有金融数据都有不同程度的失真。
策略研究 绝大多数基于公开数据的回测研究,其有效性从未被严格证明。行业存在严重的"皇帝的新衣"现象。
长期盈利 说明市场中存在超越数据噪声的结构性真实——行为模式、制度摩擦、信息不对称,而非精确的财务数据。
价格数据 是金融数据中相对最真实的,但在高频环境下也非绝对可靠。价格发现是一个不完美的过程,而非一个精确的物理常数。
根本启示 金融市场不是一个"数据科学"问题,而是一个"认识论"问题。 长期盈利的关键不在于谁的数据更精确,而在于谁更理解这个系统的本质——它不是一个等着被"计算"的机器,而是一个由人类行为驱动的、充满结构性不完美的复杂适应系统。
最后一句话总结:在一个充满噪声的世界里,长期盈利的核心能力不是"找到真实数据",而是"理解什么是真实"。
一、数据造假:金融市场的结构性顽疾
金融市场的数据失真不是偶发事件,而是系统性的、结构性的。至少存在于以下几个维度:
1. 财务数据:利益驱动下的主动造假
从安然到瑞幸,从康美药业到各类中概股造假,上市公司财务造假从未停止。更隐蔽的是"合法的数据修饰"——盈余管理、收入确认时点选择、表外安排、关联交易非关联化。这些不算"造假",但离"真实"有相当距离。
2. 交易数据:流动性幻觉
高频交易中的虚假挂单(spoofing)、洗售交易(wash trading)制造了虚假的流动性。你在Level 2数据中看到的买卖盘口深度,可能大量是"幽灵订单",挂出即撤,从未打算成交。在加密货币市场,这个问题更加严重——多项研究表明,主要交易所的现货交易量中有相当比例是洗售交易。
3. 估值数据:主观性的制度化
场外资产、债券、复杂衍生品的估值高度依赖模型输入,"盯模"(mark-to-model)本身就是一个充满主观判断的过程。同一个资产池,不同机构的估值可能差异显著。
4. 宏观数据:滞后的、修正的、政治化的
GDP、CPI、就业数据等宏观指标存在时滞、口径调整、多次修正。不同国家的统计口径本身就不可比。
结论: 金融市场中,除极少数场景外,绝大多数数据都经过了不同程度的"加工"。所谓"真实数据"是一个连续光谱,而非非黑即白的二分。
二、基于不实数据的策略研究:方法论的内在荒谬
"Garbage in, garbage out"是计算机科学的基本原则,在金融领域同样适用,但被广泛忽视。
1. 回测的致命缺陷
绝大多数量化策略研究依赖历史数据回测。如果基础数据本身存在造假或失真,那么:
回测中的"完美收益曲线"可能只是拟合了造假的财务数据模式
策略的统计显著性建立在虚假信号之上
夏普比率、最大回撤等指标毫无意义
2. 过拟合的叠加效应
即便数据是真实的,金融数据的低信噪比已经导致严重的过拟合问题。在数据造假的前提下,过拟合变成了"拟合噪声中的噪声",荒谬程度呈指数级上升。
3. 幸存者偏差的放大
能用于回测的数据本身已经经过了市场选择——退市的、造假被揭露的公司在数据库中被标注或剔除。你在用"幸存者"的数据做研究,而造假者恰恰是"幸存者"中最可疑的群体。
结论: 绝大多数公开发表的量化策略研究,其有效性建立在一个未经检验的假设上——"历史数据是真实的"。这个假设在金融市场中从未成立过,未来也不会成立。
三、悖论:为什么有人竟然还能长期盈利?
这是你问题中最精彩的部分。如果数据普遍不可靠,为什么还有人能长期盈利?这至少有四种解释,且可能同时成立:
解释A:他们掌握了相对真实的信息
顶级机构的调研能力、产业链信息、卫星数据、信用卡消费数据等另类数据源,虽然不完美,但比公开财务数据更接近真实。他们的alpha来自信息质量的不对称。
解释B:市场存在真正的非随机性
即便数据有噪声,人类行为的系统性偏差(损失厌恶、锚定效应、羊群行为)是稳定的、可重复的。趋势跟随、均值回归等策略的有效性不依赖于精确数据,而依赖于市场参与者的行为模式——这比任何财务数据都"真实"。
解释C:他们的"真实"不在数据层面
许多长期盈利的交易者根本不依赖财务数据或技术指标。他们交易的是市场结构(做市商的bid-ask spread)、流动性事件(期权到期日的gamma挤压)、制度性摩擦(ETF申赎套利)。这些机会的"信号"来自市场机制本身,而非外部数据。
解释D:幸存者偏差本身
"长期盈利"的样本中也存在幸存者偏差。我们听到的故事来自活下来的人。但如果一个人持续盈利10年、20年,跨越多个市场周期——纯靠运气的概率趋近于零。所以必须承认,某些人确实掌握了某种"接近真实"的东西。
结论: 长期盈利的存在,恰恰说明市场中存在某种超越数据噪声的结构性真实——但这种真实不在财务报表里,不在技术指标里,而在市场参与者的行为模式、市场机制的结构性摩擦、以及信息不对称的持续存在中。
四、价格数据:"最后一片净土"的裂缝
你提到价格数据是"唯一真实数据",这在传统金融理论中是一个被广泛接受的假设——价格是真金白银的交易结果,是所有市场参与者信息的最终汇总(有效市场假说的核心)。
但在高频环境下,这个假设也开始出现裂缝:
1. 闪崩与流动性幻觉
2010年5月6日的"闪电崩盘"中,某些股票价格在几秒内跌到1美分再恢复。这些价格是"真实的"吗?成交确实发生了,但它反映的不是基本面信息,而是流动性瞬间枯竭后的机械性成交。
2. Spoofing与价格操纵
高频交易者通过大量虚假挂单制造供需假象,诱导其他算法做出反应,从而推动价格向有利于自己的方向移动。虽然spoofing已被法律禁止,但它在技术上很难被完全检测和追溯。价格在被"轻微操纵"的状态下运行。
3. 延迟套利与信息不对称
交易所之间的微小延迟(微秒级)意味着同一资产在不同场所的价格短暂不一致。"真实价格"到底是哪个?在高频尺度上,不存在一个统一的"真实价格"——价格发现本身变成了一个分布式的、有延迟的、不完美的过程。
4. 暗池与碎片化
大量交易发生在暗池(dark pool)中,不在公开价格发现机制中体现。公开市场的价格可能只是"冰山一角"。
结论: 价格数据确实是所有金融数据中最接近"真实"的——但在高频环境下,它也并非绝对可靠。价格失真不是"数据错误",而是价格发现机制在高频率下本身的不完备性。这更像是一个物理测量问题:你用越精密的仪器去测量,量子效应就越明显,"精确值"本身就变得不确定。
五、总结性结论
表格
层面 结论
数据造假 不是"是否存在"的问题,而是"失真程度"的问题。几乎所有金融数据都有不同程度的失真。
策略研究 绝大多数基于公开数据的回测研究,其有效性从未被严格证明。行业存在严重的"皇帝的新衣"现象。
长期盈利 说明市场中存在超越数据噪声的结构性真实——行为模式、制度摩擦、信息不对称,而非精确的财务数据。
价格数据 是金融数据中相对最真实的,但在高频环境下也非绝对可靠。价格发现是一个不完美的过程,而非一个精确的物理常数。
根本启示 金融市场不是一个"数据科学"问题,而是一个"认识论"问题。 长期盈利的关键不在于谁的数据更精确,而在于谁更理解这个系统的本质——它不是一个等着被"计算"的机器,而是一个由人类行为驱动的、充满结构性不完美的复杂适应系统。
最后一句话总结:在一个充满噪声的世界里,长期盈利的核心能力不是"找到真实数据",而是"理解什么是真实"。
Edge
Chrome
Firefox

京公网安备 11010802031449号