第四篇
Forward looking和决策评价
1
Forward looking bias
所谓Forward looking,就是在开发模型时利用到了任何形式的未来信息,会导致模型回测结果过于好而产生的不可信任(too good to be true)。容易发现的 Forward looking,比如今天用到了明天的成交量,两个品种收盘时间不同但第一个品种用到了第二个品种的收盘信息等等。但还有很多隐蔽的Forward looking bias。比如,历史上接受的数据是错误的,但回测时使用了修正后的正确数据;公司的公告是3月31日,但实际上4月2日才能真正得到信息,回测时想当然认为3月31日就能得到;知道近期小盘股表现出色,把模型FIT到近期偏重于小盘股;看到了近期某类因子表现较差,就在组合里把这类因子中性化去除等等。后面这几类也都是属于在回测时利用到了在当时未知的信息,不如最简单的Forward looking bias容易发现,却会带来一定的误导性。
量化研究员往往刚入行时,就会被告知Forward looking的严重性,并在回测时尽量避免出现这类问题,在信息不能确定是否有bias的时候,尽量使用较为悲观保守的假设。然而我们在生活中却经常发现,人们讨论或评价社会问题时,往往是用当下的视角Forward looking地去评价以往发生的事情。我们经常听到人们评价某些历史人物或事件:
“某某人因为AAA和BBB,做出了错误的XXX的决定,而这个决定最终导致了YYY的失败。”
但问题是在当下去回看历史时,已经是站在“上帝视角”了。在当时的历史环境和认知水平下,今人未必能做出比前人更好的决策,现在的键盘侠也未必比历史的决策者更高明。在投资里这种现象更为常见:当回看历史的投资决策时,经常会发现好像有那么多显而易见的机会都错过了,就是当时没有反应过来,比如北京的房价肯定要涨啊,新冠来了肯定要跌啊,等等,但在当时的环境下未必就能得到同样的判断。利用现在的信息去评价过去的投资机会,就是很严重的Forward looking。宏观研究员对下一年指数的预测少有正确的,而且大部分都错的离谱,但当回顾历史时他们还是会说“正如我们所判断的……” 所以再听到这类评价历史事件或投资机会的高论时,不妨请他给出目前的预测:未来一年的国际政治局势如何?未来一年哪种大类资产收益最好?然后把他的预测记录在区块链上,未来大概率会被啪啪打脸。
2
如何评价决策
从量化研究的角度,要公正的评价决策或投资的得失,应基于当时可以获得的信息和科学技术水平,评价是否做出了在当时(概率上)最优的决策或选择。这里就又涉及了另一个常见的偏见(bias): 人们往往是以决策的结果来评价决策,而不是决策本身的质量来评价决策。比如,一个教练换下去了一个球员,结果换上的新球员摆了乌龙球,大部分人会本能的认为这个教练做了个错误的很差的决策。然而在专业的角度,更可能的是教练做出了当时概率上最佳的选择:他换下了体力不支的球员,只是运气不好才导致了最终结果。
再比如,如果让你想一个你历史上最好的和最差的投资决策。毋庸置疑,绝大部分人给出的好的投资决策都是挣了大钱的决策,而最差的都是亏了大钱的决策。这其实也是从结果来评价了决策本身,而不是从质量本身来判断。好的决策也许更应是最合理的、体现了最多智慧和努力的决策,但未必是(甚至往往不会是)挣了最多钱的决策。
当然,这种本能的、结果导向的决策评价有其合理之处,可以认为是一种人脑自动强化学习的机制。但从量化投资的角度,所有的模型都只能给出一定的概率,没有模型是百分之百获利的;如果模型在当时已经按照可用的信息给出了其最好的估计,即使最终亏了钱,也是完全正常并需要接受的结果,且并不应因此否定模型给出的决策本身。统计套利(statistical arbitrage)也是通过大量重复的决策、交易而不是一次或几次的交易结果,来评价模型的质量,进一步通过更多的模型来最终获利。
3
小样本的问题
生活中,我们经常会听到如下对话:
“EEE吃了FFF的药,可神奇了,药到病除!” “真的啊,我也买点试试!”
“MMM一点也不好,我试了一次一点都没有效果!” “骗子,再也不相信他了。”
“电视上NNN说了,大家都应该去做XXX。” “NNN都这么说了,一定是对的。”
这类身边人的“经验”往往来自于身边很小很小的样本,完全没有统计意义或统计显著性。对基于统计的量化模型来说,统计显著性和样本个数有极其重要的地位。样本越小,风险越大,越难以建模。因此获得显著的样本个数对量化模型至关重要。但无奈的是,因为人自身时间和空间上的局限性,我们的认知、三观甚至信仰,往往会受身边的少数个例影响。比如,遇到了一个渣男可能会影响一个女生一生的婚恋观;即使是受过严格科学训练的清北博士,可能也会因为自己的本科同学混的大都比自己好,从而得出“博士无用”、“速速劝退”的结论。我们往往倾向于相信自己亲近人的小样本的个例,而不是更大数据统计出来的普遍规律。
从较宏大的历史观来看也有类似的地方。比如常见的所谓体制之争:西方体系的信奉者往往认为西方体系是唯一正确道路,凡是不按此体系、意识形态发展的国家都将最终失败(比如《历史的终结与最后的人》)。然而从历史长周期来看,现在西方体系的成功在整个人类历史上也只有不算多的样本个数,也很难说是否具有统计显著性。
或许,我们可以从量化角度来帮助做出生活中的决定:在做决策时,尽量增加样本个数,或者通过调研获得尽量多的信息,避免少数样本的过度影响;在得到结果时,不完全以结果为导向,而更多地关注是否能进一步提高决策本身的能力;在回看结果时,不forward looking,不放马后炮,更好地根据历史结果指导未来新的决策。