 微信

海通金工 | 选股因子系列研究（七十九）——用注意力机制优化深度学习高频因子

来源外汇天眼 06-05 07:00

　　冯佳睿

　　海通金融工程研究首席分析师

　　S0850512080006

　　投资要点

　　本系列前期报告从高频指标序列出发，使用 RNN+NN 的模型架构生成了深度学习高频因子。回测结果表明，该类因子具有较为显著的周度选股能力。然而，在后续研究中，我们发现，当模型输入特征频率较高、序列较长时，GRU 和 LSTM 的记忆性会受到挑战，使得模型生成的因子选股效果明显减弱。为了解决 GRU 和 LSTM在输入序列较长时产生的“遗忘”问题，本文在原模型的基础上引入注意力机制。

　　人工逻辑类高频因子受到的挑战越来越大。2021.09-2021.12，反转型高频因子呈现较为明显的失效迹象。进入 2022 年后，除平均单笔流出金额占比外，其余反转型高频因子的多头超额收益仍未出现好转。动量型高频因子的表现分化明显。开盘后买入意愿占比因子依旧有显著的多头超额收益，而开盘后买入意愿强度因子表现较差。2021 年表现较好的开盘后大单净买入占比/强度因子 2022 年回撤幅度较大，但 4 月底以来已呈现大幅回升的态势。

　　深度学习高频因子 2021 年四季度的回撤，一方面可能是市场风格的快速切换所致，另一方面可能是源于因子本身的拥挤。为此，我们在报告《改进深度学习高频因子的 9 个尝试》中，提出了几项颇有成效的改进方案。具体包括，正交层的引入、训练集与验证集的重新切分、预测目标的调整。改进后的因子表现明显提升，不仅 2021 年四季度的回撤幅度显著缩窄，而且于 12 月下旬便开始反弹，大幅领先于改进前的因子。

　　在处理长度大幅提升的序列时，GRU 和 LSTM 模型信息提取能力不足的问题被暴露出来。换句话说，当输入序列过长时，GRU 和 LSTM 模型前期学习到的特征很难体现在最终的输出中，也就是模型“遗忘”了部分信息。例如，当我们尝试将模型的输入特征频率从 30 分钟提升至 10 分钟时，因子表现反而出现了下降。

　　引入注意力机制缓解“遗忘”问题。对于 RNN 每一期输出的隐含状态进行第二次信息提取，再输入后续模型，而非简单地使用最后一期的隐含状态。至于如何实现信息再提取，最简单的思路就是对每期的隐含状态赋权，并将它们一同输入后续模型中。

　　当特征频率为 10 分钟时，引入注意力机制可以优化深度学习高频因子的多头超额收益。在全区间（2016-2022.05）以及大部分年份中，引入注意力机制后的因子多头超额收益更优。尤为值得一提的是，因子 2020 年至今的表现显著提升，2021.09-2022.01 期间的回撤大幅减小，净值创新高的速度也更快，在一定程度上改善了潜在的因子拥挤问题。此外，注意力机制的引入还大幅提高了因子的自相关性，使得多头组合的换手率明显下降，对实际应用更有价值。

　　用残差注意力机制替换简单注意力机制能够进一步优化深度学习高频因子的表现。具体表现为，因子不仅在 2020 年起的每一年都取得了更高的多头超额收益，而且在 2016-2019 期间，展现出不弱于原始模型的业绩，尤其是在简单注意力机制模型表现较弱的 2019 年。此外，因子的自相关性显著高于原始模型，因而 Top10%组合的换手率更低。

　　风险提示。市场系统性风险、因子失效风险、模型误设风险。

免责声明：中金网发布此信息目的在于传播更多信息，与本网站立场无关。中金网不保证该信息的准确性、真实性、完整性、有效性等。相关信息并未经过本网站证实，不构成任何投资建议，据此操作，风险自担。

行业热点