配对交易是均值回归的一种形式 ,具有始终对冲市场波动的独特优势。该策略基于数学分析。
原理如下。假设您有一对具有某种潜在经济联系的证券 X 和 Y。一个例子可能是生产相同产品的两家公司,或一条供应链中的两家公司。如果我们可以用数学模型对这种经济联系进行建模,我们就可以对其进行交易。
为了理解配对交易,我们需要理解三个数学概念: 平稳性、差分和协整。
平稳性是时间序列分析中最常见的未经检验的假设。当数据生成过程的参数不随时间变化时,我们通常假设数据是平稳的。或者考虑两个系列:A 和 B。系列 A 将生成具有固定参数的平稳时间序列,而 B 将随时间变化。
我们可以创建两个展示平稳和非平稳时间序列的图。
许多统计测试要求被测试的数据是平稳的。在非平稳数据集上使用某些统计数据可能会导致垃圾结果。
计算的平均值将显示所有数据点的平均值,但对未来状态的任何预测都没有用。与任何特定时间相比,它毫无意义,因为它是不同时间的不同状态混搭在一起的集合。这只是一个简单而清晰的例子,说明了为什么非平稳性会扭曲分析,在实践中会出现更微妙的问题。
为了测试平稳性,我们需要测试一个叫做单位根的东西 。
正如我们所见,基于时间序列 A 的检验统计量(与特定的 p 值对应),我们可能无法拒绝原假设。因此,A 系列很可能是静止的。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳的。
金融数量之间的相关性是出了名的不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。相关性的另一种统计度量是协整。这可能是衡量两个金融数量之间联系的更稳健的衡量标准,但迄今为止,几乎没有基于此概念的偏差理论。
两只股票可能在短期内完全相关,但从长远来看却出现分歧,一只增长,另一只下跌。相反,两只股票可能相互跟随,相距不会超过一定距离,但具有相关性,正负相关变化。如果我们是短期,相关性可能很重要,但如果我们在投资组合中长期持有股票,则无关紧要。
我们已经构建了两个协整序列的示例。我们现在绘制两者之间的差异。
如果我们发现时间序列为单位根,那么我们继续进行协整过程。有三种主要的协整检验方法:Johansen、Engle-Granger 和 Phillips-Ouliaris。我们将主要使用 Engle-Granger 测试。
相关性和协整性虽然在理论上相似,但完全不同。为了证明这一点,我们可以查看两个相关但不协整的时间序列的示例。
正如我们所看到的,序列 X 和 Y 之间存在非常强的相关性。然而,我们协整检验的 p 值产生了 0.7092,这意味着时间序列 X 和 Y 之间没有协整。
这种情况的另一个例子是正态分布系列和方波。
交易中的数据科学,在开始之前,我将首先定义一个函数,该函数可以使用我们已经涵盖的概念轻松找到协整对。
我们正在查看一组科技公司,看看它们中是否有任何一家是协整的。我们将首先定义我们想要查看的证券列表。然后我们将获得 2013 – 2018 年每个证券的定价数据..
如前所述,我们已经制定了一个经济假设,即科技行业内的证券子集之间存在某种联系,我们想测试是否存在任何协整对。与搜索数百种证券相比,这产生的多重比较偏差要小得多,而比为单个测试形成假设的情况略多。
现在我们可以绘制这两个时间序列的价差。为了实际计算价差,我们使用线性回归来获得我们两个证券之间的线性组合的系数,正如之前提到的恩格尔-格兰杰方法。
无论我们是使用价差法还是比率法,我们都可以看到我们的第一个图对 ADBE/SYMC 倾向于围绕均值移动。我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势的最理想方式。为此,我们需要使用 z 分数。
z 分数是数据点与平均值的标准差数。更重要的是,高于或低于总体平均值的标准差的数量来自原始分数。
在进行任何类型的交易策略时,明确定义和描述实际进行交易的时间点总是很重要的。例如,我需要买卖特定股票的最佳指标是什么?
我们将使用我们创建的比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量Y. 如果比率为正,则表示“买入”,否则表示卖出。
配对交易信号的好处在于,我们不需要知道价格将走向的绝对信息,我们只需要知道它的走向:上涨或下跌。
在训练和测试模型时,通常会有 70/30 或 80/20 的分割。我们只使用了 252 个点的时间序列(这是一年中的交易天数)。在训练和拆分数据之前,我们将在每个时间序列中添加更多数据点。
我们需要找出哪些特征在确定比率移动的方向上实际上很重要。知道比率最终总是会恢复到均值,也许与均值相关的移动平均线和指标将很重要。
标准正态分布的均值为 0,标准差为 1。从图中可以看出,很明显,如果时间序列超出均值 1 个标准差,则趋向于恢复到均值。使用这些模型,我们可以创建以下交易信号:
每当 z-score 低于 -1 时, 买入(1),这意味着我们预计比率会增加。
每当 z 得分高于 1 时,卖出(-1),这意味着我们预计比率会下降。
现在我们可以清楚地看到我们应该何时买入或卖出相应的股票。
现在,我们可以期望从这个策略中获得多少收益?对于从策略制定的策略来说,这是一个不错的利润。
这绝不是一个完美的战略,我们战略的实施也不是最好的。但是,有几件事可以改进。
- 使用更多的证券和更多样化的时间范围
对于配对交易策略的协整测试,我只使用了少数股票。自然地(并且在实践中)在行业内使用集群会更有效。我只用了只有5年的时间范围,这可能不能代表股市的波动。
- 处理过拟合
任何与数据分析和训练模型相关的事情都与过拟合问题有很大关系。有许多不同的方法可以处理像验证这样的过拟合,例如卡尔曼滤波器和其他统计方法。
- 调整交易信号
我们的交易算法没有考虑到相互重叠和交叉的股票价格。考虑到该代码仅根据其比率要求买入或卖出,它并未考虑实际上哪个股票更高或更低。
- 更高级的方法
这只是算法对交易的冰山一角。这很简单,因为它只处理移动平均线和比率。如果您想使用更复杂的统计数据,请使用。其他复杂示例包括 Hurst 指数、半衰期均值回归和卡尔曼滤波器等主题。