奇趣网|统计宝|统计学配对策略套利

配对交易是均值回归的一种形式 ,具有始终对冲市场波动的独特优势。该策略基于数学分析。

原理如下。假设您有一对具有某种潜在经济联系的证券 X 和 Y。一个例子可能是生产相同产品的两家公司,或一条供应链中的两家公司。如果我们可以用数学模型对这种经济联系进行建模,我们就可以对其进行交易。

为了理解配对交易,我们需要理解三个数学概念: 平稳性、差分和协整。

平稳性是时间序列分析中最常见的未经检验的假设。当数据生成过程的参数不随时间变化时,我们通常假设数据是平稳的。或者考虑两个系列:A 和 B。系列 A 将生成具有固定参数的平稳时间序列,而 B 将随时间变化。

我们可以创建两个展示平稳和非平稳时间序列的图。

许多统计测试要求被测试的数据是平稳的。在非平稳数据集上使用某些统计数据可能会导致垃圾结果。

计算的平均值将显示所有数据点的平均值,但对未来状态的任何预测都没有用。与任何特定时间相比,它毫无意义,因为它是不同时间的不同状态混搭在一起的集合。这只是一个简单而清晰的例子,说明了为什么非平稳性会扭曲分析,在实践中会出现更微妙的问题。

为了测试平稳性,我们需要测试一个叫做单位根的东西 。

正如我们所见,基于时间序列 A 的检验统计量(与特定的 p 值对应),我们可能无法拒绝原假设。因此,A 系列很可能是静止的。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳的。

金融数量之间的相关性是出了名的不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。相关性的另一种统计度量是协整。这可能是衡量两个金融数量之间联系的更稳健的衡量标准,但迄今为止,几乎没有基于此概念的偏差理论。

两只股票可能在短期内完全相关,但从长远来看却出现分歧,一只增长,另一只下跌。相反,两只股票可能相互跟随,相距不会超过一定距离,但具有相关性,正负相关变化。如果我们是短期,相关性可能很重要,但如果我们在投资组合中长期持有股票,则无关紧要。

我们已经构建了两个协整序列的示例。我们现在绘制两者之间的差异。

如果我们发现时间序列为单位根,那么我们继续进行协整过程。有三种主要的协整检验方法:Johansen、Engle-Granger 和 Phillips-Ouliaris。我们将主要使用 Engle-Granger 测试。

相关性和协整性虽然在理论上相似,但完全不同。为了证明这一点,我们可以查看两个相关但不协整的时间序列的示例。

正如我们所看到的,序列 X 和 Y 之间存在非常强的相关性。然而,我们协整检验的 p 值产生了 0.7092,这意味着时间序列 X 和 Y 之间没有协整。

这种情况的另一个例子是正态分布系列和方波。

交易中的数据科学,在开始之前,我将首先定义一个函数,该函数可以使用我们已经涵盖的概念轻松找到协整对。

我们正在查看一组科技公司,看看它们中是否有任何一家是协整的。我们将首先定义我们想要查看的证券列表。然后我们将获得 2013 – 2018 年每个证券的定价数据..

如前所述,我们已经制定了一个经济假设,即科技行业内的证券子集之间存在某种联系,我们想测试是否存在任何协整对。与搜索数百种证券相比,这产生的多重比较偏差要小得多,而比为单个测试形成假设的情况略多。

现在我们可以绘制这两个时间序列的价差。为了实际计算价差,我们使用线性回归来获得我们两个证券之间的线性组合的系数,正如之前提到的恩格尔-格兰杰方法。

无论我们是使用价差法还是比率法,我们都可以看到我们的第一个图对 ADBE/SYMC 倾向于围绕均值移动。我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势的最理想方式。为此,我们需要使用 z 分数。

z 分数是数据点与平均值的标准差数。更重要的是,高于或低于总体平均值的标准差的数量来自原始分数。

在进行任何类型的交易策略时,明确定义和描述实际进行交易的时间点总是很重要的。例如,我需要买卖特定股票的最佳指标是什么?

我们将使用我们创建的比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量Y. 如果比率为正,则表示“买入”,否则表示卖出。

配对交易信号的好处在于,我们不需要知道价格将走向的绝对信息,我们只需要知道它的走向:上涨或下跌。

在训练和测试模型时,通常会有 70/30 或 80/20 的分割。我们只使用了 252 个点的时间序列(这是一年中的交易天数)。在训练和拆分数据之前,我们将在每个时间序列中添加更多数据点。

我们需要找出哪些特征在确定比率移动的方向上实际上很重要。知道比率最终总是会恢复到均值,也许与均值相关的移动平均线和指标将很重要。

标准正态分布的均值为 0,标准差为 1。从图中可以看出,很明显,如果时间序列超出均值 1 个标准差,则趋向于恢复到均值。使用这些模型,我们可以创建以下交易信号:

每当 z-score 低于 -1 时, 买入(1),这意味着我们预计比率会增加。

每当 z 得分高于 1 时,卖出(-1),这意味着我们预计比率会下降。

现在我们可以清楚地看到我们应该何时买入或卖出相应的股票。

现在,我们可以期望从这个策略中获得多少收益?对于从策略制定的策略来说,这是一个不错的利润。

这绝不是一个完美的战略,我们战略的实施也不是最好的。但是,有几件事可以改进。

  1. 使用更多的证券和更多样化的时间范围

对于配对交易策略的协整测试,我只使用了少数股票。自然地(并且在实践中)在行业内使用集群会更有效。我只用了只有5年的时间范围,这可能不能代表股市的波动。

  1. 处理过拟合

任何与数据分析和训练模型相关的事情都与过拟合问题有很大关系。有许多不同的方法可以处理像验证这样的过拟合,例如卡尔曼滤波器和其他统计方法。

  1. 调整交易信号

我们的交易算法没有考虑到相互重叠和交叉的股票价格。考虑到该代码仅根据其比率要求买入或卖出,它并未考虑实际上哪个股票更高或更低。

  1. 更高级的方法

这只是算法对交易的冰山一角。这很简单,因为它只处理移动平均线和比率。如果您想使用更复杂的统计数据,请使用。其他复杂示例包括 Hurst 指数、半衰期均值回归和卡尔曼滤波器等主题。

奇趣网|统计宝|波动值漏洞与统计学中的正态分布

正态分布,我们引入三个跟它相关的重要概念——方差、标准差,平均值。

丨平均值

平均值最好理解,它就是曲线顶部对应到横轴红点位置的数据。

丨标准差

方差和标准差说的基本是同一个东西——曲线两边拉伸的程度。

方差和标准差的差别:方差是标准差的平方,方差放大了标准差的差异。

看一下里面的蓝色线、红色线、黄色线他们的均值都是一样的。那么谁的标准差更大?

黄色线的标准差更大,蓝色线的标准差更小。

我们想象一下,在古代有两对武力平均值一样的队伍,一边是江湖人士组成,一边是正规军组成:

江湖人士里面挑出一个人来可能是武功盖世,也可能是一个弱鸡

正规军的标准差很小,他们说就随便挑出来一个基本都能打

丨方差

四个不同选手投掷飞镖

方差代表了结果的离散度,也代表了一个人发挥的稳定性。

这个图把方差和偏差放在一起,还有另外一个启发,我们可以很容易看出来四个选手里面得分:

最高的是 C,第二名是 D,第三名是 B,第四名是 A 。

他们就像我们生活中遇到的四种人:

第一种人 C 是坚定的聪明

第二种人 D 是不坚定的聪明

第三种人 B 是不坚定的愚蠢

第四种人 A 是坚定的愚蠢

启发

投掷飞镖的例子结合上面贝叶斯和大数定律可知,

在年轻时,我们通常因为眼界局限,所以容易陷入「坚定的愚蠢」的状态 A

这时候需要放开心态,让自己变成一个「不坚定的愚蠢」的B ——做加法,去拥抱新证据,去接纳很多异常值

逐渐接触到更加聪明的跟世界相处的方法,开始不断调整自己,进入到「不坚定的聪明」的状态 D

进入最后阶段:不断做减法,让自己逐渐只集中在最能发挥自己能力的区间 C 产生价值

但这还不是故事的全部,因为随着时代的发展,那个圆心的位置还会偏移。

而很多成年人在第一次成功之后,之所以很难再次成功,就是因为自己没有意识到圆心已经偏离了。之前那个坚定的聪明,突然之间就变成了坚定的愚蠢。

从贝叶斯公式的角度,这就是基础概率发生了重大的改变,此时就需要再一次进入循环,再一次让自己打破之前的坚定,回到不坚定的愚蠢的状态,然后再重新调整。

这种模型天生自带承上启下的咬合属性,能够做到承上启下咬合的内容是非常符合大脑的接收习惯。

“小数据阶段,大道理可能毫无参考价值。”

年末股市又是吃面周期。是周期,就有起落。

基本面没啥问题,不动就好。

生活中多留意“异常值”,要想到这可能是浪成于微澜之间。

最近重打三国杀,有些武将控场强、生牌稳定,这就是“基础概率”高的武将,发挥稳、获胜率高。

当然,人生比游戏难操作多了。不想太远,多积累基础概率。平时该吃吃,该喝喝,最近刷完《开端》,想起前年有一部爆款没看,开始补。

奇趣网|统计宝|抛硬币统计波动值中的强大数定律

在条件不变的情况下,我们做一个实验的次数越多,那些看起来很随机的事情最终发生总概率会接近一个稳定值。

比如抛硬币,随着你抛的次数越来越多,正面和反面的概率就会越来越收敛,接近 1/2 的中线,直到最终你抛上 1 千次, 1 万次,就会发现正面和反面的概率会越来越稳定的在 1/2。

这个现象在数学上可以严格证明,它就是柯尔莫哥洛夫的——“强大数定律”。

在一开始的小数据阶段,大道理可能毫无参考价值。

比如刚开始工作时,发现自己对所谓的大道理完全无感,比如

早睡早起有益身体健康

诚实是最好的护身符

不要抱怨,要运动

此时你要明白一个统计学的原理,因为年纪轻时你接触的数据样本太少,它们往往会大幅度的偏离世界的真相。人类也很难抗拒在连续抛几次硬币之后就开始总结经验的本能。

而那些能够流传数百上千年的大道理,都是经过无数次的抛硬币最终沉淀下来的统计学经验。通常随着你的年龄增加、阅历增加,会越来越发现他们说的是有道理。

理解“小数据统计的结果可能会大幅偏离大数据结论”这个道理就非常重要了。

比如你谈两次恋爱,如果对象都不靠谱,或者你找的前两份工作老板都不怎么样,那么你很可能就已经对恋爱和求职这两件事情产生了自己的经验总结,然后就会根据这个经验来指导自己的生活。

应对的方法是让自己保持更多的耐心,做更多的尝试,拿到更多的数据之后总结经验,不要太快给一件事情贴标签。

奇趣网|统计宝|研究统计最新漏洞的15种思路(15)

今天奇趣编程和大家分享最后一个随机数研究思路:“简化”。

真研究起来,世界上任何一个事物都很复杂,也难以研究穷尽,但所有的事物本身,都会有一个最基本的底层原理在支撑着它的运行,如果我们能找出这个底层原理,抓住本质去研究,就容易在短时间内得到研究成果。

打个形象的比喻,简化,就像是把一棵枝繁叶茂的大树,把树枝统统砍掉,只剩下树干,这样看起来就简单多了。

简化思路,就是要把复杂的事情进行简单化处理,把无关紧要的细节统统砍掉,只研究剩下的核心部分,先研究出成果,再去完善。

奇趣网|统计宝|研究统计最新漏洞的15种思路(14)

怎么样才能研究出随机数规律呢?奇趣编程分享一点自己的研究过程经验体会。

不管做哪一种研究,都应该全身心投入,全神贯注,在忘我的状态下,研究者是感觉不到时间的存在的,当跳出这种状态之后会有一种时间怎么过得这么快的感觉。

想进入这种心流状态需要有两个条件:

1、要有明确的目标,要完成的任务难度要适中。目标过大过远容易让人灰心,目标过小容易容易让人感觉不想动。

2、及时反馈。及时的反馈可以让人知道自己当前达到了什么位置,以及有没有走错方向,做错了什么,怎么纠正错误。

3、能发挥自己的某种能力。

4、能有集中的时间段安静的环境让人能不受外界的打扰。

只有进入心流状态,研究者才能极大地提高研究效率和研究深度,从而更容易研究出成果。

奇趣网|统计宝|研究统计最新漏洞的15种思路(13)

今天奇趣编程要和大家分享的是前景思维。

前景思维,就是要对未来做出远见,考虑未来的风险和收益,而不是仅着眼于当前。对于未来,人类往往会有三种明显的特点:

1、大多数人看到利益时容易忘记风险。

2、大多数人在看到亏损时容易忘记这也许是个获得收益的机会。

3、相比于获得利益,大多数人更害怕亏损。

反映在随机数市场上,多数人往往会得到一点盈利后就选择落袋为安而不是吃干榨净,在面对风险与可能的收益之间往往会选择碰运气,得到同等的利益也难以抵消同等的损失。

奇趣网|统计宝|研究统计最新漏洞的15种思路(12)

奇趣编程在研究随机数规律的过程中发现,任何思维模型,在了解其底层原理之后,都需要通过刻意才能真正掌握。我们今天要分享的是费马帕斯卡系统,用概率来做理性分析和理性决策。

但生活中仍然有很多事情是和知识、能力、情绪、理性无关的,这些事情的出现仅仅是因为概率,或者称之为运气。你必须看到这个世界真实的样子,才能做出正确的选择,才不会轻易掉进陷阱,世界的本质是随机的,只有从认知上明白某件事出现的概率有多少,做决定才会更理性,才能形成自己的概率优势。

奇趣网|统计宝|研究统计最新漏洞的15种思路(11)

在随机数规律研究中,我们用的基本上都是数学上的思维工具,今天奇趣编程和大家分享的是排列组合思维。

我们知道,任何一个事物,它的存在和变化都不是孤立的,必定会有很多因素对它进行互动形成干扰,那我们就可以通过分类、分步的方式,把它们形成不同的排列组合。

在解决问题时,往往一个学科的知识并不能解决这个问题,需要我们把多个不同学科的知识进行排列组合在一起,综合起来考虑问题,这样考虑问题才能更全面,问题也更容易解决。

奇趣网|统计宝|研究统计最新漏洞的15种思路(10)

奇趣编程继续和大家分享研究随机数规律中要用到的第十种思路:放弃偏见。

当我们去研究随机数规律的时候,往往容易把注意力放在已知部分,而不是放在未知部分,从而经常造成对随机数规律的判断失误。

如果我们从未来的一个更高的角度来观察自己在研究过程中的局限,可能会感觉到当前的自己与未来的自己有一个巨大的信息差,也许当前的自己所了解的只是未来的自己所知的1%。

偏见总会影响我们生活的方方面面,比如对工作,过去的成功经验往往会形成路径依赖,从而使我们不敢再去探索开辟一条新的路线。

偏见也总会影响我们对某一观点的固执坚持。

偏见总是让我们对某些旧事物产生依恋而难以发现新事物的优点。

很多人明明知道偏见不好,却依然无法放弃偏见,因为放弃偏见意味着与旧事物和旧观念割离,会产生痛苦。

我们应该怎么放弃偏见呢?奇趣编程认为可以从下面这些方面入手,逐步放弃偏见。

1、调整心态,让自己变得谦虚,人只有谦虚了才能接受新知识新认知。

2、全面思考,不仅要学会归纳法思考,对现在的知识和信息进行归纳总结寻找规律,还要学会演绎法思考,对新事物进行推理演变从而找出新规律。

3、动态观念,任何事物任何规律都不是一成不变的,任何事物和规律都在不停地发展变化当中,要用动态的观点去观察思考事物本身的规律。

奇趣网|统计宝|研究统计最新漏洞的15种思路(9)

奇趣编程今天和大家分享第九种思路。

笛卡尔有一句名言:“I think,therefore I am。”,翻译过来的意思是“我思故我在”,那这个思路对随机数规律研究有什么帮助呢?就是要敢于思考,敢于质疑,敢于创新,这就是批判性思维。

奇趣编程看到,人类科学的发展史,不仅仅有演化和传承,还有批判和颠覆。我们越是一味地尊古重古而不敢创新,那么历史的包袱只会越来越厚重,对自己的束缚也越来越大。

在随机数规律研究中,敢于对现在的统计学、概率论进行反思和批判性思考,也许能找到一条出路。