奇趣网|统计宝|波动值与方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。


标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。


方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。

奇趣网|统计宝|打造自动化盈利程序的关键

首先,一个交易系统必须具备精准定义的特性,否则后续的实盘统计系统修正是无法跟进的;

其次,一个交易系统可以包含多个子系统,但子系统之间必须没有丝毫关联性,尤其在进场条件范围必须完全没有相交的部分;

再次,就是市场原理,你的交易系统必须有个人独特的市场原理支撑,才能让你的交易系统具有生命力;

接着,是各个子系统的基本构成,进场条件、过滤条件、出场条件、初试止损、平保止损、跟进止损、止盈、仓位管理、情绪管理等;以及一些作为补充说明的系统附件;

最后,是每天的交易总结报告、系统交易记录表(根据精准定义系统条件后的统计结果,可以对交易系统的各个环节、参数、止盈、止损位置进行有效调整)、月度交易总结报告、以及根据统计结果进行调整后的按照时间编号的不同版本交易系统(以便比较)。

量化的基础是精准定义,许多人以某形态为进场依据,那么精准定义就要求结合明确位置的基础上,以波动点为标准的精准定义。

比如说5分钟条件下的双底上涨突破,那么就存在3个关键位置,一底低点、一底反弹高点、二底低点;

这3个位置就是量化的基本标准,同时也是系统构建的参数基础,比如你可以要求一底反弹高点不得高于一底低点30点,二底低点不得低于一底低点5点且低于二底反弹高点15点,等等过滤要求。

有了这些基本要求、可以精准到点数的标准,才能对系统交易结果进行量化统计。

比如在上述的基础上,就可以对每一次双底突破形态出现时二底和一底的位置差距、突破后的最大波动、突破后的平均波动、突破后回抽的时间深度、两底之间的时间差距、等等各项指标进行统计。

在得出统计结果后,就可以明确地知道交易系统信号发生后,在哪个位置止损、止盈合理,哪些参数需要修正等等,只有能够精准定义,才能有有效的统计结果,只有有了这些统计数据,才能知道自己错在什么地方,并进行调整,也能够清晰有效地控制止损止盈。

只要是熟悉交易的人都明白,只要成功率和盈亏比配搭合理,交易就等于一只脚踏进了稳定盈利的大门,可问题是如何确定盈亏比和成功率却也是有前提条件的!

如果仅仅是依据自己的交易结果,按照自己的平均亏损和平均盈利得出的盈亏比和成功率,那一定是无效的,因为你没有一单是在同一个框架下的,就好比你拿小学3年级的期末考试成绩+大学毕业时的论文成绩+学日语的随堂测试成绩的平均成绩一样,有任何意义吗?

那么,有效的成功率、盈亏比,就一定是在统一标准的量化统计下得出的,而统一标准就意味着无论是系统的基础标准、参数,还是系统构建完成后的统计标准都必须是一致的。甚至在通过统计结果对系统进行重大修正后的统计都必须是要归零,重新记录统计的。

没有统一的标准,就无法知道你的交易系统最佳的初试止损位在哪里,只有初试止损(无论是位置还是点数)相对固定,才有成功率一说,不然靠死抗,成功率可以90%以上,可报酬率呢?

有了统一口径的统计结果,就能知道你的系统最佳的波动值是多少,平均波动值多少,以及80%的波动值下限在哪里,这样也就可以清楚地知道你的系统止盈位置在哪里开始最合理。只有这样才能得出有效的平均理论获利值和平均盈利,只有这样盈亏比才有效。难道把盈利1个点和盈利100个点放在一起得出盈亏比吗?

每个交易者都在讨论的成功率和盈亏比,在没有精确定义的量化交易系统情况下,是无法得出有效值的。当然如果你仅仅想知道自己交易一段时间的成果,那另当别论。

奇趣网|统计宝|统计学配对策略套利

配对交易是均值回归的一种形式 ,具有始终对冲市场波动的独特优势。该策略基于数学分析。

原理如下。假设您有一对具有某种潜在经济联系的证券 X 和 Y。一个例子可能是生产相同产品的两家公司,或一条供应链中的两家公司。如果我们可以用数学模型对这种经济联系进行建模,我们就可以对其进行交易。

为了理解配对交易,我们需要理解三个数学概念: 平稳性、差分和协整。

平稳性是时间序列分析中最常见的未经检验的假设。当数据生成过程的参数不随时间变化时,我们通常假设数据是平稳的。或者考虑两个系列:A 和 B。系列 A 将生成具有固定参数的平稳时间序列,而 B 将随时间变化。

我们可以创建两个展示平稳和非平稳时间序列的图。

许多统计测试要求被测试的数据是平稳的。在非平稳数据集上使用某些统计数据可能会导致垃圾结果。

计算的平均值将显示所有数据点的平均值,但对未来状态的任何预测都没有用。与任何特定时间相比,它毫无意义,因为它是不同时间的不同状态混搭在一起的集合。这只是一个简单而清晰的例子,说明了为什么非平稳性会扭曲分析,在实践中会出现更微妙的问题。

为了测试平稳性,我们需要测试一个叫做单位根的东西 。

正如我们所见,基于时间序列 A 的检验统计量(与特定的 p 值对应),我们可能无法拒绝原假设。因此,A 系列很可能是静止的。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳的。

金融数量之间的相关性是出了名的不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。相关性的另一种统计度量是协整。这可能是衡量两个金融数量之间联系的更稳健的衡量标准,但迄今为止,几乎没有基于此概念的偏差理论。

两只股票可能在短期内完全相关,但从长远来看却出现分歧,一只增长,另一只下跌。相反,两只股票可能相互跟随,相距不会超过一定距离,但具有相关性,正负相关变化。如果我们是短期,相关性可能很重要,但如果我们在投资组合中长期持有股票,则无关紧要。

我们已经构建了两个协整序列的示例。我们现在绘制两者之间的差异。

如果我们发现时间序列为单位根,那么我们继续进行协整过程。有三种主要的协整检验方法:Johansen、Engle-Granger 和 Phillips-Ouliaris。我们将主要使用 Engle-Granger 测试。

相关性和协整性虽然在理论上相似,但完全不同。为了证明这一点,我们可以查看两个相关但不协整的时间序列的示例。

正如我们所看到的,序列 X 和 Y 之间存在非常强的相关性。然而,我们协整检验的 p 值产生了 0.7092,这意味着时间序列 X 和 Y 之间没有协整。

这种情况的另一个例子是正态分布系列和方波。

交易中的数据科学,在开始之前,我将首先定义一个函数,该函数可以使用我们已经涵盖的概念轻松找到协整对。

我们正在查看一组科技公司,看看它们中是否有任何一家是协整的。我们将首先定义我们想要查看的证券列表。然后我们将获得 2013 – 2018 年每个证券的定价数据..

如前所述,我们已经制定了一个经济假设,即科技行业内的证券子集之间存在某种联系,我们想测试是否存在任何协整对。与搜索数百种证券相比,这产生的多重比较偏差要小得多,而比为单个测试形成假设的情况略多。

现在我们可以绘制这两个时间序列的价差。为了实际计算价差,我们使用线性回归来获得我们两个证券之间的线性组合的系数,正如之前提到的恩格尔-格兰杰方法。

无论我们是使用价差法还是比率法,我们都可以看到我们的第一个图对 ADBE/SYMC 倾向于围绕均值移动。我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势的最理想方式。为此,我们需要使用 z 分数。

z 分数是数据点与平均值的标准差数。更重要的是,高于或低于总体平均值的标准差的数量来自原始分数。

在进行任何类型的交易策略时,明确定义和描述实际进行交易的时间点总是很重要的。例如,我需要买卖特定股票的最佳指标是什么?

我们将使用我们创建的比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量Y. 如果比率为正,则表示“买入”,否则表示卖出。

配对交易信号的好处在于,我们不需要知道价格将走向的绝对信息,我们只需要知道它的走向:上涨或下跌。

在训练和测试模型时,通常会有 70/30 或 80/20 的分割。我们只使用了 252 个点的时间序列(这是一年中的交易天数)。在训练和拆分数据之前,我们将在每个时间序列中添加更多数据点。

我们需要找出哪些特征在确定比率移动的方向上实际上很重要。知道比率最终总是会恢复到均值,也许与均值相关的移动平均线和指标将很重要。

标准正态分布的均值为 0,标准差为 1。从图中可以看出,很明显,如果时间序列超出均值 1 个标准差,则趋向于恢复到均值。使用这些模型,我们可以创建以下交易信号:

每当 z-score 低于 -1 时, 买入(1),这意味着我们预计比率会增加。

每当 z 得分高于 1 时,卖出(-1),这意味着我们预计比率会下降。

现在我们可以清楚地看到我们应该何时买入或卖出相应的股票。

现在,我们可以期望从这个策略中获得多少收益?对于从策略制定的策略来说,这是一个不错的利润。

这绝不是一个完美的战略,我们战略的实施也不是最好的。但是,有几件事可以改进。

  1. 使用更多的证券和更多样化的时间范围

对于配对交易策略的协整测试,我只使用了少数股票。自然地(并且在实践中)在行业内使用集群会更有效。我只用了只有5年的时间范围,这可能不能代表股市的波动。

  1. 处理过拟合

任何与数据分析和训练模型相关的事情都与过拟合问题有很大关系。有许多不同的方法可以处理像验证这样的过拟合,例如卡尔曼滤波器和其他统计方法。

  1. 调整交易信号

我们的交易算法没有考虑到相互重叠和交叉的股票价格。考虑到该代码仅根据其比率要求买入或卖出,它并未考虑实际上哪个股票更高或更低。

  1. 更高级的方法

这只是算法对交易的冰山一角。这很简单,因为它只处理移动平均线和比率。如果您想使用更复杂的统计数据,请使用。其他复杂示例包括 Hurst 指数、半衰期均值回归和卡尔曼滤波器等主题。

奇趣网|统计宝|波动值漏洞与统计学中的正态分布

正态分布,我们引入三个跟它相关的重要概念——方差、标准差,平均值。

丨平均值

平均值最好理解,它就是曲线顶部对应到横轴红点位置的数据。

丨标准差

方差和标准差说的基本是同一个东西——曲线两边拉伸的程度。

方差和标准差的差别:方差是标准差的平方,方差放大了标准差的差异。

看一下里面的蓝色线、红色线、黄色线他们的均值都是一样的。那么谁的标准差更大?

黄色线的标准差更大,蓝色线的标准差更小。

我们想象一下,在古代有两对武力平均值一样的队伍,一边是江湖人士组成,一边是正规军组成:

江湖人士里面挑出一个人来可能是武功盖世,也可能是一个弱鸡

正规军的标准差很小,他们说就随便挑出来一个基本都能打

丨方差

四个不同选手投掷飞镖

方差代表了结果的离散度,也代表了一个人发挥的稳定性。

这个图把方差和偏差放在一起,还有另外一个启发,我们可以很容易看出来四个选手里面得分:

最高的是 C,第二名是 D,第三名是 B,第四名是 A 。

他们就像我们生活中遇到的四种人:

第一种人 C 是坚定的聪明

第二种人 D 是不坚定的聪明

第三种人 B 是不坚定的愚蠢

第四种人 A 是坚定的愚蠢

启发

投掷飞镖的例子结合上面贝叶斯和大数定律可知,

在年轻时,我们通常因为眼界局限,所以容易陷入「坚定的愚蠢」的状态 A

这时候需要放开心态,让自己变成一个「不坚定的愚蠢」的B ——做加法,去拥抱新证据,去接纳很多异常值

逐渐接触到更加聪明的跟世界相处的方法,开始不断调整自己,进入到「不坚定的聪明」的状态 D

进入最后阶段:不断做减法,让自己逐渐只集中在最能发挥自己能力的区间 C 产生价值

但这还不是故事的全部,因为随着时代的发展,那个圆心的位置还会偏移。

而很多成年人在第一次成功之后,之所以很难再次成功,就是因为自己没有意识到圆心已经偏离了。之前那个坚定的聪明,突然之间就变成了坚定的愚蠢。

从贝叶斯公式的角度,这就是基础概率发生了重大的改变,此时就需要再一次进入循环,再一次让自己打破之前的坚定,回到不坚定的愚蠢的状态,然后再重新调整。

这种模型天生自带承上启下的咬合属性,能够做到承上启下咬合的内容是非常符合大脑的接收习惯。

“小数据阶段,大道理可能毫无参考价值。”

年末股市又是吃面周期。是周期,就有起落。

基本面没啥问题,不动就好。

生活中多留意“异常值”,要想到这可能是浪成于微澜之间。

最近重打三国杀,有些武将控场强、生牌稳定,这就是“基础概率”高的武将,发挥稳、获胜率高。

当然,人生比游戏难操作多了。不想太远,多积累基础概率。平时该吃吃,该喝喝,最近刷完《开端》,想起前年有一部爆款没看,开始补。

奇趣网|统计宝|抛硬币统计波动值中的强大数定律

在条件不变的情况下,我们做一个实验的次数越多,那些看起来很随机的事情最终发生总概率会接近一个稳定值。

比如抛硬币,随着你抛的次数越来越多,正面和反面的概率就会越来越收敛,接近 1/2 的中线,直到最终你抛上 1 千次, 1 万次,就会发现正面和反面的概率会越来越稳定的在 1/2。

这个现象在数学上可以严格证明,它就是柯尔莫哥洛夫的——“强大数定律”。

在一开始的小数据阶段,大道理可能毫无参考价值。

比如刚开始工作时,发现自己对所谓的大道理完全无感,比如

早睡早起有益身体健康

诚实是最好的护身符

不要抱怨,要运动

此时你要明白一个统计学的原理,因为年纪轻时你接触的数据样本太少,它们往往会大幅度的偏离世界的真相。人类也很难抗拒在连续抛几次硬币之后就开始总结经验的本能。

而那些能够流传数百上千年的大道理,都是经过无数次的抛硬币最终沉淀下来的统计学经验。通常随着你的年龄增加、阅历增加,会越来越发现他们说的是有道理。

理解“小数据统计的结果可能会大幅偏离大数据结论”这个道理就非常重要了。

比如你谈两次恋爱,如果对象都不靠谱,或者你找的前两份工作老板都不怎么样,那么你很可能就已经对恋爱和求职这两件事情产生了自己的经验总结,然后就会根据这个经验来指导自己的生活。

应对的方法是让自己保持更多的耐心,做更多的尝试,拿到更多的数据之后总结经验,不要太快给一件事情贴标签。

奇趣网|统计宝|研究统计最新漏洞的15种思路(15)

今天奇趣编程和大家分享最后一个随机数研究思路:“简化”。

真研究起来,世界上任何一个事物都很复杂,也难以研究穷尽,但所有的事物本身,都会有一个最基本的底层原理在支撑着它的运行,如果我们能找出这个底层原理,抓住本质去研究,就容易在短时间内得到研究成果。

打个形象的比喻,简化,就像是把一棵枝繁叶茂的大树,把树枝统统砍掉,只剩下树干,这样看起来就简单多了。

简化思路,就是要把复杂的事情进行简单化处理,把无关紧要的细节统统砍掉,只研究剩下的核心部分,先研究出成果,再去完善。

奇趣网|统计宝|研究统计最新漏洞的15种思路(14)

怎么样才能研究出随机数规律呢?奇趣编程分享一点自己的研究过程经验体会。

不管做哪一种研究,都应该全身心投入,全神贯注,在忘我的状态下,研究者是感觉不到时间的存在的,当跳出这种状态之后会有一种时间怎么过得这么快的感觉。

想进入这种心流状态需要有两个条件:

1、要有明确的目标,要完成的任务难度要适中。目标过大过远容易让人灰心,目标过小容易容易让人感觉不想动。

2、及时反馈。及时的反馈可以让人知道自己当前达到了什么位置,以及有没有走错方向,做错了什么,怎么纠正错误。

3、能发挥自己的某种能力。

4、能有集中的时间段安静的环境让人能不受外界的打扰。

只有进入心流状态,研究者才能极大地提高研究效率和研究深度,从而更容易研究出成果。

奇趣网|统计宝|研究统计最新漏洞的15种思路(13)

今天奇趣编程要和大家分享的是前景思维。

前景思维,就是要对未来做出远见,考虑未来的风险和收益,而不是仅着眼于当前。对于未来,人类往往会有三种明显的特点:

1、大多数人看到利益时容易忘记风险。

2、大多数人在看到亏损时容易忘记这也许是个获得收益的机会。

3、相比于获得利益,大多数人更害怕亏损。

反映在随机数市场上,多数人往往会得到一点盈利后就选择落袋为安而不是吃干榨净,在面对风险与可能的收益之间往往会选择碰运气,得到同等的利益也难以抵消同等的损失。

奇趣网|统计宝|研究统计最新漏洞的15种思路(12)

奇趣编程在研究随机数规律的过程中发现,任何思维模型,在了解其底层原理之后,都需要通过刻意才能真正掌握。我们今天要分享的是费马帕斯卡系统,用概率来做理性分析和理性决策。

但生活中仍然有很多事情是和知识、能力、情绪、理性无关的,这些事情的出现仅仅是因为概率,或者称之为运气。你必须看到这个世界真实的样子,才能做出正确的选择,才不会轻易掉进陷阱,世界的本质是随机的,只有从认知上明白某件事出现的概率有多少,做决定才会更理性,才能形成自己的概率优势。

奇趣网|统计宝|研究统计最新漏洞的15种思路(11)

在随机数规律研究中,我们用的基本上都是数学上的思维工具,今天奇趣编程和大家分享的是排列组合思维。

我们知道,任何一个事物,它的存在和变化都不是孤立的,必定会有很多因素对它进行互动形成干扰,那我们就可以通过分类、分步的方式,把它们形成不同的排列组合。

在解决问题时,往往一个学科的知识并不能解决这个问题,需要我们把多个不同学科的知识进行排列组合在一起,综合起来考虑问题,这样考虑问题才能更全面,问题也更容易解决。