奇趣网|统计宝|研究随机数序列能带来哪些好处?

奇趣编程长期研究随机数序列,经常会遇到有读者求教各种各样的问题,比如研究的是什么类型的随机数,怎么收集随机数,怎么分析随机数等等。今天和大家分享一下这方面的问题。

1、描述随机数序列的特点。比如,收集到的随机数是按时间正序的还是反序的,是否有时间段峰谷规律,是否有节假日规律,是否有季节性规律。

2、采集随机数数据。用什么采集随机数序列?奇趣编程用的是自行开发的免费开源的“统计宝”。

3、监测随机数规律。奇趣编程开发的“统计宝”自身带有多种图表可以监测随机数的规律。

4、预测随机数趋势变化。“统计宝”带有K线、MACD、KDJ、RSI等多种趋势分析图表,可以有效地预测随机数趋势变化。

5、随机数回归分析。利用“统计宝”同样可以分析出随机数的回归规律。

奇趣网|统计宝|什么是随机数序列?

奇趣编程给随机数序列的定义是,按时间先后顺序进行排列的随机数,就是随机数序列。

随机数序列要满足以下几个条件:

1、随机数序列必须是连续的。

2、随机数序列必须是有时间先后顺序的,不能打乱顺序。

3、随机数序列是等距的,即前后两个数据在时间上的间隔是一致的。

奇趣网|统计宝|什么是随机数偏差?

有读者向请教奇趣网反馈随机数偏差问题,那么什么是随机数偏差?怎么处理随机数偏差?今天奇趣编程和大家一起分享。

随机数偏差是我们在研究随机数规律的过程中经常会遇到的情况,因此我们需要清楚知道偏差的存在以及怎么处理这种问题。

随机数偏差通常有以下几种:

1、结构性偏差。有很多数据本身是自带偏见的,所以最终出来的数据也会有偏差。

2、数据收集造成的随机数偏差。在收集随机数的过程中,有可能因为各种原因而导致数据中断、数据核对不上等各种问题,从而出现随机数偏差。

3、数据操作不当造成的随机数偏差。

4、算法造成的随机数偏差。

5、实施过程中造成的随机数偏差。

以上便是随机数偏差常见的原因,只要我们细心地针对每一种可能引起随机数偏差的原因相应地去处理和优化,就能最大程度纠正随机数的偏差。

奇趣网|统计宝|找出随机数规律的三种研究方法

奇趣编程擅长用先进的统计学、概率论、人工智能和计算机编程来研究随机数规律,今天和大家分享下找出随机数规律的三种研究方法:计算、模拟、实验。

一、计算。通常奇趣网看到的随机数是用某种算法计算出来的,所以我们要知道数据的来源,了解原始数据是怎么样的,又是怎么计算出最终结果的。只有了解了这些前提条件,我们才能知道是真随机数还是伪随机数,是否符合统计学和概率论。

二、模拟。很多时候我们得到的随机数是很少量的,所以我们可以先用编程的方法批量生产出一批类似的随机数来进行模拟,用统计学、概率论、人工智能等方式来分析这些随机数有什么规律。

三、实验。当我们找出模拟的随机数的规律之后,就可以用真实的随机数来进行实验,看是否和模拟中的规律一致,如果不一致则找出两者中的不同,加以改进。

以上就是奇趣编程研究随机数规律的三种研究方法,欢迎加我交流。

奇趣网|统计宝|利用统计学基础知识研究抛硬币游戏

抛硬币游戏是一个充满不确定性的游戏。每个参与的玩家们都希望从中发现一些确定性的、可以把握的规律来获胜。于是出现了各种各样的研究方法。如技术分析、概率分析、心理分析等。在这些众多方法中就不得不提起统计学。

看完本文,你就能知道统计学也没多复杂。不仅帮助你在德扑游戏做出一些关键决策,甚至还会延展到生活或人生重大事件里。

统计是从数据中学习的科学。它可以帮助人们使用正确的方法来收集数据,进行正确的分析并有效地呈现最后的统计结果。具体到怎么收集数据,怎么分析数据,怎么不被有偏差的可能的结论影响,怎么做出正确的结论等等。可见,它是基于数据做出决策和做出预测的关键过程。

因此,统计学对抛硬币游戏很重要。

对于玩家们而言,如何知道某个结论是真实规律还是臆想?是偶然还是必然?有没有一种方法可以甄别?

统计学有一个非常重要的概念叫显著性。它就是用来衡量某种结论的可靠性,或者用来判断某种现象是必然因素的影响还是偶然因素的影响。在抛硬币游戏里,玩家们就可以借助这个概念做出判断。

均值这个概念想必大家都很熟悉了,在日常中很常用。学术上代表了统计学中对数据位置的度量。不过在有些场景下,要小心均值的欺骗性。

假设一家公司过去5年的盈利情况如左下图,横轴以上代表盈利,横轴以下的红色区域代表亏损。

按均值计算,这家公司有8%的月均收益率。然而,其中一条红色柱子特别深,说明当月公司亏损特别严重,危机导致现金流耗尽,哪怕最后两个月勉强回血,也撑不下去而倒闭了。

此时的均值显得毫无意义。

这也就是说一家公司的存续,不是看月均盈利,而是看它能否在遭遇突发重大挫折后挺住。打德扑也是此理。

在牌局上这种情况特别多,可以说每个玩家都会遇到此类现象。尤其是在关键时刻,哪怕你之前一直赢,往往一次输就决定了获胜者是谁。这个时候很多玩家的情绪就容易陷入挫败之中,因而影响接下来的发挥。

均值告诉我们:抛硬币游戏本来就是输赢无定的游戏,其中充满了很多不确定因素。有波动,属于正常。当遇到波动比较大的时候,要正视挫折,及时调整心态。但也要警惕挫折,要从这个信息中找到启示。

异常值顾名思义就是不合群的数值。而对待异常值通常有3种思路:

1、忽略战术

以前看歌唱比赛中,常听到:去掉一个最高分,去掉一个最低分,这位选手的最后得分是XX。在抛硬币游戏上,也是同理。赢一次或输一次代表不了什么,还是要看最终的决胜。这种最常见的舍弃,目的是规避不合理的异常值影响整体。

2、同化战术

在抛硬币游戏上充满着各种不确定因素。把每局的“异常值”与其他数据一视同仁,可以帮助玩家正视输赢,不以其中的一次异常否定自己的全部努力。

如果认为世界是连续的、稳定的,那么异常值的出现,常被认为是系统bug或者小插曲。最主流的,就代表了最正确的,就会以忽略或同化思维方式对待它们。

3、研究战术

在抛硬币游戏上,还有这样一种高手,他们总结每一次出现异常,并进行分析,最终得出一些结论。这类人往往会把异常值单独作为一个集合去研究。也体现了玩家的底层认知逻辑——认为异常值是存在即合理、值得研究的思考方式,隐含了世界是跳跃的、不均衡的逻辑假设。

异常值告诉我们:抛硬币游戏本来就是容易上头的游戏,其中充满了引发冲动情绪的因素。在牌局里,有异常值属于正常,但是需要对异常值提高关注。

一切决策都是对未来的决策。

单次的结果并不能武断地作为衡量决策正确与否的依据,因为再好的决策,也会受到运气、信息不完整不可控的因素影响,从而产生不甚理想的结果。所以,哪怕你没有赢,并不等于你决策失误。

从抛硬币游戏的启发,甚至可以延伸到与生活息息相关的每一个领域。最后总结一下我的看法,见微知著,洞悉趋势,把握先机。上至创业商战,小到生活琐事,借助均值和异常值的提示信息,分析得出一些辅助结论,很大概率上能帮助我们顺利完成每一次的蜕变。

奇趣网|统计宝|波动值与方差

方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。方差是衡量源数据和期望值相差的度量值。

当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。

样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。


标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。


方差不仅仅表达了样本偏离均值的程度,更是揭示了样本内部彼此波动的程度,也可以理解为方差代表了样本彼此波动的期望。

奇趣网|统计宝|打造自动化盈利程序的关键

首先,一个交易系统必须具备精准定义的特性,否则后续的实盘统计系统修正是无法跟进的;

其次,一个交易系统可以包含多个子系统,但子系统之间必须没有丝毫关联性,尤其在进场条件范围必须完全没有相交的部分;

再次,就是市场原理,你的交易系统必须有个人独特的市场原理支撑,才能让你的交易系统具有生命力;

接着,是各个子系统的基本构成,进场条件、过滤条件、出场条件、初试止损、平保止损、跟进止损、止盈、仓位管理、情绪管理等;以及一些作为补充说明的系统附件;

最后,是每天的交易总结报告、系统交易记录表(根据精准定义系统条件后的统计结果,可以对交易系统的各个环节、参数、止盈、止损位置进行有效调整)、月度交易总结报告、以及根据统计结果进行调整后的按照时间编号的不同版本交易系统(以便比较)。

量化的基础是精准定义,许多人以某形态为进场依据,那么精准定义就要求结合明确位置的基础上,以波动点为标准的精准定义。

比如说5分钟条件下的双底上涨突破,那么就存在3个关键位置,一底低点、一底反弹高点、二底低点;

这3个位置就是量化的基本标准,同时也是系统构建的参数基础,比如你可以要求一底反弹高点不得高于一底低点30点,二底低点不得低于一底低点5点且低于二底反弹高点15点,等等过滤要求。

有了这些基本要求、可以精准到点数的标准,才能对系统交易结果进行量化统计。

比如在上述的基础上,就可以对每一次双底突破形态出现时二底和一底的位置差距、突破后的最大波动、突破后的平均波动、突破后回抽的时间深度、两底之间的时间差距、等等各项指标进行统计。

在得出统计结果后,就可以明确地知道交易系统信号发生后,在哪个位置止损、止盈合理,哪些参数需要修正等等,只有能够精准定义,才能有有效的统计结果,只有有了这些统计数据,才能知道自己错在什么地方,并进行调整,也能够清晰有效地控制止损止盈。

只要是熟悉交易的人都明白,只要成功率和盈亏比配搭合理,交易就等于一只脚踏进了稳定盈利的大门,可问题是如何确定盈亏比和成功率却也是有前提条件的!

如果仅仅是依据自己的交易结果,按照自己的平均亏损和平均盈利得出的盈亏比和成功率,那一定是无效的,因为你没有一单是在同一个框架下的,就好比你拿小学3年级的期末考试成绩+大学毕业时的论文成绩+学日语的随堂测试成绩的平均成绩一样,有任何意义吗?

那么,有效的成功率、盈亏比,就一定是在统一标准的量化统计下得出的,而统一标准就意味着无论是系统的基础标准、参数,还是系统构建完成后的统计标准都必须是一致的。甚至在通过统计结果对系统进行重大修正后的统计都必须是要归零,重新记录统计的。

没有统一的标准,就无法知道你的交易系统最佳的初试止损位在哪里,只有初试止损(无论是位置还是点数)相对固定,才有成功率一说,不然靠死抗,成功率可以90%以上,可报酬率呢?

有了统一口径的统计结果,就能知道你的系统最佳的波动值是多少,平均波动值多少,以及80%的波动值下限在哪里,这样也就可以清楚地知道你的系统止盈位置在哪里开始最合理。只有这样才能得出有效的平均理论获利值和平均盈利,只有这样盈亏比才有效。难道把盈利1个点和盈利100个点放在一起得出盈亏比吗?

每个交易者都在讨论的成功率和盈亏比,在没有精确定义的量化交易系统情况下,是无法得出有效值的。当然如果你仅仅想知道自己交易一段时间的成果,那另当别论。

奇趣网|统计宝|统计学配对策略套利

配对交易是均值回归的一种形式 ,具有始终对冲市场波动的独特优势。该策略基于数学分析。

原理如下。假设您有一对具有某种潜在经济联系的证券 X 和 Y。一个例子可能是生产相同产品的两家公司,或一条供应链中的两家公司。如果我们可以用数学模型对这种经济联系进行建模,我们就可以对其进行交易。

为了理解配对交易,我们需要理解三个数学概念: 平稳性、差分和协整。

平稳性是时间序列分析中最常见的未经检验的假设。当数据生成过程的参数不随时间变化时,我们通常假设数据是平稳的。或者考虑两个系列:A 和 B。系列 A 将生成具有固定参数的平稳时间序列,而 B 将随时间变化。

我们可以创建两个展示平稳和非平稳时间序列的图。

许多统计测试要求被测试的数据是平稳的。在非平稳数据集上使用某些统计数据可能会导致垃圾结果。

计算的平均值将显示所有数据点的平均值,但对未来状态的任何预测都没有用。与任何特定时间相比,它毫无意义,因为它是不同时间的不同状态混搭在一起的集合。这只是一个简单而清晰的例子,说明了为什么非平稳性会扭曲分析,在实践中会出现更微妙的问题。

为了测试平稳性,我们需要测试一个叫做单位根的东西 。

正如我们所见,基于时间序列 A 的检验统计量(与特定的 p 值对应),我们可能无法拒绝原假设。因此,A 系列很可能是静止的。另一方面,B系列被假设检验拒绝,所以这个时间序列很可能是非平稳的。

金融数量之间的相关性是出了名的不稳定。尽管如此,几乎所有的多元金融问题都经常使用相关性。相关性的另一种统计度量是协整。这可能是衡量两个金融数量之间联系的更稳健的衡量标准,但迄今为止,几乎没有基于此概念的偏差理论。

两只股票可能在短期内完全相关,但从长远来看却出现分歧,一只增长,另一只下跌。相反,两只股票可能相互跟随,相距不会超过一定距离,但具有相关性,正负相关变化。如果我们是短期,相关性可能很重要,但如果我们在投资组合中长期持有股票,则无关紧要。

我们已经构建了两个协整序列的示例。我们现在绘制两者之间的差异。

如果我们发现时间序列为单位根,那么我们继续进行协整过程。有三种主要的协整检验方法:Johansen、Engle-Granger 和 Phillips-Ouliaris。我们将主要使用 Engle-Granger 测试。

相关性和协整性虽然在理论上相似,但完全不同。为了证明这一点,我们可以查看两个相关但不协整的时间序列的示例。

正如我们所看到的,序列 X 和 Y 之间存在非常强的相关性。然而,我们协整检验的 p 值产生了 0.7092,这意味着时间序列 X 和 Y 之间没有协整。

这种情况的另一个例子是正态分布系列和方波。

交易中的数据科学,在开始之前,我将首先定义一个函数,该函数可以使用我们已经涵盖的概念轻松找到协整对。

我们正在查看一组科技公司,看看它们中是否有任何一家是协整的。我们将首先定义我们想要查看的证券列表。然后我们将获得 2013 – 2018 年每个证券的定价数据..

如前所述,我们已经制定了一个经济假设,即科技行业内的证券子集之间存在某种联系,我们想测试是否存在任何协整对。与搜索数百种证券相比,这产生的多重比较偏差要小得多,而比为单个测试形成假设的情况略多。

现在我们可以绘制这两个时间序列的价差。为了实际计算价差,我们使用线性回归来获得我们两个证券之间的线性组合的系数,正如之前提到的恩格尔-格兰杰方法。

无论我们是使用价差法还是比率法,我们都可以看到我们的第一个图对 ADBE/SYMC 倾向于围绕均值移动。我们现在需要标准化这个比率,因为绝对比率可能不是分析这种趋势的最理想方式。为此,我们需要使用 z 分数。

z 分数是数据点与平均值的标准差数。更重要的是,高于或低于总体平均值的标准差的数量来自原始分数。

在进行任何类型的交易策略时,明确定义和描述实际进行交易的时间点总是很重要的。例如,我需要买卖特定股票的最佳指标是什么?

我们将使用我们创建的比率时间序列来查看它是否告诉我们是在特定时间买入还是卖出。我们将首先创建一个预测变量Y. 如果比率为正,则表示“买入”,否则表示卖出。

配对交易信号的好处在于,我们不需要知道价格将走向的绝对信息,我们只需要知道它的走向:上涨或下跌。

在训练和测试模型时,通常会有 70/30 或 80/20 的分割。我们只使用了 252 个点的时间序列(这是一年中的交易天数)。在训练和拆分数据之前,我们将在每个时间序列中添加更多数据点。

我们需要找出哪些特征在确定比率移动的方向上实际上很重要。知道比率最终总是会恢复到均值,也许与均值相关的移动平均线和指标将很重要。

标准正态分布的均值为 0,标准差为 1。从图中可以看出,很明显,如果时间序列超出均值 1 个标准差,则趋向于恢复到均值。使用这些模型,我们可以创建以下交易信号:

每当 z-score 低于 -1 时, 买入(1),这意味着我们预计比率会增加。

每当 z 得分高于 1 时,卖出(-1),这意味着我们预计比率会下降。

现在我们可以清楚地看到我们应该何时买入或卖出相应的股票。

现在,我们可以期望从这个策略中获得多少收益?对于从策略制定的策略来说,这是一个不错的利润。

这绝不是一个完美的战略,我们战略的实施也不是最好的。但是,有几件事可以改进。

  1. 使用更多的证券和更多样化的时间范围

对于配对交易策略的协整测试,我只使用了少数股票。自然地(并且在实践中)在行业内使用集群会更有效。我只用了只有5年的时间范围,这可能不能代表股市的波动。

  1. 处理过拟合

任何与数据分析和训练模型相关的事情都与过拟合问题有很大关系。有许多不同的方法可以处理像验证这样的过拟合,例如卡尔曼滤波器和其他统计方法。

  1. 调整交易信号

我们的交易算法没有考虑到相互重叠和交叉的股票价格。考虑到该代码仅根据其比率要求买入或卖出,它并未考虑实际上哪个股票更高或更低。

  1. 更高级的方法

这只是算法对交易的冰山一角。这很简单,因为它只处理移动平均线和比率。如果您想使用更复杂的统计数据,请使用。其他复杂示例包括 Hurst 指数、半衰期均值回归和卡尔曼滤波器等主题。

奇趣网|统计宝|波动值漏洞与统计学中的正态分布

正态分布,我们引入三个跟它相关的重要概念——方差、标准差,平均值。

丨平均值

平均值最好理解,它就是曲线顶部对应到横轴红点位置的数据。

丨标准差

方差和标准差说的基本是同一个东西——曲线两边拉伸的程度。

方差和标准差的差别:方差是标准差的平方,方差放大了标准差的差异。

看一下里面的蓝色线、红色线、黄色线他们的均值都是一样的。那么谁的标准差更大?

黄色线的标准差更大,蓝色线的标准差更小。

我们想象一下,在古代有两对武力平均值一样的队伍,一边是江湖人士组成,一边是正规军组成:

江湖人士里面挑出一个人来可能是武功盖世,也可能是一个弱鸡

正规军的标准差很小,他们说就随便挑出来一个基本都能打

丨方差

四个不同选手投掷飞镖

方差代表了结果的离散度,也代表了一个人发挥的稳定性。

这个图把方差和偏差放在一起,还有另外一个启发,我们可以很容易看出来四个选手里面得分:

最高的是 C,第二名是 D,第三名是 B,第四名是 A 。

他们就像我们生活中遇到的四种人:

第一种人 C 是坚定的聪明

第二种人 D 是不坚定的聪明

第三种人 B 是不坚定的愚蠢

第四种人 A 是坚定的愚蠢

启发

投掷飞镖的例子结合上面贝叶斯和大数定律可知,

在年轻时,我们通常因为眼界局限,所以容易陷入「坚定的愚蠢」的状态 A

这时候需要放开心态,让自己变成一个「不坚定的愚蠢」的B ——做加法,去拥抱新证据,去接纳很多异常值

逐渐接触到更加聪明的跟世界相处的方法,开始不断调整自己,进入到「不坚定的聪明」的状态 D

进入最后阶段:不断做减法,让自己逐渐只集中在最能发挥自己能力的区间 C 产生价值

但这还不是故事的全部,因为随着时代的发展,那个圆心的位置还会偏移。

而很多成年人在第一次成功之后,之所以很难再次成功,就是因为自己没有意识到圆心已经偏离了。之前那个坚定的聪明,突然之间就变成了坚定的愚蠢。

从贝叶斯公式的角度,这就是基础概率发生了重大的改变,此时就需要再一次进入循环,再一次让自己打破之前的坚定,回到不坚定的愚蠢的状态,然后再重新调整。

这种模型天生自带承上启下的咬合属性,能够做到承上启下咬合的内容是非常符合大脑的接收习惯。

“小数据阶段,大道理可能毫无参考价值。”

年末股市又是吃面周期。是周期,就有起落。

基本面没啥问题,不动就好。

生活中多留意“异常值”,要想到这可能是浪成于微澜之间。

最近重打三国杀,有些武将控场强、生牌稳定,这就是“基础概率”高的武将,发挥稳、获胜率高。

当然,人生比游戏难操作多了。不想太远,多积累基础概率。平时该吃吃,该喝喝,最近刷完《开端》,想起前年有一部爆款没看,开始补。

奇趣网|统计宝|抛硬币统计波动值中的强大数定律

在条件不变的情况下,我们做一个实验的次数越多,那些看起来很随机的事情最终发生总概率会接近一个稳定值。

比如抛硬币,随着你抛的次数越来越多,正面和反面的概率就会越来越收敛,接近 1/2 的中线,直到最终你抛上 1 千次, 1 万次,就会发现正面和反面的概率会越来越稳定的在 1/2。

这个现象在数学上可以严格证明,它就是柯尔莫哥洛夫的——“强大数定律”。

在一开始的小数据阶段,大道理可能毫无参考价值。

比如刚开始工作时,发现自己对所谓的大道理完全无感,比如

早睡早起有益身体健康

诚实是最好的护身符

不要抱怨,要运动

此时你要明白一个统计学的原理,因为年纪轻时你接触的数据样本太少,它们往往会大幅度的偏离世界的真相。人类也很难抗拒在连续抛几次硬币之后就开始总结经验的本能。

而那些能够流传数百上千年的大道理,都是经过无数次的抛硬币最终沉淀下来的统计学经验。通常随着你的年龄增加、阅历增加,会越来越发现他们说的是有道理。

理解“小数据统计的结果可能会大幅偏离大数据结论”这个道理就非常重要了。

比如你谈两次恋爱,如果对象都不靠谱,或者你找的前两份工作老板都不怎么样,那么你很可能就已经对恋爱和求职这两件事情产生了自己的经验总结,然后就会根据这个经验来指导自己的生活。

应对的方法是让自己保持更多的耐心,做更多的尝试,拿到更多的数据之后总结经验,不要太快给一件事情贴标签。