用Python分析苹果公司股价数据

CodingGo技术社区
自由的编程学习平台

作者:酱油哥,清华程序猿、IT非主流

专栏地址:https://zhuanlan.zhihu.com/c_147297848

要点抢先看

1.csv数据的读取

2.利用常用函数获取均值、中位数、方差、标准差等统计量

3.利用常用函数分析价格的加权均值、收益率、年化波动率等常用指标 4.处理数据中的日期

我们最后会介绍一下NumPy库中的一些非常实用和常用的函数方法。

要知道,NumPy的常用数学和统计分析的函数非常多,如果我们一个一个的分散来讲,一来非常枯燥,二来呢也记不住,就仿佛又回到了昏昏欲睡的课堂,今天我们用一个背景例子来串联一下这些零散的知识点。

我们通过分析苹果公司的股票价格,来串讲NumPy的常用函数用法

我们在我们python文件的同级目录下放置数据文件AAPL.csv,用excel文件可以打开看看里面是什么样的:

依次是日期,收盘价、成交量、开盘价、最高价和最低价 在CSV文件中,每一列数据数据是被“,”隔开的,为了突出重点简化程序,我们把第一行去掉,就像下面这样

首先,我们读取“收盘价”和“成交量”这两列,即第1列和第2列(csv也是从第0列开始的)

  1. import numpy as np  

  2. c, v = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1, 2), unpack=True)

  3. print(c)

  4. print(v)

  5. [ 178.02  178.65  178.44  179.97  181.72  179.98  176.94  175.03  176.67   176.82  176.21  175.    178.12  178.39  178.97  175.5   172.5   171.07   171.85  172.43  172.99  167.37  164.34  162.71  156.41  155.15  159.54   163.03  156.49  160.5   167.78  167.43  166.97  167.96  171.51  171.11   174.22  177.04  177.    178.46  179.26  179.1   176.19  177.09  175.28   174.29  174.33  174.35  175.    173.03  172.23  172.26  169.23  171.08   170.6   170.57  175.01  175.01  174.35  174.54  176.42]

  6. [ 38313330.  22676520.  29334630.  31464170.  32191070.  32130360.   24518850.  31686450.  23273160.  27825140.  38426060.  48706170.   37568080.  38885510.  37353670.  33772050.  30953760.  37378070.   33690660.  40113790.  50908540.  40382890.  32483310.  60774900.   70583530.  54145930.  51467440.  68171940.  72215320.  85957050.   44453230.  32234520.  45635470.  50565420.  39075250.  41438280.   51368540.  32395870.  27052000.  31306390.  31087330.  34260230.   29512410.  25302200.  18653380.  23751690.  21532200.  20523870.   23589930.  22342650.  29461040.  25400540.  25938760.  16412270.   21477380.  33113340.  16339690.  20848660.  23451420.  27393660.   29385650.]

这样,我们就完成了第一个任务,将csv数据文件中存储的数据,读取到我们两个ndarray数组c和v中了。

接下来,我们小试牛刀,对收盘价进行最简单的数据处理,求取他的平均值。

第一种,非常简单,就是我们最常见到的算数平均值

  1. import numpy as np  

  2. c, v = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1, 2), unpack=True)

  3. mean_c = np.mean(c) print(mean_c)

  4. 172.614918033

第二种,是加权平均值,我们用成交量来加权平均价格

即,用成交量的值来作为权重,某个价格的成交量越高,该价格所占的权重就越大。

  1. import numpy as np  

  2. c, v = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1, 2), unpack=True)

  3. vwap = np.average(c, weights=v)

  4. print(vwap)  

  5. 170.950010035

再来说说取值范围,找找最大值和最小值

我们找找收盘价的最大值和最小值,以及最大值和最小值之间的差异

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. print(np.max(c))

  4. print(np.min(c))

  5. print(np.ptp(c))  

  6. 181.72

  7. 155.15

  8. 26.57

接下来我们进行简单的统计分析

我们先来求取收盘价的中位数

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. print(np.max(c))

  4. print(np.min(c))

  5. print(np.median(c))  

  6. 181.72

  7. 155.15

  8. 174.35

求取方差

另外一个我们关心的统计量就是方差,方差能够体现变量变化的程度。在我们的例子中,方差还可以告诉我们投资风险的大小。那些股价变动过于剧烈的股票一定会给持有者带来麻烦

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. print(np.var(c))  

  4. 37.5985528621

我们回顾一下方差的定义,方差指的是各个数据与所有数据算数平均数的离差平方和的均值

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. print(np.mean((c - c.mean())**2))  

  4. 37.5985528621

上下对比一下,看看,结果是一模一样的。

现在我们来看看每天的收益率,这个计算式子很简单:,即用今天的收盘价减去昨天的收盘价,再除以昨天的收盘价格。同时我们发挥NumPy的优势,利用向量运算,可以一次性算出所有交易日的收益率

diff函数时用数组的第N项减第N-1项,得到一个n-1项的一维数组。本例中我们注意到数组中日期越近的收盘价,数组索引越小,因此得取一个相反数,综上代码:

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. returns = -np.diff(c)/c[1:]

  4. print(returns)  

  5. [-0.00352645  0.00117687 -0.00850142 -0.0096302   0.00966774  0.01718097   0.01091242 -0.00928284 -0.00084832  0.00346178  0.00691429 -0.01751628  -0.00151354 -0.00324077  0.01977208  0.0173913   0.00835915 -0.00453884  -0.00336368 -0.00323718  0.0335783   0.01843739  0.01001782  0.04027875   0.00812117 -0.02751661 -0.0214071   0.04179181 -0.02498442 -0.04339015   0.00209043  0.00275499 -0.00589426 -0.0206985   0.00233768 -0.01785099  -0.0159286   0.00022599 -0.00818111 -0.00446279  0.00089336  0.01651626  -0.00508216  0.01032634  0.00568019 -0.00022945 -0.00011471 -0.00371429   0.01138531  0.00464495 -0.00017416  0.01790463 -0.01081365  0.0028136   0.00017588 -0.02536998 -0.          0.00378549 -0.00108858 -0.01065639]

然后观察一下每日收益的标准差,就可以看看收益的波动大不大了

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. returns = -np.diff(c)/c[1:]

  4. print(np.std(returns))  

  5. 0.0150780328454

如果我们想看看哪些天的收益率是正的,很简单,还记得where语句吗,拿来使用吧

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. returns = -np.diff(c)/c[1:]

  4. print(np.where(returns>0))  

  5. (array([ 1,  4,  5,  6,  9, 10, 14, 15, 16, 20, 21, 22, 23, 24, 27, 30, 31,  34, 37, 40, 41, 43, 44, 48, 49, 51, 53, 54, 57], dtype=int64),)

专业上我们对价格变动可以用一个叫做“波动率”的指标进行度量。计算历史波动率时需要用到对数收益率,对数收益率很简单,就是,依照对数的性质,他等于,在计算年化波动率时,要用样本中所有的对数收益率的标准差除以其均值,再除以交易日倒数的平方根,一年交易日取252天。

我们简单的看一下下面的代码

  1. import numpy as np  

  2. c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(1,), unpack=True)

  3. logreturns = -np.diff(np.log(c))

  4. volatility = np.std(logreturns) / np.mean(logreturns)

  5. annual_volatility = volatility / np.sqrt(1./252.)

  6. print(volatility)

  7. print(annual_volatility)  

  8. 100.096757388

  9. 1588.98676256

这里我们再强调一点就是:sqrt方法中应用了除法计算,这里必须使用浮点数进行运算。月度波动率也是同理用1./12.即可

我们可以常常会发现,在数据分析的过程中,对于日期的处理和分析也是一个很重要的内容。

我们先试图用老办法来从csv文件中把日期数据读出来

  1. import numpy as np  

  2. dates,c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(0,1), unpack=True)

  3. Traceback (most recent call last):

  4.  File "E:/12homework/12homework.py", line 2, in <module>

  5.    dates,c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(0,1), unpack=True)  

  6.  File "C:\Python34\lib\site-packages\numpy\lib\npyio.py", line 930, in loadtxt

  7.    items = [conv(val) for (conv, val) in zip(converters, vals)]

  8.  File "C:\Python34\lib\site-packages\numpy\lib\npyio.py", line 930, in <listcomp>

  9.    items = [conv(val) for (conv, val) in zip(converters, vals)]

  10.  File "C:\Python34\lib\site-packages\numpy\lib\npyio.py", line 659, in floatconv

  11.    return float(x)

  12. ValueError: could not convert string to float: b'2018/3/16'

我们发现他报错了,错误信息是不能将一个字节类型的对象转换为浮点类型对象。原因是因为NumPy是面向浮点数运算的,那么我们对症下药,对日期字符串进行一些转换处理。

我们先假定日期是一个字符串类型(下载的网络数据中往往是将字符串通过utf-8编码成字节码,这个可以见第一季中字符编码相关内容的介绍)

  1. import numpy as np import datetime  

  2. strdate = '2017/3/16'

  3. d = datetime.datetime.strptime(strdate,'%Y/%m/%d')

  4. print(type(d))

  5. print(d)  

  6. <class 'datetime.datetime'>

  7. 2017-03-16 00:00:00

通过python标准库中的datetime函数包,我们通过指定匹配的格式%Y/%m/%d

将日期字符串转换为了datetime类型对象,Y大写匹配完整的四位数记年,y小写就是两位数,例如17。

datetime对象有一个date方法,把datetime对象中的time部分去掉,变成一个纯的日期,再调用weekday可以转换为一周中的第几天,这里是从周日开始算起的。

  1. import numpy as np import datetime

  2. strdate = '2018/3/16'

  3. d = datetime.datetime.strptime(strdate,'%Y/%m/%d')

  4. print(d.date())

  5. print(d.date().weekday())  

  6. 2018-03-16 4

最后,我们回到这份苹果公司股价的csv文件,来做一个综合分析,来看看周几的平均收盘价最高,周几的最低:

  1. import numpy as np import datetime  

  2. def datestr2num(bytedate):  

  3.    return datetime.datetime.strptime(

  4.                  bytedate.decode('utf-8'),'%Y/%m/%d').date().weekday()  

  5. dates,c = np.loadtxt('AAPL.csv', delimiter=',', usecols=(0,1),

  6.                   converters={0: datestr2num}, unpack=True)

  7. averages = np.zeros(5)

  8. for i in range(5):    

  9.    index = np.where(dates == i)    

  10.    prices = np.take(c, index)    

  11.    avg = np.mean(prices)    

  12.    averages[i] = avg  print("Day {} prices: {},avg={}".format(i,prices,avg))  

  13. top = np.max(averages)

  14. top_index = np.argmax(averages)

  15. bot = np.min(averages)

  16. bot_index = np.argmin(averages)

  17. print('highest:{}, top day is {}'.format(top,top_index))

  18. print('lowest:{},bottom day is {}'.format(bot,bot_index))  

  19. Day 0 prices: [[ 181.72  176.82  178.97  162.71  156.49  167.96  177.    174.35  176.42]],avg=172.49333333333334

  20. Day 1 prices: [[ 179.97  176.67  178.39  171.85  164.34  163.03  166.97  177.04  176.19    174.33  172.26  170.57  174.54]],avg=172.78076923076924

  21. Day 2 prices: [[ 178.44  175.03  178.12  171.07  167.37  159.54  167.43  174.22  179.1    174.29  172.23  170.6   174.35]],avg=172.44538461538463

  22. Day 3 prices: [[ 178.65  176.94  175.    172.5   172.99  155.15  167.78  171.11  179.26    175.28  173.03  171.08  175.01]],avg=172.59846153846152

  23. Day 4 prices: [[ 178.02  179.98  176.21  175.5   172.43  156.41  160.5   171.51  178.46    177.09  175.    169.23  175.01]],avg=172.71923076923073

  24. highest:172.78076923076924, top day is 1

  25. lowest:172.44538461538463,bottom day is 2

简要的再分析一下:由于从csv中读取的数据类型为bytes,所以我们写了一个转换函数,先将bytes类型的日期数据进行解码(字符串编解码详见第一季),然后再用上一段程序介绍的方法转换为一个表示周几的数字

而np.loadtxt函数中的参数converters={0: datestr2num},就是说针对第一列的数据,我们利用这个转换函数将其转化为一个数字,并将这个整形元素构成的数组赋值给dates变量。

后面的处理就很简单了,用循环依次取出每个工作日的收盘价构成的数组,对其求平均值。然后得到周一到周五,五个平均值的最大值、最小值。

最后我们再介绍两个实用函数,一个是数组的裁剪函数,即把比给定值还小的值设置为给定值,比给定值大的值设置为给定上限

  1. import numpy as np  

  2. a = np.arange(5)

  3. print(a.clip(1,3))  

  4. [1 1 2 3 3]

第二个是一个筛选函数,返回一个根据给定条件筛选后得到的结果数组

  1. import numpy as np  

  2. a = np.arange(5)

  3. print(a.compress(a > 2))  

  4. [3 4]

这一小节中,我们利用NumPy的一些实用函数,对苹果公司的股价进行了一些非常非常简单的分析,目的是通过这个实例来串讲一下这些实用的数据处理函数。

其实NumPy的功能非常非常多,远不止这些,但是没有必要去一个一个学。并且另一方面,NumPy的方法都过于原始和底层,虽然功能很丰富,但是使用起来也很繁杂。这里我们为大家打一个基础,后面的章节就不会再一一介绍里面的各种函数了。后面我要介绍基于NumPy之上的一些更高层的方法库,功能更强大,使用也更简单。

▼ 点击下方阅读原文加入编程互助学习社群

版权声明:本文为BF02jgtRS00XKtCx原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/79777204

智能推荐

Flutter:Scaffold.of() called with a context that does not contain a Scaffold.

Flutter:Scaffold.of() called with a context that does not contain a Scaffold. 当我第一次点击按钮想要弹出底部消息时出现了如下错误 当BuildContext在Scaffold之前时,调用Scaffold.of(context)会报错。这时可以通过Builder Widget来解决,代码如下:...

【机器学习基础】线性回归

                                                        &nbs...

08-Vue实现书籍购物车案例

书籍购物车案例 index.html main.js style.css 1.内容讲解 写一个table和thead,tbody中每一个tr都用来遍历data变量中的books列表。 结果如下: 在thead中加上购买数量和操作,并在对应的tbody中加入对应的按钮。结果如下: 为每个+和-按钮添加事件,将index作为参数传入,并判断当数量为1时,按钮-不可点击。 结果如下: 为每个移除按钮添加...

堆排序

堆排序就是利用堆进行排序的方法,基本思想是,将代排序列构造成一个大根堆,此时整个序列的最大值就是堆顶的根节点。将它与堆数组的末尾元素交换,此时末尾元素就是最大值,移除末尾元素,然后将剩余n-1个元素重新构造成一个大根堆,堆顶元素为次大元素,再次与末尾元素交换,再移除,如此反复进行,便得到一个有序序列。 (大根堆为每一个父节点都大于两个子节点的堆) 上面思想的实现还要解决两个问题: 1.如何由一个无...

基础知识(变量类型和计算)

一、值类型 常见的有:number、string、Boolean、undefined、Symbol 二、引用类型 常用的有:object、Array、null(指针指向为空)、function 两者的区别: 值类型暂用空间小,所以存放在栈中,赋值时互不干扰,所以b还是100 引用类型暂用空间大,所以存放在堆中,赋值的时候b是引用了和a一样的内存地址,所以a改变了b也跟着改变,b和a相等 如图: 值...

猜你喜欢

Codeforces 1342 C. Yet Another Counting Problem(找规律)

题意: [l,r][l,r][l,r] 范围内多少个数满足 (x%b)%a!=(x%a)%b(x \% b) \% a != (x \% a) \% b(x%b)%a!=(x%a)%b。 一般这种题没什么思路就打表找一下规律。 7 8 9 10 11 12 13 14 15 16 17 18 19 20 28 29 30 31 32 33 34 35 36 37 38 39 40 41 49 50...

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3) (Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png) MNIST数据集 MNIST数据集可以认为是学习机器学习的“hello world”。最早出现在1998年LeC...

哈希数据结构和代码实现

主要结构体: 实现插入、删除、查找、扩容、冲突解决等接口,用于理解哈希这种数据结构 完整代码参见github: https://github.com/jinxiang1224/cpp/tree/master/DataStruct_Algorithm/hash...

解决Ubuntu中解压zip文件(提取到此处)中文乱码问题

在Ubuntu系统下,解压zip文件时,使用右键--提取到此处,得到的文件内部文件名中文出现乱码。 导致此问题出现的原因一般为未下载相应的字体。 解决方案: 在终端中使用unar命令。 需要注意的是系统需要包含unar命令,如果没有,采用如下的方式解决: 实例效果展示: 直接提取到此处: 使用 unar filename.zip得到的文件...