【AICon 全球人工智能与大模型开发与应用大会】改变 AI 时代下写代码的模式 >>> 了解详情
写点什么

Python 数据挖掘与机器学习实战(五):基于线性回归的股票预测

  • 2020-02-01
  • 本文字数:2857 字

    阅读完需:约 9 分钟

Python数据挖掘与机器学习实战(五):基于线性回归的股票预测

编者按:本文节选自方巍著《Python 数据挖掘与机器学习实战》一书中的部分章节。

3.5 基于线性回归的股票预测

线性回归预测算法一般用以解决“使用已知样本对未知公式参数的估计”类问题。线性回归在整个财务中广泛应用于众多应用程序中。本节将介绍如何使用线性回归进行股票特征的提取与预测。

3.5.1 数据获取

本节使用的股票数据从大型数据网站www.quandl.com获取,股票数据特征包括:开盘价(Open)、最高价(High)、最低价(Low)、收盘价(Close)、交易额(Volume)及调整后的开盘价(Adj.Open)、最高价(Adj.High)、最低价(Adj.Low)、收盘价(Adj.Close)和交易额(Adj.Volume)。获取到的原始数据如图 3-5 所示。



图 3-5 数据集中的部分数据示例 1



图 3-5 数据集中的部分数据示例 2

3.5.2 数据预处理

由于带 Adj 前缀的数据是除权后的数据,更能反映股票数据特征,所以主要使用的数据特征为调整后的开盘价、最高价、最低价、收盘价和交易额(即 Adj.Open、Adj.High、Adj.Low、Adj.Close 和 Adj.Volume)。


两个数据特征如下:


(股票最高价与最低价变化百分比):


(股票收盘价与开盘价的变化百分比):


于是,自变量为:。因变量为:


最后,对自变量数据进行规范化处理,使之服从正态分布。只需要执行以下语句就可以达到预处理的目的,代码如下:


X = preprocessing.scale(X)
复制代码


使用 Sklearn 做线性回归,首先导入相关函数:


from sklearn.linear_model import LinearRegression
复制代码


建立线性回归模型:


clf = LinearRegression(n_jobs=-1)
复制代码


进行线性模拟:


clf.fit(X_train, y_train)
复制代码


使用 predict()函数对需要预测的数据进行预测:


forecast_set = clf.predict(X_lately)
复制代码


模型的评估主要使用精度(accuracy)参数。调用线型模型中的精度评估函数 score()。


accuracy = clf.score(X_test, y_test)
复制代码

3.5.3 编码实现

完整的 Python 实现代码如下:


import quandlfrom sklearn import preprocessing#df = quandl.get('WIKI/GOOGL'),先注释这一行,预测Google股票再用df = quandl.get('WIKI/AAPL')import mathimport numpy as np# 定义预测列变量,它存放研究对象的标签名forecast_col = 'Adj. Close'# 定义预测天数,这里设置为所有数据量长度的1%forecast_out = int(math.ceil(0.01*len(df)))# 只用到df中的下面几个字段df = df[['Adj. Open', 'Adj. High', 'Adj. Low', 'Adj. Close', 'Adj. Volume']]# 构造两个新的列# HL_PCT为股票最高价与最低价的变化百分比df['HL_PCT']=(df['Adj. High'] - df['Adj. Close'])/ df['Adj. Close'] * 100.0# PCT_change为股票收盘价与开盘价的变化百分比df['PCT_change']=(df['Adj.Close']- df['Adj.Open'])/df['Adj. Open'] * 100.0# 下面为真正用到的特征字段df = df[['Adj. Close', 'HL_PCT', 'PCT_change', 'Adj. Volume']]#因为scikit-learn并不会处理空数据,需要把为空的数据都设置为一个比较难出现的值#这里    取-99999,df.fillna(-99999, inplace=True)# 用label代表该字段,是预测结果# 通过让Adj. Close列的数据往前移动1%行来表示df['label'] = df[forecast_col].shift(-forecast_out)# 最后生成真正在模型中使用的数据X?y,以及预测时用到的数据数据X_latelyX = np.array(df.drop(['label'], 1))X = preprocessing.scale(X)# 上面生成label列时留下的最后1%行的数据,这些行并没有label数据,因此可以拿它们    作为预测时用到的输入数据X_lately = X[-forecast_out:]X = X[:-forecast_out]# 抛弃label列中为空的那些行df.dropna(inplace=True)y = np.array(df['label'])# scikit-learn从0.2版本开始废弃cross_validation,改用model_selectionfrom sklearn import  model_selection, svmfrom sklearn.linear_model import LinearRegression# 开始前,先把X和y数据分成两部分,一部分用来训练,一部分用来测试X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y,     test_size=0.2)# 生成scikit-learn的线性回归对象clf = LinearRegression(n_jobs=-1)# 开始训练clf.fit(X_train, y_train)# 用测试数据评估准确性accuracy = clf.score(X_test, y_test)# 进行预测forecast_set = clf.predict(X_lately)print(forecast_set, accuracy)import matplotlib.pyplot as pltfrom matplotlib import styleimport datetime# 修改matplotlib样式style.use('ggplot')one_day = 86400# 在df中新建Forecast列,用于存放预测结果的数据df['Forecast'] = np.nan# 取df最后一行的时间索引last_date = df.iloc[-1].namelast_unix = last_date.timestamp()next_unix = last_unix + one_day# 遍历预测结果,用它向df中追加行# 这些行除了Forecast字段,其他都设为np.nanfor i in forecast_set:    next_date = datetime.datetime.fromtimestamp(next_unix)    next_unix += one_day    # [np.nan for_in range(len(df.columns)-1)]生成不包含Forecast字段的列表    # 而[i]是只包含Forecast值的列表    # 上述两个列表拼接在一起就组成了新行,按日期追加到df的下面    df.loc[next_date] = [np.nan for _ in range(len(df.columns)- 1)] + [i]# 开始绘图df['Adj. Close'].plot()df['Forecast'].plot()plt.legend(loc=4)plt.xlabel('Date')plt.ylabel('Price')plt.show()
复制代码

3.5.4 结果分析

以股票代号为 GOOGL 和 AAPL 的股票为例,线性模拟的结果如图 3-6 和图 3-7 所示。


上面对两个股票进行了线性模拟,并对一部分数据进行了预测。实验结果显示,对 GOOGL 股票的预测精度达到了 0.976871737402434;对 AAPL 股票的预测精度达到了 0.9719097855057968,表明该程序能对股票数据进行较好的预测。



图 3-6 GOOGL 股票数据预测结果


说明:图中的曲线部分为历史数据,最上部的竖直线部分为预测数据。



图 3-7 AAPL 股票数据预测结果


说明:除图中最上部的竖直线部分为预测数据,其余曲线均为历史数据。


图书简介:https://item.jd.com/12623592.html?dist=jd



相关阅读


Python数据挖掘与机器学习实战(一):Python语言优势及开发工具


Python数据挖掘与机器学习实战(二):Python语言简介


Python数据挖掘与机器学习实战(三):网络爬虫原理与设计实现


Python数据挖掘与机器学习实战(四):用 Python 实现多元线性回归


Python数据挖掘与机器学习实战(五):基于线性回归的股票预测


2020-02-01 16:202315

评论

发布
暂无评论
发现更多内容

【TiDB 最佳实践系列】TiDB 高并发写入常见热点问题及规避方法

TiDB 社区干货传送门

实践案例

2 年成本节省 73%,京东物流在云数据库上的选择和实战

TiDB 社区干货传送门

实践案例

TiDB实例间数据同步之TiCDC实践

TiDB 社区干货传送门

实践案例

多种方式告诉你如何计算DM同步数据到TiDB的延时时间

TiDB 社区干货传送门

管理与运维

TUG 技术大咖圆桌讨论:如何评判一个数据架构的好坏

TiDB 社区干货传送门

数据库架构选型

【文章】精选实践汇总2

TiDB 社区干货传送门

实践案例

PD 调度器模块

TiDB 社区干货传送门

TiDB 底层架构

TiDB 慢日志在伴鱼的实践

TiDB 社区干货传送门

实践案例

一张脑图让你快速了解 TiDB 5.0版本新特性

TiDB 社区干货传送门

TiDB 底层架构

接触TiDB4.0时,一些部署方式实践尝试

TiDB 社区干货传送门

安装 & 部署

TiDB 热点问题定位

TiDB 社区干货传送门

故障排查/诊断

一篇文章带你玩转 TiDB 灾难恢复

TiDB 社区干货传送门

故障排查/诊断

TiDB 多Socket 服务器性能扩展问题分析

TiDB 社区干货传送门

性能调优 性能测评

Weir:原生 TiDB 支持的数据库中间件

TiDB 社区干货传送门

实践案例

TiDB升级5.x连接问题

TiDB 社区干货传送门

故障排查/诊断

大教堂终将倒下,但集市永存

TiDB 社区干货传送门

实践案例 数据库架构选型

Flink on TiDB —— 便捷可靠的实时数据业务支撑

TiDB 社区干货传送门

实践案例

使用 TiDB 构建实时应用

TiDB 社区干货传送门

实践案例

raft:分布式一致性算法笔记

TiDB 社区干货传送门

TiDB 底层架构

实时 AP、分库分表、大数据应用,TiDB 在虎牙直播是怎么用的?

TiDB 社区干货传送门

实践案例

如何在 TiDB 上高效运行序列号生成服务

TiDB 社区干货传送门

管理与运维

还在用变量去实现多维度分组排序吗?你 out 了!

TiDB 社区干货传送门

实践案例

Chaos Mesh 助力 Apache APISIX 提升稳定性

TiDB 社区干货传送门

实践案例

从 MySQL 大量数据清洗到 TiDB 说起

TiDB 社区干货传送门

实践案例

MySQL 与 TiDB 不同的 DDL 发展历程

TiDB 社区干货传送门

TiDB 底层架构

TiDB 优化之消失的统计信息

TiDB 社区干货传送门

实践案例

通过 BR 完成不同 K8s 的 TiDB 集群的数据恢复

TiDB 社区干货传送门

故障排查/诊断

TiDB Parser模块的简单解读与改造方法

TiDB 社区干货传送门

TiDB 底层架构

使用pd-recover 恢复pd 多数节点故障的场景

TiDB 社区干货传送门

管理与运维 故障排查/诊断

关于 TiDB 性能优化的一些思考

TiDB 社区干货传送门

性能调优

数据库选型中的非技术因素

TiDB 社区干货传送门

数据库架构选型

Python数据挖掘与机器学习实战(五):基于线性回归的股票预测_大数据_方巍_InfoQ精选文章