Python 数据挖掘与机器学习实战 (66):回归分析介 3.5.2

阅读数:1 2020 年 1 月 11 日 17:04

Python数据挖掘与机器学习实战(66):回归分析介 3.5.2

(数据预处理)

内容简介
本书作为数据挖掘和机器学习的读物,基于真实数据集进行案例实战,使用 Python 数据科学库,从数据预处理开始一步步介绍数据建模和数据挖掘的过程。书中主要介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带领读者轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用逻辑回归进行环境数据检测,如何使用 HMM 进行中文分词,如何利用卷积神经网络识别雷达剖面图,如何使用循环神经网络构建聊天机器人,如何使用朴素贝叶斯算法进行破产预测,如何使用 DCGAN 网络进行人脸生成等。本书也涉及神经网络、在线学习、强化学习、深度学习和大数据处理等内容。
本书以人工智能主流编程语言 Python 3 版作为数据分析与挖掘实战的应用工具,从 Pyhton 的基础语法开始,陆续介绍了 NumPy 数值计算、Pandas 数据处理、Matplotlib 数据可视化、爬虫和 Sklearn 数据挖掘等内容。全书共涵盖 16 个常用的数据挖掘算法和机器学习实战项目。通过学习本书内容,读者可以掌握数据分析与挖掘的理论知识及实战技能。
本书内容丰富,讲解由浅入深,特别适合对数据挖掘和机器学习算法感兴趣的读者阅读,也适合需要系统掌握深度学习的开发人员阅读,还适合 Python 程序员及人工智能领域的开发人员阅读。编程爱好者、高校师生及培训机构的学员也可以将本书作为兴趣读物或教材使用。

由于带 Adj 前缀的数据是除权后的数据,更能反映股票数据特征,所以主要使用的数据特征为调整后的开盘价、最高价、最低价、收盘价和交易额(即 Adj.Open、Adj.High、Adj.Low、Adj.Close 和 Adj.Volume)。

两个数据特征如下:

HL _PCT(股票最高价与最低价变化百分比):

HL _PCT=Adj.HighAdj.CloseAdj.Close 100.0(39)

PCT _change(股票收盘价与开盘价的变化百分比):

PCT _change=Adj.CloseAdj.OpenAdj.Open 100.0(310)

于是,自变量为:Adj.CloseHL _PCTPCT _changeAdj.Volume。因变量为:Adj.Close。

最后,对自变量数据进行规范化处理,使之服从正态分布。只需要执行以下语句就可以达到预处理的目的,代码如下:

复制代码
X = preprocessing.scale(X)

使用 Sklearn 做线性回归,首先导入相关函数:

复制代码
from sklearn.linear_model import LinearRegression

建立线性回归模型:

复制代码
clf = LinearRegression(n_jobs=-1)

进行线性模拟:

复制代码
clf.fit(X_train, y_train)

使用 predict() 函数对需要预测的数据进行预测:

复制代码
forecast_set = clf.predict(X_lately)

模型的评估主要使用精度(accuracy)参数。调用线型模型中的精度评估函数 score()。

复制代码
accuracy = clf.score(X_test, y_test)

Python数据挖掘与机器学习实战(66):回归分析介 3.5.2

购书地址 https://item.jd.com/12623592.html?dist=jd

评论

发布