Python 数据挖掘与机器学习实战 (62):回归分析介 3.4.2

阅读数:1 2020 年 1 月 11 日 17:04

Python数据挖掘与机器学习实战(62):回归分析介 3.4.2

(分析数据)

内容简介
本书作为数据挖掘和机器学习的读物,基于真实数据集进行案例实战,使用 Python 数据科学库,从数据预处理开始一步步介绍数据建模和数据挖掘的过程。书中主要介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带领读者轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用逻辑回归进行环境数据检测,如何使用 HMM 进行中文分词,如何利用卷积神经网络识别雷达剖面图,如何使用循环神经网络构建聊天机器人,如何使用朴素贝叶斯算法进行破产预测,如何使用 DCGAN 网络进行人脸生成等。本书也涉及神经网络、在线学习、强化学习、深度学习和大数据处理等内容。
本书以人工智能主流编程语言 Python 3 版作为数据分析与挖掘实战的应用工具,从 Pyhton 的基础语法开始,陆续介绍了 NumPy 数值计算、Pandas 数据处理、Matplotlib 数据可视化、爬虫和 Sklearn 数据挖掘等内容。全书共涵盖 16 个常用的数据挖掘算法和机器学习实战项目。通过学习本书内容,读者可以掌握数据分析与挖掘的理论知识及实战技能。
本书内容丰富,讲解由浅入深,特别适合对数据挖掘和机器学习算法感兴趣的读者阅读,也适合需要系统掌握深度学习的开发人员阅读,还适合 Python 程序员及人工智能领域的开发人员阅读。编程爱好者、高校师生及培训机构的学员也可以将本书作为兴趣读物或教材使用。

分析数据的特征:

TV:在电视上投资的广告费用(以千万元为单位);

Radio:在广播媒体上投资的广告费用;

Newspaper:用于报纸媒体的广告费用;

响应:连续的值;

Sales:对应产品的销量。

在这个案例中,通过不同的广告投入,预测产品销量。因为响应变量是一个连续的值,所以这个问题是一个回归问题。数据集一共有 200 个观测值,每一组观测对应一个市场的情况。

注意:这里推荐使用的是 seaborn 包。这个包的数据可视化效果比较好。其实 seaborn 也属于 Matplotlib 的内部包,只是需要单独安装。

复制代码
import seaborn as sns
import matplotlib.pyplot as plt
# 使用散点图可视化特征与响应之间的关系
sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',
size=7, aspect=0.8)
plt.show() #注意必须加上这一句, 否则无法显示
#这里选择 TV?Radio?Newspaper 作为特征,Sales 作为观测值

seaborn 的 pairplot 函数绘制 X 的每一维度和对应 Y 的散点图。通过设置 size 和 aspect 参数来调节显示的大小和比例。通过加入一个参数 kind=‘reg’,seaborn 可以添加一条最佳拟合直线和 95% 的置信带。

复制代码
sns.pairplot(data, x_vars=['TV','Radio','Newspaper'], y_vars='Sales',
size=7, aspect=0.8, kind='reg')
plt.show()

如图 3-3 是运行后的拟合效果图。从图中可以看出,TV 特征和销量是有比较强的线性关系的,而 Radio 和 Sales 线性关系弱一些,Newspaper 和 Sales 线性关系更弱。

Python数据挖掘与机器学习实战(62):回归分析介 3.4.2

图 3-3 线性回归结果图

Python数据挖掘与机器学习实战(62):回归分析介 3.4.2

购书地址 https://item.jd.com/12623592.html?dist=jd

评论

发布