Python 数据挖掘与机器学习实战 (61):回归分析介 3.4.1

阅读数:1 2020 年 1 月 11 日 17:04

Python数据挖掘与机器学习实战(61):回归分析介 3.4.1

(使用 pandas 读取数据)

内容简介
本书作为数据挖掘和机器学习的读物,基于真实数据集进行案例实战,使用 Python 数据科学库,从数据预处理开始一步步介绍数据建模和数据挖掘的过程。书中主要介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带领读者轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用逻辑回归进行环境数据检测,如何使用 HMM 进行中文分词,如何利用卷积神经网络识别雷达剖面图,如何使用循环神经网络构建聊天机器人,如何使用朴素贝叶斯算法进行破产预测,如何使用 DCGAN 网络进行人脸生成等。本书也涉及神经网络、在线学习、强化学习、深度学习和大数据处理等内容。
本书以人工智能主流编程语言 Python 3 版作为数据分析与挖掘实战的应用工具,从 Pyhton 的基础语法开始,陆续介绍了 NumPy 数值计算、Pandas 数据处理、Matplotlib 数据可视化、爬虫和 Sklearn 数据挖掘等内容。全书共涵盖 16 个常用的数据挖掘算法和机器学习实战项目。通过学习本书内容,读者可以掌握数据分析与挖掘的理论知识及实战技能。
本书内容丰富,讲解由浅入深,特别适合对数据挖掘和机器学习算法感兴趣的读者阅读,也适合需要系统掌握深度学习的开发人员阅读,还适合 Python 程序员及人工智能领域的开发人员阅读。编程爱好者、高校师生及培训机构的学员也可以将本书作为兴趣读物或教材使用。

pandas 是一个用于数据探索、数据分析和数据处理的 Python 库。

复制代码
import pandas as pd
#获取数据
data = pd.read_csv('/home/lulei/Advertising.csv')
# 显示前 5 项数据
data.head()

这里的 Advertising.csv 是来自 http://www-bcf.usc.edu/~gareth/ISL/Advertising.csv ,大家可以自行下载。

上面代码的运行结果如下:

复制代码
TV Radio Newspaper Sales
0 230.1 37.8 69.2 22.1
1 44.5 39.3 45.1 10.4
2 17.2 45.9 69.3 9.3
3 151.5 41.3 58.5 18.5
4 180.8 10.8 58.4 12.9

上面显示的结果类似一个电子表格,这个结构称为 pandas 的数据帧(data frame),类型全称是 pandas.core.frame.DataFrame。

pandas 的两个主要数据结构是 Series 和 DataFrame;Series 类似于一维数组,它由一组数据及一组与之相关的数据标签(即索引)组成;DataFrame 是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型。DataFrame 既有行索引也有列索引,它可以被看做由 Series 组成的字典。

复制代码
# 显示最后 5 项数据
data.tail()

以上代码的作用是只显示结果的末尾 5 行,结果如下:

复制代码
TV Radio Newspaper Sales
195 38.2 3.7 13.8 7.6
196 94.2 4.9 8.1 9.7
197 177.0 9.3 6.4 12.8
198 283.6 42.0 66.2 25.5
199 232.1 8.6 8.7 13.4

查看 DataFrame 的维度:

复制代码
data.shape

注意第一列叫索引,和数据库某个表中的第一列类似。结果如下:

复制代码
200,4

Python数据挖掘与机器学习实战(61):回归分析介 3.4.1

购书地址 https://item.jd.com/12623592.html?dist=jd

评论

发布