“AI 技术+人才”如何成为企业增长新引擎?戳此了解>>> 了解详情
写点什么

如何使用 TensorFlow 构建机器学习模型

  • 2021-10-21
  • 本文字数:2521 字

    阅读完需:约 8 分钟

如何使用TensorFlow构建机器学习模型

在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

 

TensorFlow 是一个由谷歌开发的库,并在 2015 年开源,它能使构建和训练机器学习模型变得简单。

 

我们接下来要建立的模型将能够自动将公里转换为英里,在本例中,我们将创建一个能够学习如何进行这种转换的模型。我们将向这个模型提供一个CSV文件作为输入,其中有 29 组已经执行过的公里和英里之间的转换,基于这些数据,我们的模型将学会自动进行这种转换。

 

我们将使用有监督学习算法,因为我们知道数据的输入和输出结果。并使用 Python 作为编程语言。Python 提供了一系列与机器学习相关的方便的库和工具。本例中所有的步骤都是使用Google Colab执行的。Google Colab 允许我们在浏览器上零配置地编写和执行 Python 代码。

导入必需的库


我们首先导入在我们的例子中将要使用到的库。


import tensorflow as tfimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt
复制代码


  • 我们将导入 TensorFlow 来创建我们的机器学习模型。

  • 我们还将导入 Pandas 库来读取包含有公里和英里转换数据的 CSV 文件。

  • 最后,我们将导入 Seaborn 和 Matlotlib 库绘制不同的结果。

加载样例数据


我们将含有逗号分隔的值的文件(Kilometres-miles.csv)读取到我们的数据帧中。这个文件包含一系列公里和英里值的转换。我们将使用这些数据帧来训练我们的模型。你可以在这个链接下载这个文件。

 

要从 Google Colab 读取文件,你可以使用不同的方法。在本例中,我直接将 CSV 文件上传到我的 Google Colab 上的 sample_data 文件夹中,但你可以从一个 URL 中读取文件(比如,从 GitHub)。

 

上传到 Google Colab 的问题是,数据会在运行时重启时丢失。


数据帧是二维的大小可变的并且各种各样的表格数据。


df  = pd.read_csv('/content/sample_data/Kilometres-miles.csv')df.info
复制代码


示例数据信息

绘制数据帧


我们将“searborn”库的“scatterplot”导入并命名为“sns”,然后使用这个库来绘制上述图形。它显示了 X(公里)和 Y(英里)对应关系的图形化表示。


print("Painting the correlations")#Once we load seaborn into the session, everytime a matplotlib plot is executed, seaborn's default customizations are addedsns.scatterplot(df['Kilometres'], df['Miles'])plt.show()
复制代码


公里和英里的相关性


我们定义数据帧的输入和输出来训练模型:

X(公里)是输入,Y(英里)是输出。


print("Define input(X) and output(Y) variables")X_train=df['Kilometres']y_train=df['Miles']
复制代码

输入和输出变量

创建神经网络


现在,让我们使用“keras.Sequential”方法来创建一个神经网络,其中依次添加“layers”。每一个层(layer)都具有逐步提取输入数据以获得所需输出的功能。Keras 是一个用 Python 写的库,我们创建神经网络并使用不同的机器学习框架,例如 TensorFlow。

 

接下来,我们将使用“add”方法向模型添加一个层。


print("Creating the model")model = tf.keras.Sequential()model.add(tf.keras.layers.Dense(units=1,input_shape=[1]))
复制代码

创建神经网络

编译模型


在训练我们的模型之前,我们将在编译步骤中添加一些额外设置。

 

我们将设置一个优化器和损失函数,它们会测量我们的模型的准确性。Adam 优化是一种基于第一次和第二次矩的自适应预算的随机梯度下降算法。

为此,我们将使用基于平均方差的损失函数,它测量了我们预测的平均方差。

 

我们的模型的目标是最小化这个函数。


print("Compiling the model")model.compile(optimizer=tf.keras.optimizers.Adam(1), loss='mean_squared_error')
复制代码

编译模型

训练模型


我们将使用“拟合(fit)”方法来训练我们的模型。首先,我们传入独立变量或输入变量(X-Kilometers)和目标变量(Y-Miles)。

 

另一方面,我们预测 epoch 的数值。在本例中,epoch 值是 250。一个 epoch 就是遍历一遍所提供的完整的 X 和 Y 数据。

 

  • 如果 epoch 的数值越小,误差就会越大;反过来,epoch 的数值越大,则误差就会越小。

  • 如果 epoch 的数值越大,算法的执行速度就会越慢。

 

print ("Training the model")epochs_hist = model.fit(X_train, y_train, epochs = 250)
复制代码


训练模型的控制台

评估模型


现在,我们评估创建的模型,在该模型中,我们可以观察到损失(Training_loss)随着执行的遍历次数(epoch)的增多而减少,如果训练集数据有意义并且是一个足够大的组,这是合乎逻辑的。


print("Evaluating the model")print(epochs_hist.history.keys())

#graphplt.plot(epochs_hist.history['loss'])plt.title('Evolution of the error associated with the model')plt.xlabel('Epoch')plt.ylabel('Training Loss')plt.legend('Training Loss')plt.show()
复制代码



从图中我们可以看出,用 250 次训练模型并没有多大帮助,在第 50 次遍历后,误差并没有减少。因此,训练该算法的最佳遍历数大约是 50。

进行预测


现在我们已经训练了我们的模型,我们可以使用它来进行预测。

 

在本例中,我们将 100 赋值给模型的输入变量,然后模型会返回预测的英里数:


kilometers = 100predictedMiles = model.predict([kilometers])print("The conversion from Kilometres to Miles is as follows: " + str(predictedMiles))
复制代码


从公里到英里的换算为 62.133785.

检查结果

milesByFormula = kilometers * 0.6214print("The conversion from kilometers to miles using the mathematical formula is as follows:" + str(milesByFormula))diference = milesByFormula - predictedMilesprint("Prediction error:" + str(diference))
复制代码


使用公式从公里到英里的换算值为:62.13999999999999。预测误差为 0.00621414

总结


通过本例,我们了解了如何使用 TensorFlow 库来创建一个模型,这个模型已经学会自动将公里数转换为英里数,并且误差很小。

 

TensorFlow 用于执行此过程的数学非常简单。基本上,本例使用线性回归来创建模型,因为输入变量(公里数)和输出变量(英里数)是线性相关的。在机器学习中,过程中最耗时的部分通常是准备数据。

 

随着时间的推移,我们收获了一些经验,这些经验可以帮助我们选择最适合的算法及其设置,但一般来说,这是一项分析测试并改进的任务。

 

作者介绍

Kesk -*- ,软件工程师,软件爱好者,科幻作家。

 

原文链接

Build Your First Machine Learning Model With TensorFlow

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2021-10-21 14:471478

评论

发布
暂无评论
发现更多内容

NFTScan:怎么使用 NFT API 开发一个 NFT 数据分析平台?

NFT Research

数据分析 API NFT

ByteHouse实时导入技术演进

字节跳动数据平台

大数据 数据仓库 Clickhouse 数据仓库服务 企业号 3 月 PK 榜

等保联盟是什么机构?有什么用?

行云管家

等保 等级保护 等保联盟

动转静两大升级!一键转静成功率领先,重点模型训练提速18%+

飞桨PaddlePaddle

人工智能 百度 飞桨 PaddlePaddle 框架解析

瓴羊Quick BI和Tableau哪个更适合复杂表格呢?

夏日星河

2022 IoTDB Summit:用友郭关飞《用友在 Apache IoTDB 应用与生态建设方面的探索与实践》

Apache IoTDB

大数据 开源 时序数据库 IoTDB

React等前端框架如何与小程序结合

Onegun

前端 前端框架 React Vue 3

旺链科技荣获科创中国数字经济技术创新峰会多个奖项

旺链科技

区块链+ 区块链、

Vineyard 论文被 SIGMOD'2023 接收,助力计算引擎之间高效数据交换

阿里巴巴中间件

阿里云 计算引擎

OceanBase 生态产品:时序数据库CeresDB 正式发布 1.0 版本

OceanBase 数据库

数据库 oceanbase

瓴羊Quick BI和Power BI哪个比较好呢?

巷子

技术沙龙 | 探索软件测试前沿技术及最佳实践,体验ChatGPT在测试领域中的应用

测吧(北京)科技有限公司

测试

淘宝 APP 网络架构演进与弱网破障实践

阿里技术

架构 网络

性能平台数据提速之路

百度Geek说

大数据 百度 提效 企业号 3 月 PK 榜 性能平台

瓴羊Quick BI:“3端4表4擎、3+NPlus”得到众多行业内部人士的认可!

对不起该用户已成仙‖

用户分享 | 达梦第三方客户端DockQuery使用体会

BinTools图尔兹

数据库 用户体验 国产数据库工具

探索以小程序提升运维效率

Onegun

运维 小程序容器

数据测试实践:从一个bug开始的大数据引擎兼容性探索

京东科技开发者

大数据 bug修复 引擎 测试数据构造 企业号 3 月 PK 榜

精选案例 | 博睿数据30w+监测节点护航新华网、人民网两会重保工作

博睿数据

可观测性 智能运维 博睿数据 精选案例 主动式拨测

2022 IoTDB Summit:东方国信王超《Apache IoTDB 在东方国信的商业化及应用》

Apache IoTDB

大数据 开源 时序数据库 IoTDB

秒懂算法 | 搜索基础

TiAmo

DFS BFS 搜索算法

面试官:请说一下如何优化结构体的性能?

王中阳Go

Go golang 高效工作 学习方法 高效学习

MMMBSC互助基金系统开发智能合约部署

薇電13242772558

智能合约 dapp

TypeScript 与 JavaScript:你应该知道的区别

京东科技开发者

JavaScript typescript 前端 后端 企业号 3 月 PK 榜

京东云RASP云原生安全免疫创新实践

京东科技开发者

Web 安全 漏洞 业务安全 企业号 3 月 PK 榜

中国特供版也残了!AMD 3GHz最强核显梦碎

科技之家

DevOps 与平台工程:企业该如何选择?

SEAL安全

DevOps IdP 平台工程 企业号 3 月 PK 榜

SSH和VNC的四个区别简单讲解

行云管家

SSH 行云管家

技术沙龙 | 探索软件测试前沿技术及最佳实践,体验ChatGPT在测试领域中的应用

测试人

软件测试 沙龙 ChatGPT

Caffeine高性能本地缓存框架初探

FunTester

搬得进来,搬得出去!快来过一把数据迁移的“瘾”

OceanBase 数据库

数据库 oceanbase

如何使用TensorFlow构建机器学习模型_文化 & 方法_Kesk -*-_InfoQ精选文章