写点什么

如何使用 TensorFlow 构建机器学习模型

  • 2021-10-21
  • 本文字数:2521 字

    阅读完需:约 8 分钟

如何使用TensorFlow构建机器学习模型

在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

 

TensorFlow 是一个由谷歌开发的库,并在 2015 年开源,它能使构建和训练机器学习模型变得简单。

 

我们接下来要建立的模型将能够自动将公里转换为英里,在本例中,我们将创建一个能够学习如何进行这种转换的模型。我们将向这个模型提供一个CSV文件作为输入,其中有 29 组已经执行过的公里和英里之间的转换,基于这些数据,我们的模型将学会自动进行这种转换。

 

我们将使用有监督学习算法,因为我们知道数据的输入和输出结果。并使用 Python 作为编程语言。Python 提供了一系列与机器学习相关的方便的库和工具。本例中所有的步骤都是使用Google Colab执行的。Google Colab 允许我们在浏览器上零配置地编写和执行 Python 代码。

导入必需的库


我们首先导入在我们的例子中将要使用到的库。


import tensorflow as tfimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt
复制代码


  • 我们将导入 TensorFlow 来创建我们的机器学习模型。

  • 我们还将导入 Pandas 库来读取包含有公里和英里转换数据的 CSV 文件。

  • 最后,我们将导入 Seaborn 和 Matlotlib 库绘制不同的结果。

加载样例数据


我们将含有逗号分隔的值的文件(Kilometres-miles.csv)读取到我们的数据帧中。这个文件包含一系列公里和英里值的转换。我们将使用这些数据帧来训练我们的模型。你可以在这个链接下载这个文件。

 

要从 Google Colab 读取文件,你可以使用不同的方法。在本例中,我直接将 CSV 文件上传到我的 Google Colab 上的 sample_data 文件夹中,但你可以从一个 URL 中读取文件(比如,从 GitHub)。

 

上传到 Google Colab 的问题是,数据会在运行时重启时丢失。


数据帧是二维的大小可变的并且各种各样的表格数据。


df  = pd.read_csv('/content/sample_data/Kilometres-miles.csv')df.info
复制代码


示例数据信息

绘制数据帧


我们将“searborn”库的“scatterplot”导入并命名为“sns”,然后使用这个库来绘制上述图形。它显示了 X(公里)和 Y(英里)对应关系的图形化表示。


print("Painting the correlations")#Once we load seaborn into the session, everytime a matplotlib plot is executed, seaborn's default customizations are addedsns.scatterplot(df['Kilometres'], df['Miles'])plt.show()
复制代码


公里和英里的相关性


我们定义数据帧的输入和输出来训练模型:

X(公里)是输入,Y(英里)是输出。


print("Define input(X) and output(Y) variables")X_train=df['Kilometres']y_train=df['Miles']
复制代码

输入和输出变量

创建神经网络


现在,让我们使用“keras.Sequential”方法来创建一个神经网络,其中依次添加“layers”。每一个层(layer)都具有逐步提取输入数据以获得所需输出的功能。Keras 是一个用 Python 写的库,我们创建神经网络并使用不同的机器学习框架,例如 TensorFlow。

 

接下来,我们将使用“add”方法向模型添加一个层。


print("Creating the model")model = tf.keras.Sequential()model.add(tf.keras.layers.Dense(units=1,input_shape=[1]))
复制代码

创建神经网络

编译模型


在训练我们的模型之前,我们将在编译步骤中添加一些额外设置。

 

我们将设置一个优化器和损失函数,它们会测量我们的模型的准确性。Adam 优化是一种基于第一次和第二次矩的自适应预算的随机梯度下降算法。

为此,我们将使用基于平均方差的损失函数,它测量了我们预测的平均方差。

 

我们的模型的目标是最小化这个函数。


print("Compiling the model")model.compile(optimizer=tf.keras.optimizers.Adam(1), loss='mean_squared_error')
复制代码

编译模型

训练模型


我们将使用“拟合(fit)”方法来训练我们的模型。首先,我们传入独立变量或输入变量(X-Kilometers)和目标变量(Y-Miles)。

 

另一方面,我们预测 epoch 的数值。在本例中,epoch 值是 250。一个 epoch 就是遍历一遍所提供的完整的 X 和 Y 数据。

 

  • 如果 epoch 的数值越小,误差就会越大;反过来,epoch 的数值越大,则误差就会越小。

  • 如果 epoch 的数值越大,算法的执行速度就会越慢。

 

print ("Training the model")epochs_hist = model.fit(X_train, y_train, epochs = 250)
复制代码


训练模型的控制台

评估模型


现在,我们评估创建的模型,在该模型中,我们可以观察到损失(Training_loss)随着执行的遍历次数(epoch)的增多而减少,如果训练集数据有意义并且是一个足够大的组,这是合乎逻辑的。


print("Evaluating the model")print(epochs_hist.history.keys())

#graphplt.plot(epochs_hist.history['loss'])plt.title('Evolution of the error associated with the model')plt.xlabel('Epoch')plt.ylabel('Training Loss')plt.legend('Training Loss')plt.show()
复制代码



从图中我们可以看出,用 250 次训练模型并没有多大帮助,在第 50 次遍历后,误差并没有减少。因此,训练该算法的最佳遍历数大约是 50。

进行预测


现在我们已经训练了我们的模型,我们可以使用它来进行预测。

 

在本例中,我们将 100 赋值给模型的输入变量,然后模型会返回预测的英里数:


kilometers = 100predictedMiles = model.predict([kilometers])print("The conversion from Kilometres to Miles is as follows: " + str(predictedMiles))
复制代码


从公里到英里的换算为 62.133785.

检查结果

milesByFormula = kilometers * 0.6214print("The conversion from kilometers to miles using the mathematical formula is as follows:" + str(milesByFormula))diference = milesByFormula - predictedMilesprint("Prediction error:" + str(diference))
复制代码


使用公式从公里到英里的换算值为:62.13999999999999。预测误差为 0.00621414

总结


通过本例,我们了解了如何使用 TensorFlow 库来创建一个模型,这个模型已经学会自动将公里数转换为英里数,并且误差很小。

 

TensorFlow 用于执行此过程的数学非常简单。基本上,本例使用线性回归来创建模型,因为输入变量(公里数)和输出变量(英里数)是线性相关的。在机器学习中,过程中最耗时的部分通常是准备数据。

 

随着时间的推移,我们收获了一些经验,这些经验可以帮助我们选择最适合的算法及其设置,但一般来说,这是一项分析测试并改进的任务。

 

作者介绍

Kesk -*- ,软件工程师,软件爱好者,科幻作家。

 

原文链接

Build Your First Machine Learning Model With TensorFlow

2021-10-21 14:471751

评论

发布
暂无评论
发现更多内容

Skip List(跳跃列表)它到底好在哪?今天我们不仅只聊为什么,还手写一个玩玩

李子捌

redis skiplist 签约计划第二季

限流系列文章——滑动窗口限流

李子捌

redis 限流 签约计划第二季

李子捌 Redis精通系列文章 研究分享| 内容合集

李子捌

redis 内容合集 签约计划第二季 技术专题合集

2021年大数据开发发展趋势

五分钟学大数据

11月日更

在线文本交集计算工具

入门小站

工具

HyperLogLog这里面水很深,但是你必须趟一趟

李子捌

redis 签约计划第二季

Prometheus Exporter (十三)Elasticsearch Exporter

耳东@Erdong

elasticsearch Prometheus exporter 11月日更

Redis的LRU(Least Recently Used)算法你了解多少?

李子捌

redis 签约计划第二季

为什么我的 C4C Service Request 没办法 Release 到 ERP?

汪子熙

Cloud SAP abap C4C 11月日更

云原生训练营作业--部署k8s集群

好吃不贵

限流系列文章——漏斗限流

李子捌

redis 限流 签约计划第二季

CSS之盒模型

Augus

CSS 11月日更

SAP Cloud for Customer Price 计价简介

汪子熙

Cloud SAP C4C 11月日更 pricing

Redis之Geospatial,助你轻松实现附近的xx功能

李子捌

redis geospatial 签约计划第二季

数据库不能没有事务,今天他来了——Redis事务详述

李子捌

redis 事务 签约计划第二季

【高并发】如何使用Java7提供的Fork/Join框架实现高并发程序?

冰河

Java 并发编程 多线程 高并发 异步编程

听说你的服务经常被打崩?试试布隆过滤器(Bloom Filter)

李子捌

redis 布隆过滤器 签约计划第二季

[Pulsar] 消息从Producer到Broker的历程

Zike Yang

Apache Pulsar 11月日更

Linux 调优之:调整 bond hash 策略提升网络吞吐能力

卫智雄

跟小师妹一起学JVM-系列文章

程序那些事

Java JVM JIT 内容合集 签约计划第二季

ES6, Angular, React 和 ABAP 中的 String Template(字符串模板)

汪子熙

JavaScript angular React abap 11月日更

都在用MQ,Redis的Pub/Sub也可以试着了解下

李子捌

redis MQ 签约计划第二季

Redis高可用的绝对的利器——持久化(RDB和AOF)

李子捌

redis redis持久化 签约计划第二季

JSON 数据格式

大数据技术指南

11月日更

linux双向重定向之tee命令

入门小站

Linux

数据分析从零开始实战,Pandas读写Excel/XML数据

老表

Python 数据分析 Excel pandas 11月日更

k8s statefulset controller源码分析

良凯尔

源码 Kubernetes 源码分析 #Kubernetes#

URL URI傻傻分不清楚,dart告诉你该怎么用

程序那些事

flutter dart 程序那些事 11月日更

LRU经常被吐槽,要不试试LFU?本文详述LFU(Least Frequently Used)

李子捌

redis 签约计划第二季

签到功能怎么做?Bitmaps助你一臂之力

李子捌

redis bitmaps 签约计划第二季

限流系列文章——令牌桶限流

李子捌

redis 限流 签约计划第二季

如何使用TensorFlow构建机器学习模型_文化 & 方法_Kesk -*-_InfoQ精选文章