Python 数据挖掘与机器学习实战 (9):机器学习基础 1.4

阅读数:1 2020 年 1 月 8 日 20:57

Python数据挖掘与机器学习实战(9):机器学习基础 1.4

(机器学习的应用)

内容简介
本书作为数据挖掘和机器学习的读物,基于真实数据集进行案例实战,使用 Python 数据科学库,从数据预处理开始一步步介绍数据建模和数据挖掘的过程。书中主要介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带领读者轻松踏上数据挖掘之旅。本书采用理论与实践相结合的方式,呈现了如何使用逻辑回归进行环境数据检测,如何使用 HMM 进行中文分词,如何利用卷积神经网络识别雷达剖面图,如何使用循环神经网络构建聊天机器人,如何使用朴素贝叶斯算法进行破产预测,如何使用 DCGAN 网络进行人脸生成等。本书也涉及神经网络、在线学习、强化学习、深度学习和大数据处理等内容。
本书以人工智能主流编程语言 Python 3 版作为数据分析与挖掘实战的应用工具,从 Pyhton 的基础语法开始,陆续介绍了 NumPy 数值计算、Pandas 数据处理、Matplotlib 数据可视化、爬虫和 Sklearn 数据挖掘等内容。全书共涵盖 16 个常用的数据挖掘算法和机器学习实战项目。通过学习本书内容,读者可以掌握数据分析与挖掘的理论知识及实战技能。
本书内容丰富,讲解由浅入深,特别适合对数据挖掘和机器学习算法感兴趣的读者阅读,也适合需要系统掌握深度学习的开发人员阅读,还适合 Python 程序员及人工智能领域的开发人员阅读。编程爱好者、高校师生及培训机构的学员也可以将本书作为兴趣读物或教材使用。

近几年的时间里,深度学习算法如雨后春笋般不断涌现。这些算法在计算机图像识别、语音和视频识别、自然语言处理及信息检索等领域不断刷新历史记录。本节将根据不同应用领域对相关的知名案例进行简述。

1.图像识别

图像识别过去依赖人工设置的特征,特别适合于提取低等级边界信息的 SIFT(尺度不变特征转换)或 HOG(方向梯度直方图)等。然而,随着小样本无法真实反映实际复杂的情况,研究人员开始在大数据集上进行实验。

1995 年 Yann Lecun 设计了 LeNet-5 网络,该网络使用了 2 个卷积层、2 个池化层和 2 个全连接层,形成典型的 CNN(卷积神经网络),在 MNIST 数据集上的实验得到了 0.9% 的错误率,被用于银行手写支票识别。这也是 CNN 的成功案例之一。

2006 年,Hinton 用一个拥有 3 个隐藏层、170 多万权重的深度置信网络在 MNIST 手写特征识别的数据集上进行训练,在没有对样本进行预处理的情况下,在 1 万条左右的测试集上,错误率为 1.25%,低于反向传播网络及支持向量机(SVM)。

2011 年,Google 公司建立了全球最大的神经网络,即“深度神经网络”(DNN),也叫“谷歌大脑”,并进行了一个猫脸识别的实验。该实验从 YouTube 视频中取出 1000 万张静态图片,让系统自动学习并判断哪些是猫的图片。实验结果表明,他们所建立的深层网络及其算法,在 ImageNet 数据集 1 万张图中效果提升了 15%,2.2 万张图中效果提升了 70%。该网络是一个用 16000 个 CPU 并行计算平台训练内部拥有 10 亿个节点的机器学习模型。

2016 年初,谷歌旗下最强大脑(DeepMind)公司推出人工智能机器人 AlphaGo,创下了围棋人工智能领域的诸多世界纪录。包括:在不让子的情况下,第一次在完整的围棋竞技中击败专业选手(比分 5∶0);在中国围棋规则下,成功挑战围棋世界冠军李世石(比分 4∶1)。AlphaGo 的关键技术有深度学习、强化学习和蒙特卡洛树搜索。在其有监督学习策略和强化学习价值网络中采用了 CNN 结构。

2.语音识别

在过去,语音识别一直采用 GMM-HMM 模型。2012 年,HinTon 等人考虑了语音数据内部原有的结构特征以后,将传统的模型中的高斯混合模型 GMM 替换为 DBN 进行实验。结果表明,在 TIMIT 核心测试集上,错误率降到 20.7%,准确率有明显提升。无独有偶,其他研究人员也尝试将 GMM-HMM 中的 GMM 替换为其他深度神经网络,也得到了良好的效果。

微软公司的语音视频检索系统(MAVIS),也是在 CD-DNN-HMM 深度模型的基础上进行开发的,其在 RT03S 数据集上单词错误率从 27.4% 降低到了 18.5%。2012 年,微软在天津公开演示了 MAVIS 系统对现场讲演者的英文演讲,进行后台的语音识别、英 / 中文机器翻译和中文语音合成等一系列处理,效果流畅。

3.自然语言处理

自然语言处理(NLP)传统处理方法的缺陷为采用浅层结构,使用线性分类器且需要人工设计大量较好的特征进行预处理,特征在分离的任务中被串联导致传播误差增大。2003 年,Bengio 等人提出词向量方法,采用神经网络构建语言模型。之后,研究人员在此基础上提出了不同的词向量训练模型。由于人类自然语言具有递归特性,即任何语言中的句子,事实上可以由词、短语递归组合而成,因此,将循环神经网络(RNN)引入 NLP 成为一种趋势。从 2010 年开始,来自 Google 的一些研究者一直从事该领域的研究,提出了 RNNLM(循环神经网络语言模型),在语言模型的训练速度、准确率及困惑度上得到了改善。

4.医疗保健

退伍军人创伤后成长计划与 IBM Watson 合作使用人工智能和分析技术,以确保更多患有创伤后应激障碍的退伍军人能够完成心理治疗。使用这些技术后,使完成率从原来的不到 10% 上升到 73%。根据退伍军人事务部的统计,80% 的患有创伤后应激障碍的退伍军人在确诊后一年内完成治疗计划,得到康复。在参加了阿富汗和伊拉克战争的 300 万名老兵中,大约有五分之一的老兵患有创伤后应激障碍。

以色列医疗技术公司 MedyMatch 和 IBM Watson Health 正在使用人工智能,通过检测颅内出血,帮助医院急诊室的医生更有效地治疗中风和头部外伤患者。AI 系统使用临床洞察力(clinical insight)、深度学习、患者数据和机器视觉来自动标记潜在的脑出血,以供医生检查。

用于检测和诊断癌症的传统方法包括计算机断层扫描(CT)、磁共振成像(MRI)、超声和 X 射线。不幸的是,许多癌症无法通过这些技术得到足够准确的诊断,从而及时地挽救生命。微阵列基因图谱的分析是一种替代方法,但这项技术需要很多小时的计算,除非这项技术可以使用 AI 替换。现在已经被证明,斯坦福大学的人工智能诊断算法可以与医疗团队(由 21 名经委员会认证的皮肤科医生组成)一样有效地从图像中检测潜在的皮肤癌。Startup Enlitic 正在使用深度学习来检测 CT 图像中的肺癌结节,其算法比一个胸科医生组成的专家团队的准确率高 50%。

在人工智能的帮助下,其他医疗保健公司正在经历诊断、治疗甚至治愈的过程。Insilico Medicine 正在用深度学习算法寻找新药和治疗方法,包括新的免疫疗法。这些基因疗法使用每个病人的细胞来模拟他们自己的生物学和免疫系统。

人工智能之所以能使这些疗法奏效,是因为它能设计出组合疗法,并以闪电般的速度,以模拟的形式进行数百万次实验,来识别令人难以置信的复杂生物标记物。

纵观深度学习在人工智能不同细分领域中的应用,在计算机视觉、语音识别和自然语言处理等领域中成绩相对显著。但是在其他相关领域,依然不时涌现新的深度结构及其算法。

Python数据挖掘与机器学习实战(9):机器学习基础 1.4

购书地址 https://item.jd.com/12623592.html?dist=jd

评论

发布