收录了 DMTK 频道下的 11 篇内容
毫无疑问,机器学习是目前数据分析领域最为炙手可热的主题之一,其研究成果早已渗透到了日常生活中,从垃圾邮件过滤到人脸支付,从信用欺诈检测到自然灾害预测等场景无一不活跃着机器学习的身影。但即便机器学习已经得到了广泛的应用,开发人员能够从网上找到很多机器学习算法实现,但是这些代码往往“脏”而“乱”,没有经过大规模的生产验证。幸运的是现在这种窘境已经不复存在了,因为Google、Microsoft和IBM分别发布并开源了自己的机器学习工具包TensorFlow、DMTK和SystemML,每一个项目都是各自公司知识积累的结晶,在其内部发挥着举足轻重的作用,那么这些工具包相互之间又有哪些区别呢?
Facebook最近宣布对兼容于其自主设计的Open Rack硬件的设计进行开源。归因于愈加庞大的数据集以及更强大的基于GPU的系统,机器学习和人工智能进展不断,Facebook公开了它的下一代AI系统,该系统以加州同名景点命名,代号为“Big Sur”。
哪家公司在GitHub上贡献最多?不是Facebook,也不是Google,而是微软公司,这个第一名还是多少有些出人意料。
一个深度学习框架一旦像Hadoop那样成为事实工业标准,就占据了人工智能各种关键应用的入口,对各类垂直应用,基于私有部署的技术服务,公有云上的AI 即服务业务,甚至底层专用硬件市场都有举足轻重的影响。 事实上,在开源软件范围竞争还是非常公平的,原来名不见经传的人开发出的软件的确好用就能火,大公司开发出的软件质量不行也没人用,最终靠产品质量说话。
本文通过回顾自然语言处理的发展历史,解读2015年整个自然语言处理行业的重大变化,进而提出新的时代下自然语言处理技术的发展瓶颈、以及对于自然语言处理所提出的挑战、自然语言处理未来的发展方向。
自动驾驶的深度学习任务也很大,建立强大的深度学习平台是非常必要的。
2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展变化,回顾过去,继续前行。本文是大数据解读篇,在这篇文章里关键技术进展部分我们选取了大数据生态圈里Hadoop、Spark、Elasticsearch和Apache Kylin四个关键技术,分别请了四位专家来为大家解读2015里的进展。
由于目前市场上的商业通用AI平台(软件即服务,下简称商业AI平台)跟AI云服务在功能上高度重合,且商业模式不及云服务,谷歌提供企业版之后,这些AI平台初创企业压力倍增。
本文介绍了微软的一个比赛队伍参加2017年Kaggle肺癌CT图像检测比赛时,如何借用现成的152层ResNet网络,对接到分布式计算的神经网络上,在60分钟内完成训练的实施细节和代码。对卷积神经网络、LightBGM、ResNet等基本概念也进行了讲解,希望对刚接触AI的朋友有所帮助。
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来。
2017年6月,腾讯正式开源面向机器学习的第三代高性能计算平台 Angel,在GitHub上备受关注;2017年10月19日,腾讯T4专家Andymhuang(黄明)将为QCon上海的听众奉上一场Spark on Angel的精彩分享。作为Angel的主要开发者和团队负责人,同时也是Spark的早期研究者和布道者,他的工作经历可以说同步了通用大数据平台到专用机器学习平台的转变历程。因此,在这之前,InfoQ对黄明进行了一次采访,他将与大家分享人工智能时代的大数据平台演进之路,并结合Angel的开发经验,谈谈如何打造一个优秀的机器学习平台,以及开源后Angel的最新消息和未来规划。