将 Google AutoML 带给 Kaggle 上的 350 万数据科学家

AI和机器学习
Devvret Rishi

阅读数:186 2019 年 11 月 28 日 11:46

将Google AutoML带给Kaggle上的350万数据科学家

最近,Kaggle 项目的发展迎来重大里程碑——利用这套平台学习并运用机器学习技术的用户已经超过 350 万。AI 是当今世界最强大的新兴技术之一,但在应用规模不断扩展的同时,严苛的工具技能与专业知识要求令组织很难找到合适的数据科学家人才。为了克服这一重大瓶颈,Kaggle 项目以降低工具及技能门槛为己任,致力于增强数据科学家社区的人才储备与供应水平。现在,我们决定将 AutoML 整合至 Kaggle 平台当中,希望进一步为用户的 AI 应用提供助力。

令人振奋的 AutoML

在今年年初 Cloud Next 2019 大会的 Kaggle Days 机器学习竞赛当中,AutoML 一路过关斩将杀入决赛,仅在最后关头被一组数据科学家以微弱优势淘汰出局。这一出色表现不仅令 Kaggle 登上媒体头条,同时也让我们对项目的未来前景充满期待。

作为核心优势,无需掌握机器学习专业知识或者应对大量手动操作,AutoML 即可帮助团队轻松快捷地提升模型性能。此外,数据准备方面的工作量也得到大幅削减,特征工程、模型选择以及超参数调整等任务更是近乎全自动完成。在 IEEE 竞赛当中,AutoML 的时间效率表现大放异彩,数千支专家团队投入数周时间才勉强超越 AutoML 的基准测试成绩。

将Google AutoML带给Kaggle上的350万数据科学家
图中所示为比赛前四周的提交作品得分(各点表示具体分数)与比赛之初发布的 AutoML Tables 基准分数(绿线)间的比较结果。蓝点构成的虚线代表当日全部提交作品第 90 分位的得分情况。可以看到,AutoML Tables 基准得分在比赛的前两周当中始终保持领先。

AutoML 凭借自身卓越的简单性与有效性为希望解决数据科学问题、却又缺少深厚数据科学背景的人们提供助力,帮助他们轻松构建起强大的模型方案。

工作原理

自动化机器学习工具(AMLT)由来已久,且不同方案往往各具特色。但总体来看,这类工具通常强调建立起端到端流程,希望利用更少的预处理输入数据实现机器学习模型的自动化训练。Google Brain 在 2016 年发表了一篇开创性的机器学习自动化论文,其中令人兴奋的研究结果加上降低机器学习实施门槛所带来的巨大发展空间,促使 Google Cloud 此番将 AutoML 引入自家 AI 平台。

Cloud AutoML 将以服务套件的形式推出,允许用户针对各类任务集(包括视觉、语言以及结构化数据处理)构建定制化机器学习模型。其中每种产品的实际用法各不相同,但基本思路则保持一致:通过 SDK 或者 Web UI 提取数据,为用户提供微调选项,输出训练完成的模型,最后以一键式操作将模型部署至 GCP。作为此次发布的重点,这里我们要向 Google Cloud 社区正式宣布:现在,大家可以直接在 Kaggle Notebooks 当中使用我们的 SDK。

如何在 Kaggle 上使用 AutoML

AutoML 虽然是刚刚加入的新兵,但使用方式与之前已经引入 Kaggle Notebooks 的 BigQuery 基本相同。

首先,关联 GCP 账户并授权其访问需要使用的云服务。同时,启用云存储为 AutoML 建立数据访问通道。
将Google AutoML带给Kaggle上的350万数据科学家

谷歌账户关联完成并确认云账户准备就绪之后,即可开始使用 AutoML。另外,请确保在 GCP 项目当中启用 ML API 与 billing 计费功能。AutoML 是一项付费服务——当然,GCP 也提供免费套餐,具体限制与费率视您的实际使用方式而定。为了方便大家快速使用,我们计划在今年之内提供 GCP 积分制度,您可以使用积分抵扣部分 AutoML 服务费。顺带一提,所有注册 GCP 的 Google 新账户都将获得 300 美元免费额度。

就这么简单,快试试吧!

现在,您可以通过 Kaggle Notebook 中的内置客户端 SDK 或者云控制台中的 Web 界面轻松运行 AutoML 了。要在 Notebook 当中使用 AutoML,请首先参阅 Google 说明文档或者相关教程。若需了解更多与机器学习自动化以及改善数据科学工作流程的更多细节信息,也可观看我们的指导视频。

Kaggle 仍在不断发展,敬请关注

如果大家对这些新工具有任何建议或者意见,我们随时欢迎您的反馈。另外,我们也将继续倾注心力构建新的技术方法,希望进一步降低 Google 平台与机器学习服务的获取难度。感兴趣的朋友可以关注 Kaggle 的 YouTube 频道以了解 Kaggle 项目的最新动态,包括即将举行的机器学习模型研讨会、每周实时编码等更多节目。

原文链接: https://cloud.google.com/blog/products/ai-machine-learning/bringing-google-automl-to-3-million-data-scientists-on-kaggle

文章版权归作者所有,未经许可不得转载。

评论

发布