【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Dataiku 在最新版本的 Data Science Studio 中把深度学习集成进计算机视觉

  • 2018-04-17
  • 本文字数:1638 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日, Dataiku 发布了 Data Science Studio (DSS)的 4.2 版本。这是一个协作式数据分析和预测分析平台,提供了预训练深度学习模型用于图像处理。通过迁移学习,该模型可以进一步应用到专用数据集上。

该平台涵盖了数据科学端到端项目的所有步骤,从连接、数据整理和可视化到机器学习和生产部署。其机器学习模型支持 Scikit-learn XGBoost MLLIb H20 等标准库。开发人员也可以连接到 Hadoop 集群,并集成多种 Spark 引擎。

这个平台适用于常见的预测分析场景,如需求预测、生命周期价值优化、客户流失分析或欺诈检测。Dataiku 的客户包括像通用电气欧莱雅联合利华这样的公司。在 Gartner 2018 数据科学平台魔力象限中,该公司已经连续第二年被称为“远见者(visionary)”。

InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau ,以了解更多有关这家公司及其旗舰产品的信息。

InfoQ:您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗?其后台技术是什么?

Florian Douetteau:Dataiku 是一个软件,用户可以下载并安装在自己的基础设施上。因此,对于许多客户而言,那是在云上,但对其他人来说,那仍然是他们自己的数据中心(大约对半)。

我们通常要考虑客户的部署约束和挑战,因此,我们必须让我们的产品尽可能地简单。我们的架构是多进程的,但它是自包含的,在这个意义上来说,也可以视为单体的。从根本上说,该解决方案内置了它需要的一切,包括 SQLite H2 数据库。我们的代码主要是使用 Java 编写的,这是大数据的主要语言之一,被视为性能和生产力取得很好平衡的一门语言。

在后台有一个 Web 服务器,负责任务调度、存储和元数据管理、搜索索引。我们还有一些 Python 和 R 进程,显然还有 Spark 进程。在前端,我们使用一个 AngularJS 编写的单页应用程序( SPA )。

InfoQ:平台的典型用户是谁?市场或销售部门可以用吗?或者,它需要使用者具有一定水平的数据科学知识吗?

Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互。当然,有许多特性是专门为编码人员和数据科学专家提供的——他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作。但是,我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起,因为有时候,那会更高效。

Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源,整理数据,运用机器学习模型,实现可视化等等,而不需要编写一行代码。对于有许多分析师的大型团队而言,这太棒了,因为这带来了很大的可扩展性。对于可能没有数据科学家的小型团队而言,这也可以为他们带来很大的灵活性。

InfoQ:DSS 4.2 中包含了基于深度学习的图像识别。你们的深度学习产品策略是什么?

Douetteau: 整个 2018 年到 2019 年,我们将集中精力帮助企业消除数据项目产品化之路上的障碍,并提供长期成功所需的结构和稳定性。这意味着,我们将按照产品开发路线图加速深度学习、AI 向生产环境的部署。

InfoQ:在计算能力和存储方面,你们如何应对利用大数据、深度学习的大规模机器学习?

Douetteau:在性能方面,由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件,所以,要确保良好的性能,就需要客户端部署多个实例。

这恰恰是我们所支持的——横向扩展和新增节点。说服客户,让他们信任我们,把数据交给我们托管,这是个复杂的事情,尤其是,我们面向的是大型的国际化企业。但除此之外,还有底层的技术问题;例如,处理数据时要离数据尽可能地近,此时,SaaS 就不是一个好的解决方案。另一方面,这非常适合云——我们通过托管的 Hadoop 解决方案集成了 AWS、Microsoft Azure 和 GCP。

在接下来的几个月里,Dataiku 将会出席在美国举办的多个大数据和AI 活动,包括将于六月份在旧金山举行的 Spark 峰会。Dataiku 官网提供了该软件的免费版本

查看英文原文 Dataiku’s Latest Release Integrates Deep-Learning for Computer Vision

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-04-17 19:001904
用户头像

发布了 1008 篇内容, 共 374.0 次阅读, 收获喜欢 340 次。

关注

评论

发布
暂无评论
发现更多内容

修炼我们的智慧之眼

J.Smile

认知提升

大话设计模式 | 4. 装饰模式

Puran

C# 设计模式

AOP有几种实现方式?

八苦-瞿昙

技术 随笔杂谈 aop 代理 框架

3W字干货深入分析基于Micrometer和Prometheus实现度量和监控的方案

Throwable

Java 监控 Grafana Prometheus springboot

帮助小团队实现大梦想 | Atlassian 云产品免费使用

Atlassian

SpringBoot 入门:02 - 实现 MVC

封不羁

Java spring springboot

如何搭建Hive 环境

Rayjun

大数据 hive

阿里花500万年薪招天才黑客?官方回应:这种人得交给警察

程序员生活志

黑客 阿里

架构师训练营第六周作业

talen

[译] 图说前端-图解 React

梦见君笑

大前端 React 框架

[译] 图解前端-深入理解 Props 和 State

梦见君笑

大前端 React 漫画编程

谈谈对分布式事务的一点理解和解决方案

Throwable

分布式 分布式事务 架构设计

玛雅密码社区不忘初心 共筑未来通证新经济

Geek_116789

关于架构的几件小事:架构概述(1)

北风

架构 架构设计 架构师 架构设计原则

架构师训练营第六周学习总结

张明森

要不要做一个gif动态图玩一下?

诸葛小猿

GIF ScreenToGif 动态图

创业使人成长系列 (3)- 如何取个好名字

石云升

创业 成长 取名

iOS - CollectionViewCell对应不同flow layout的实例

teoking

ios

list vs tupple

Leetao

Python 数据结构 Python基础知识

看动画学算法之:排序-冒泡排序

程序那些事

算法 动画 排序算法 轻松学

U盘+grub2安装centos8实战

程序饲养员

使用 Generic Webhook Trigger 触发 Jenkins 多分支流水线自动化构建

jerry.mei

DevOps 持续集成 jenkins CI/CD 持续交付

[译] 图说前端-图解 React Native

梦见君笑

大前端 漫画编程

SpringBoot2.x入门:应用打包与启动

Throwable

springboot

了不起的 Webpack Scope Hoisting 学习指南

pingan8787

Java 大前端 webpack

工程规约 - maven统一管理

Man

maven DevOps 工程规约

如何编写可怕的 Java 代码?

武培轩

Java 编程 程序员 后端

如何使用预测性指标衡量敏捷转型的成功?

Atlassian

敏捷开发 开发工具 Atlassian Jira

如何在 Go 中写出高效的单元测试

Grafana 爱好者

testing slideshare Go 语言

[译] 图说前端-组件、Prop 和 State

梦见君笑

大前端 React 漫画编程

ARST Week7

时之虫

ARTS 打卡计划

Dataiku在最新版本的Data Science Studio中把深度学习集成进计算机视觉_AI&大模型_Alexis Perrier_InfoQ精选文章