NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Dataiku 在最新版本的 Data Science Studio 中把深度学习集成进计算机视觉

  • 2018-04-17
  • 本文字数:1638 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日, Dataiku 发布了 Data Science Studio (DSS)的 4.2 版本。这是一个协作式数据分析和预测分析平台,提供了预训练深度学习模型用于图像处理。通过迁移学习,该模型可以进一步应用到专用数据集上。

该平台涵盖了数据科学端到端项目的所有步骤,从连接、数据整理和可视化到机器学习和生产部署。其机器学习模型支持 Scikit-learn XGBoost MLLIb H20 等标准库。开发人员也可以连接到 Hadoop 集群,并集成多种 Spark 引擎。

这个平台适用于常见的预测分析场景,如需求预测、生命周期价值优化、客户流失分析或欺诈检测。Dataiku 的客户包括像通用电气欧莱雅联合利华这样的公司。在 Gartner 2018 数据科学平台魔力象限中,该公司已经连续第二年被称为“远见者(visionary)”。

InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau ,以了解更多有关这家公司及其旗舰产品的信息。

InfoQ:您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗?其后台技术是什么?

Florian Douetteau:Dataiku 是一个软件,用户可以下载并安装在自己的基础设施上。因此,对于许多客户而言,那是在云上,但对其他人来说,那仍然是他们自己的数据中心(大约对半)。

我们通常要考虑客户的部署约束和挑战,因此,我们必须让我们的产品尽可能地简单。我们的架构是多进程的,但它是自包含的,在这个意义上来说,也可以视为单体的。从根本上说,该解决方案内置了它需要的一切,包括 SQLite H2 数据库。我们的代码主要是使用 Java 编写的,这是大数据的主要语言之一,被视为性能和生产力取得很好平衡的一门语言。

在后台有一个 Web 服务器,负责任务调度、存储和元数据管理、搜索索引。我们还有一些 Python 和 R 进程,显然还有 Spark 进程。在前端,我们使用一个 AngularJS 编写的单页应用程序( SPA )。

InfoQ:平台的典型用户是谁?市场或销售部门可以用吗?或者,它需要使用者具有一定水平的数据科学知识吗?

Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互。当然,有许多特性是专门为编码人员和数据科学专家提供的——他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作。但是,我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起,因为有时候,那会更高效。

Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源,整理数据,运用机器学习模型,实现可视化等等,而不需要编写一行代码。对于有许多分析师的大型团队而言,这太棒了,因为这带来了很大的可扩展性。对于可能没有数据科学家的小型团队而言,这也可以为他们带来很大的灵活性。

InfoQ:DSS 4.2 中包含了基于深度学习的图像识别。你们的深度学习产品策略是什么?

Douetteau: 整个 2018 年到 2019 年,我们将集中精力帮助企业消除数据项目产品化之路上的障碍,并提供长期成功所需的结构和稳定性。这意味着,我们将按照产品开发路线图加速深度学习、AI 向生产环境的部署。

InfoQ:在计算能力和存储方面,你们如何应对利用大数据、深度学习的大规模机器学习?

Douetteau:在性能方面,由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件,所以,要确保良好的性能,就需要客户端部署多个实例。

这恰恰是我们所支持的——横向扩展和新增节点。说服客户,让他们信任我们,把数据交给我们托管,这是个复杂的事情,尤其是,我们面向的是大型的国际化企业。但除此之外,还有底层的技术问题;例如,处理数据时要离数据尽可能地近,此时,SaaS 就不是一个好的解决方案。另一方面,这非常适合云——我们通过托管的 Hadoop 解决方案集成了 AWS、Microsoft Azure 和 GCP。

在接下来的几个月里,Dataiku 将会出席在美国举办的多个大数据和AI 活动,包括将于六月份在旧金山举行的 Spark 峰会。Dataiku 官网提供了该软件的免费版本

查看英文原文 Dataiku’s Latest Release Integrates Deep-Learning for Computer Vision

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-04-17 19:001911
用户头像

发布了 1008 篇内容, 共 374.5 次阅读, 收获喜欢 341 次。

关注

评论

发布
暂无评论
发现更多内容

短视频商城系统开发(案例)

開發15347427695

星客电商系统开发(介绍)

開發15347427695

【CRUD工程师的末路?程序员开发福音?】AI编程工具——GitHub Copilot推介

恒生LIGHT云社区

人工智能 GitHub 编程

有图有真相!平衡二叉树AVL实现

Ayue、

数据结构

剧本杀是不是个好生意?

石云升

商业洞察 商业分析 7月日更

5分钟速读之Rust权威指南(四十三)宏

wzx

rust

DeFi智能合约挖矿模式开发系统

開發15347427695

乐视界挖矿模式系统开发

開發15347427695

U盘中病毒了,丢失的文件能用EasyRecovery恢复吗?

淋雨

EasyRecovery 文件恢复 硬盘数据恢复

拓客宝APP系统模式开发定制

获客I3O6O643Z97

如何保证 Serverless 业务部署更新的一致性?

Serverless Devs

云计算 Serverless 云原生

高并发服务优化篇:详解RPC的一次调用过程

Coder的技术之路

RPC RPC调用

我们为什么要选择 Rust 而不是 Golang 或 C/C++ 来开发 TiKV ?

恒生LIGHT云社区

编程 rust 语言 & 开发

MARVEL奇迹币矿池系统软件开发

获客I3O6O643Z97

挖矿矿池系统开发案例 云算力软件系统开发定制 蚂蚁矿池

程序员上班“划水”向阿里猛投简历,两次被刷后,终成“菜鸟”P6

Java 程序员 架构 计算机

量化合约交易现成系统源码

開發15347427695

联邦推荐系统——个性化推荐与隐私安全的兼顾者

星云Clustar

联邦学习 推荐系统 数据隐私 数据安全 隐私计算

MDF智能合约挖矿系统开发(案例)

開發15347427695

平安Java岗面试耗尽了我毕生所学,想了想,还是去阿里吧

Java 程序员 架构 面试

企业微信的IM架构设计揭秘:消息模型、万人群、已读回执、消息撤回等

JackJiang

微信 架构设计 即时通讯 IM 群聊

前方高能预警!阿里大佬出品“Spring实战学习笔记”震撼来袭

白亦杨

Java 编程 程序员

区块链量化交易所开发|搭建量化交易系统

Geek_23f0c3

交易所开发 量化交易系统 区块链、

IPFS矿机最新消息?Ipfs矿机公司实力排行?

fil矿机 ipfs矿机 ipfs矿机最新消息是什么? ipfs矿机公司实力排名?

FIL云算力系统开发(案例)

開發15347427695

XCH挖矿系统开发案例搭建

開發15347427695

什么是容器安全

greatersecurity

云原生 DevSecOps

ICML 2021顶会来袭,百度飞桨AI硬实力集中展现

百度大脑

人工智能 机器学习 百度

九环智能合约系统开发(案例)

開發15347427695

网络攻防学习笔记 Day79

穿过生命散发芬芳

网络攻防 7月日更

服装企业生产管理问题重重,低代码能否在其中发挥神效?

优秀

低代码

聚焦Real Time DaaS 赛道,Tapdata 获数千万美元 Pre-A 轮融资

tapdata

实时数据服务平台 Real Time DaaS

Dataiku在最新版本的Data Science Studio中把深度学习集成进计算机视觉_AI&大模型_Alexis Perrier_InfoQ精选文章