写点什么

Dataiku 在最新版本的 Data Science Studio 中把深度学习集成进计算机视觉

  • 2018-04-17
  • 本文字数:1638 字

    阅读完需:约 5 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

近日, Dataiku 发布了 Data Science Studio (DSS)的 4.2 版本。这是一个协作式数据分析和预测分析平台,提供了预训练深度学习模型用于图像处理。通过迁移学习,该模型可以进一步应用到专用数据集上。

该平台涵盖了数据科学端到端项目的所有步骤,从连接、数据整理和可视化到机器学习和生产部署。其机器学习模型支持 Scikit-learn XGBoost MLLIb H20 等标准库。开发人员也可以连接到 Hadoop 集群,并集成多种 Spark 引擎。

这个平台适用于常见的预测分析场景,如需求预测、生命周期价值优化、客户流失分析或欺诈检测。Dataiku 的客户包括像通用电气欧莱雅联合利华这样的公司。在 Gartner 2018 数据科学平台魔力象限中,该公司已经连续第二年被称为“远见者(visionary)”。

InfoQ 采访了 Dataiku 首席执行官 Florian Douetteau ,以了解更多有关这家公司及其旗舰产品的信息。

InfoQ:您可以给我们介绍下你们的数据科学平台 Dataiku DSS 的一些背景吗?其后台技术是什么?

Florian Douetteau:Dataiku 是一个软件,用户可以下载并安装在自己的基础设施上。因此,对于许多客户而言,那是在云上,但对其他人来说,那仍然是他们自己的数据中心(大约对半)。

我们通常要考虑客户的部署约束和挑战,因此,我们必须让我们的产品尽可能地简单。我们的架构是多进程的,但它是自包含的,在这个意义上来说,也可以视为单体的。从根本上说,该解决方案内置了它需要的一切,包括 SQLite H2 数据库。我们的代码主要是使用 Java 编写的,这是大数据的主要语言之一,被视为性能和生产力取得很好平衡的一门语言。

在后台有一个 Web 服务器,负责任务调度、存储和元数据管理、搜索索引。我们还有一些 Python 和 R 进程,显然还有 Spark 进程。在前端,我们使用一个 AngularJS 编写的单页应用程序( SPA )。

InfoQ:平台的典型用户是谁?市场或销售部门可以用吗?或者,它需要使用者具有一定水平的数据科学知识吗?

Douetteau:Dataiku 一个很大的好处是让企业里的任何人都可以使用数据或与数据进行交互。当然,有许多特性是专门为编码人员和数据科学专家提供的——他们可以使用自己最喜欢的大数据编程语言完成更高级的定制工作。但是,我们也有许多数据科学家使用这个平台把那些编码特性和点击式可视界面结合在一起,因为有时候,那会更高效。

Dataiku 的可视界面可以让分析人员或其他非技术人员连接数据源,整理数据,运用机器学习模型,实现可视化等等,而不需要编写一行代码。对于有许多分析师的大型团队而言,这太棒了,因为这带来了很大的可扩展性。对于可能没有数据科学家的小型团队而言,这也可以为他们带来很大的灵活性。

InfoQ:DSS 4.2 中包含了基于深度学习的图像识别。你们的深度学习产品策略是什么?

Douetteau: 整个 2018 年到 2019 年,我们将集中精力帮助企业消除数据项目产品化之路上的障碍,并提供长期成功所需的结构和稳定性。这意味着,我们将按照产品开发路线图加速深度学习、AI 向生产环境的部署。

InfoQ:在计算能力和存储方面,你们如何应对利用大数据、深度学习的大规模机器学习?

Douetteau:在性能方面,由于 Dataiku 是一个用户可以下载并安装在自有基础设施上的软件,所以,要确保良好的性能,就需要客户端部署多个实例。

这恰恰是我们所支持的——横向扩展和新增节点。说服客户,让他们信任我们,把数据交给我们托管,这是个复杂的事情,尤其是,我们面向的是大型的国际化企业。但除此之外,还有底层的技术问题;例如,处理数据时要离数据尽可能地近,此时,SaaS 就不是一个好的解决方案。另一方面,这非常适合云——我们通过托管的 Hadoop 解决方案集成了 AWS、Microsoft Azure 和 GCP。

在接下来的几个月里,Dataiku 将会出席在美国举办的多个大数据和AI 活动,包括将于六月份在旧金山举行的 Spark 峰会。Dataiku 官网提供了该软件的免费版本

查看英文原文 Dataiku’s Latest Release Integrates Deep-Learning for Computer Vision

2018-04-17 19:002524
用户头像

发布了 1008 篇内容, 共 422.2 次阅读, 收获喜欢 346 次。

关注

评论

发布
暂无评论
发现更多内容

“思考更长时间”而非“模型更大”是提升模型在复杂软件工程任务中表现的有效途径 | 学术研究系列

阿里云云效

阿里云 云原生

BeeWorks:专业的企业Im即时通讯平台

BeeWorks

IM 即时通讯IM 私有化部署 企业级应用

用户说 | 手把手体验通义灵码 2.0:AI 程序员如何让我从“调参侠”进阶“架构师”?

阿里云云效

阿里云 云原生 通义灵码

世界地球日,DeCloud如何助力节能减排?

PowerVerse

DePIN 节能减排 DeCloud

天润融通携手天虹:AI Agent革新购物体验,优化服务效率

天润融通

用通义灵码写一个大学社团“自动化运营外挂” | 《趣玩》第3期

阿里云云效

阿里云 云原生 通义灵码

一天 Star 破万的开源项目「GitHub 热点速览」

电子尖叫食人鱼

GitHub

一文讲透“MCP协议+LazyLLM”实战:零基础秒建Agent分身!

商汤万象开发者

AI LLM

用通义灵码写一个大学社团“自动化运营外挂” | 《趣玩》第3期

阿里巴巴云原生

阿里云 云原生 通义灵码

2025深圳机器人展览会·高交会

AIOTE智博会

高交会 机器人展 机器人展会 机器人博览会

万字长文 | Apache SeaTunnel 分离集群模式部署 K8s 集群实践

白鲸开源

CAD放缩时文字消失怎么办

极客天地

全球线上直播会议丨快速赋能企业,仿真技术如何实现降本增效?

Altair RapidMiner

仿真 CAE hyperworks SimSolid Simlab

以人脸识别验票机为例,通义灵码如何助力嵌入式软硬件开发中的快速功能验证

阿里巴巴云原生

阿里云 云原生 通义灵码

以人脸识别验票机为例,通义灵码如何助力嵌入式软硬件开发中的快速功能验证

阿里云云效

阿里云 云原生

故障定位系列-2-服务&接口双粒度动态拓扑,精准定位共享连接池故障

乘云数字DataBuff

可观测性 故障定位 智能运维 运维监控

2025 AI+研发数字峰会,我们在「AI 生产力工具创新论坛」等你来

阿里云云效

阿里云 云原生 通义灵码

英特尔“大小脑融合”全新方案亮相:构建具身智能系统的理想选择

E科讯

用户说 | 手把手体验通义灵码 2.0:AI 程序员如何让我从“调参侠”进阶“架构师”?

阿里巴巴云原生

阿里云 云原生 通义灵码

天润融通智能工单系统,助力企业实现服务全流程可视化管理

天润融通

JDK的SPI有什么缺陷?dubbo做了什么改进?

不在线第一只蜗牛

Java

天润融通AI Agent引领零售行业客户服务变革,塑造持久竞争力

天润融通

最讨厌AI的人选了特朗普

脑极体

AI

BeeWorks:低成本的国产化企业内网即时通讯

BeeWorks

即时通讯 IM 私有化部署 企业级应用

CAD对齐两个对象方法

极客天地

酒仙桥的AI变形记

脑极体

AI

2025 AI+研发数字峰会,我们在「AI 生产力工具创新论坛」等你来

阿里巴巴云原生

阿里云 云原生 通义灵码

“思考更长时间”而非“模型更大”是提升模型在复杂软件工程任务中表现的有效途径 | 学术研究系列

阿里巴巴云原生

阿里云 云原生

CAD怎么将Z坐标调为0

极客天地

CAD怎么关闭保存备份bak文件

极客天地

稳就业,保民生:2025年就业形势与实操指南,助你把握职场先机

安全乐谷

找工作 招聘 就业 找实习 改简历

Dataiku在最新版本的Data Science Studio中把深度学习集成进计算机视觉_AI&大模型_Alexis Perrier_InfoQ精选文章