写点什么

近观 Strata2014 大会

  • 2014-03-12
  • 本文字数:1789 字

    阅读完需:约 6 分钟

Strata 大会是 O’Reilly 出品的大数据为主题的会议,其口号是聚集领先的大数据思想,让数据工作(making data work)。目前国内大数据行业关注更多在基础架构方面,而国外已经将焦点转移到数据展示和数据挖掘。2014 Strata 大会在美国加州圣克拉拉市举行,不仅有深度的技术实践(演讲PPT 与视频),还能看到众多大数据巨头和创业公司很好的展示。

InfoQ 采访了 Intel 大数据平台团队的开发工程师钟翔,他以一名工程师的角度亲临了 2014 Strata 大会。以下为采访内容:

InfoQ:钟翔你好,向 InfoQ 的读者介绍下自己吧。

钟翔:我在 Intel 上海做英特尔大数据分发版,研发工程师,现在近三年了。

InfoQ:说说参加 Strata2014 大会的整体感受吧。

钟翔:会议规模非常大,参展商特别多,有 100 多家,代表性特别广,从这些参展商基本可以看出美国大数据的行业脉络和兴趣热点。

InfoQ:印象最深刻的是什么?

钟翔:印象最深的是参展商非常活跃。Strata 是行业大会,参会者彼此之间有点像是宣传与被宣传的关系。演讲中的技术干货有,但不是特别多,很多大小公司还是在宣传自己的产品,深度不够。

反观展台的参展商非常活跃,并且因为有 Demo 和一对一的介绍,可以问得比较深。总体感觉,国内大数据的兴趣主要还在基础架构平台这一层,数据保存、数据查询和数据处理等,普遍做的事情比较偏下层,而像相对上层的机器学习等只有少量的公司在做。美国很不一样,他们主要关心数据衍生的价值,很多大数据企业都在做两件事情:数据可视化和数据分析。这次参展商里估计有 60% - 70% 都是这类企业。数据可视化是指能够交互式的、探索性的展示数据,比如航班信息延时分析,会通过非常漂亮的交互式的图像展示。美国的公司非常在意数据可视化和数据分析,现在看起来已经成为一种风气。

比如上市公司 Datameer 善于做数据分析,和他们沟通中得知,他们有很多五百强客户。

一家有医疗服务业务的公司叫 YarcData,辅助医生做出诊断。医生只要输入病人的症状的描述,有 a 症状,有 b 症状,没有 c 症状,系统就会自动分析给出相应诊断。

还有一家做可视化的公司 Splunk,也是上市公司,他们的产品可以做日志数据的实时抓取和可视化展现,有了它,集群运维团队可以简单点几下鼠标就可以看到整个集群的状态。而且这个可视化是动态、实时、交互式的。

InfoQ:美国的这些大数据创业公司在哪些细分技术或领域做的更多?

钟翔:整体的分布刚才提到了,更关注数据分析和可视化。而在具体的技术点或细分领域,美国的创业公司并不像国内扎堆追某几个热点,它们涉猎更广,做的东西都比较独特。比如 Skytree 专注于提供优化的机器学习算法库,他们展示用这一算法库探测异常的天体。做基础架构平台的公司也有很多独特的地方,比如有的分布式数据库公司在数据节点层做热备份,从而实现高可用性。还有的公司在类 HBase 系统上建一层 cache,大幅提升读写性能。还有的公司把大数据集群,数据分析和可视化通通搬到公有云上,在云上做 BigData as a Service。所有这些公司的产品,可能技术不是太难,有些只需要对开源产品做少量改动,但他们确实解决了特定用户的特定需求。

InfoQ:的确,全方位的创新非常多。

钟翔:而且美国的公司非常强调用户体验,哪怕是几个人规模的创业公司,产品的用户体验都非常棒。还有一点很有意思,这些公司里面,很多都是学校的教授创办的,美国的学界和产业联系非常紧密,这点和国内不太一样。

InfoQ:哪些技术格外受关注?

钟翔:时间有限,只能参加一小部分。我比较感兴趣的首先是 Spark,会议第一天有半天时间关于 Spark 的培训,还有很多比较有趣的演讲。然后需要提下第一天的“Hardcore Data Science”全天的 Session,有很多实打实的技术和干货。比如 Google 分享了 Deep Learning,信息量很大,有一些实际的例子,解决的都是实际的问题,演讲和问答环节都非常务实,这一天还有 GraphLab 的 Alice 分享了她理解的机器学习的挑战,懂机器学习的人往往不懂数据结构,而懂数据结构的又不懂机器学习,她抽象出了 Flat Table 和 Graph 两类基础数据结构,对 Tool 开发者有很大启发意义。还有一个 Ben Hamner 分享的“Machine Learning Gremlins”总结了机器学习的雷区,非常有趣。

KeyNotes 里面引人注目的是 Intel 副总裁 Boyd Davis 宣布了新的产品 Intel Data Platform,将在 Hadoop 之外引入更多的 Apache 项目如 Spark、Shark、Kafka、Storm 等,以及高级的分析工具包。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-03-12 05:551401
用户头像

发布了 45 篇内容, 共 13.6 次阅读, 收获喜欢 3 次。

关注

评论

发布
暂无评论
发现更多内容

云智慧:拥抱AI算法驱动的智能运维服务创新引擎

云智慧AIOps社区

人工智能 自然语言处理 算法

Rank4 NLP新闻文本分类-开源代码+经验分享@惊鹊

阿里云天池

机器学习 阿里云

为什么要开展业务串讲?

老张

业务流

建议有这些需求的企业部署SD-WAN!

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

大模型LLM在Text2SQL上的应用实践

百度开发者中心

自然语言处理 大模型 LLM

网站安全方面,漏洞扫描VSS能提供哪些帮助

德迅云安全杨德俊

利用AI大模型实现自然语言到SQL的转换及其优化

百度开发者中心

自然语言处理 AI大模型

让你的文档从静态展示到一键部署可操作验证

阿里巴巴云原生

阿里云 云原生

Paper Digest | GPT-RE:基于大语言模型针对关系抽取的上下文学习

可信AI进展

语言模型 #大模型

负载均衡:实现高效稳定的网络服务

gogo

6E DBDC 4T4R QCN6224 QCN9274 QCN6274 WiFi7 Lower Power Consumption Network Card

wallyslilly

qcn9274 qcn6274 QCN6224

Vision Pro 开发实践(一)

京东零售技术

人工智能 企业号 4 月 PK 榜 Vision pro

选择SD-WAN带宽时需要考虑什么?

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

云智慧发布对象关系型数据库CloudPanguDB,打破传统技术壁垒

云智慧AIOps社区

数据库

架构实战营 - 模块四作业

满心

架构实战营

Web3 游戏周报(3.24-3.30)

Footprint Analytics

gamefi #Web3

【机器学习入门】拥抱人工智能,从机器学习开始

阿里云天池

机器学习 阿里云

《信息技术服务 智能运维 第2部分:数据治理》国家标准2024年第一次线下编写会议成功召开

云智慧AIOps社区

运维

天池医疗AI大赛[第一季] Rank8解决方案[附TensorFlow/PyTorch/Caffe实现方案]

阿里云天池

人工智能 阿里云

前十名单公布|OpenTiny 前端 Web 应用开发挑战赛初赛结果揭晓~

OpenTiny社区

开源 前端 低代码 组件库

SD-WAN降低网络运维难度的三大关键技术

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

测试测试从

delete is create

使用EasyRec快速构建推荐模型

阿里云天池

阿里云

提质增效|大型汽车制造业运维精细化管理建设实战

云智慧AIOps社区

智能运维 运维管理

产品待办列表梳理步骤

ShineScrum捷行

PLM系统全面指南

PingCode

产品管理 PLM

【详细注释+流程讲解】基于深度学习的文本分类 TextCNN

阿里云天池

机器学习 阿里云

Node.js环境下淘宝商品详情接口开发实践

tbapi

淘宝商品详情数据接口 淘宝数据采集

知识图谱在五大智能领域的应用

悦数图数据库

知识图谱

升级ChatGPT4.0,原来还需要注意这些?

蓉蓉

openai #人工智能 ChatGPT GPT-4

深度解密京东中台底层支撑框架

京东零售技术

Java 后端 企业号 4 月 PK 榜

近观Strata2014大会_数据库_包研_InfoQ精选文章