Teradata 发布物联网数据实时分析软件

  • Kevin Farnham
  • 董志南

2015 年 11 月 27 日

话题:移动大数据语言 & 开发架构AI

在其 2015 年的合作伙伴用户组会议上,Teradata 宣布了两个新的软件功能,用于海量物联网数据流的实时摄取与分析。Teradata Listener可以实时“监听”多个不同的物联网实时数据流,然后将数据传输与多个分析平台上。全新的Teradata Aster Analytics on Hadoop则通过Teradata Aster Analytics为海量的物联网数据流提供可扩展的分析功能。

Teradata Listener 通过使用开源软件框架(包括 Kafka、Cassandra、Elasticsearch 和 Mesos)以及基于 Docker、微服务和 RESTful APIs 定制的 Teradata 软件组合开发而成的。Listener 的用户通过使用用户图形界面来配置输入数据流、内部数据管道、数据的输出目的地。监控仪表板为数据处理过程提供了完整且透明的图形显示。Listener 软件也包含了允许监控、报告和分析功能定制化开发的 RESTful APIs。然而现有的 Listener 测试版本无法提供全套的 API 文档,但Listener Curl Script博客文章则提供了如何访问 API 的线索。

尽管全新的 Teradata 平台与 Elastic 公司的开源分布式搜索平台ELK stack在方法上比较相似,但是二者在解决问题的技术细节上有些许的不同。Listener 嵌入了 Elasticsearch,提供了类似于 Logstash 的数据传输管道能力,还包含了类似 Kibana 的数据流监控和可视化组件。ELK 没有解决,而新的 Teradata 平台解决了的问题是:为了产生正确的最终效果,要求所有的数据都要针对一个算法同时可视,而如何使多个这样的数据算法并行化的问题。Teradata Aster Analytics on Hadoop 带给我们的是:大数据的可扩展性,可使用任何可以想象的算法来应用于大量物联网输入数据的分析,这是一个重大的创新。

传统上来说,分析工具还没有设计用于在 Hadoop 这样的分布式环境中运行,因为工具中提供的许多分析功能要求生成一个可以代表完整输入数据集的答案。如果数据和分析功能分布于多个服务器上,每个服务器都运行一个单独的分析软件副本,最终就会返回多个结果,可以想象,没有合理的数学算法可以将多个结果融合为一个正确的结果(取决于分析的类型)。然而,统计方法或许可以基于在数据子集上进行的计算集合来预估一个正确的值,但对于整个输入数据集来说,实际的正确值仍然是不可计算的。如果在误差窗口中需要实际的正确值,而不是预估值,那么分析就无法使用传统方法来并行处理。

Aster Analytics on Hadoop 通过将 Aster Analytics 软件直接集成到 Hadoop 上成功地解决了这个问题。Aster 处理引擎(被称作“vWorkers”)由 Hadoop YARN数据操作系统配置并管理。因为在 Hadoop 中,Aster 作为本机进程来运行,它可以在整个 Hadoop 分布式文件系统(HDFS)访问数据,从而解决多个或不正确的分析结果。与此同时,在 Hadoop 上运行 Aster Analytics 也解决了分析却无法扩展的问题。

现阶段 Teradata Listener 的测试版本已经可以下载,Teradata 公司计划在 2016 年第一季度发布产品版本。公司已预定在 2016 年第二季度发行。用户可在自己的数据中心或云平台上运行该产品。

查看英文原文:Teradata Announces New Software for Real-Time Analysis of Internet of Things Data


感谢张龙对本文的审校。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ@丁晓昀),微信(微信号:InfoQChina)关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群InfoQ 好读者(已满),InfoQ 读者交流群(#2)InfoQ 好读者)。

移动大数据语言 & 开发架构AI