NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

高亮谈大数据存储、分析、产品化

  • 2014-09-10
  • 本文字数:1839 字

    阅读完需:约 6 分钟

在最近举行的百度世界 2014 大会大数据论坛上,百度大数据部研发副总监高亮分享了百度在大数据存储、处理和产品化方面的最新成果。

在今年 4 月份百度发布了开放大数据引擎战略,高亮指出,虽然大数据概念炒的非常火,但是大数据内部运作的逻辑和传统行业是比较类似的。

如果传统行业做实业的话,首先要有地基,你要有厂房,要有原材料,然后做加工,接下来设计成独立的产品,给客户带来独特的体验。开放云就是大数据的地基和厂房,原材料就是在线上和线下产生的海量数据。现在百度目前每天数据规模,2013 年是 25PB,这个数字在快速的变化,我们现在处理的能力已经提高一倍,数据上目前是 50PB,增长了一倍,这个就是我们目前大数据库要处理的数据的原材料。

大数据处理能力分为几个层次,首先是数据存储,然后是智能分析,然后是做出产品。在几年之前,百度的数据存储在每个产品线都有自己的方式。后来用了两年的时间构建了现在的数据存储方式,首先解决了数据的传输,现在百度很多产品线要实时产生大量海量的数据,这些数据都需要被实时的储存一个地方。但是这些产品线的数据格式都是异构的。大数据部门做了非常多的标准化的工作,在基础上形成了第一个海量数据储存的产品,叫通用的数据仓库。总结起来,一是构建了实时的海量数据的传输平台,任何一个产品线产生的数据都能够实时的传送到这个数据仓库里面。二是做了实时的数据标准化的工作,无论你的数据是什么样的格式,到数据仓库里面都以同样的格式来储存。

有了这个物流,有了这个标准化,我们能够在这个基础上对数据进行更多的分析和加工。

高亮指出,整个数据的流程是全自动化的,从数据的生成、数据的传输、数据的标准化,到最后数据的归类、数据的分析,都是全自动化的。

这个产品(Query Engine)是一套标准的海量数据储存方案,无论你的数据是什么样的,经过处理会把它做成数据标准化,当数据实时生成,有非常好的数据传输框架,保证你的数据上传到百度的开放云,在上面进行建模,进行各种各样可视化分析和决策的过程。我们已经成功了上传分析一家合作企业将近 10T 的关于新能源方面的一些数据。

在数据被结构化存储以后,接下来是在这个基础上进行各种各样的智能化分析。就像传统行业有自己的产品设计中心一样,会对产品进行各种各样的分析、排列组合,做各种各样的实验。在这个实验的基础上能够产生出比较好的产品,能够满足用户的需求。大数据部门也有这样的需求,也需要有大数据产品的设计中心,在这个设计中心需要做很多实验,做出适用于百度,适用于客户的数据产品。

我们大数据新产品的设计中心,可以进行很多实时的智能分析,做很多的实验,对产品进行很多排列组合,看哪一种产品能够最适合行业,满足百度的需求。

对于大数据产品,高亮列举了几个上线的实例,包括百度司南、预测、推荐等。其中百度司南门专门针对发展到一定阶段、有了一定的品牌影响力的企业,能够让企业对自身的品牌有更客观的了解,主要体现在三个方面:

  • 品牌分析,了解你的品牌在同行业中的地位如何,周边的人如何看待你的品牌,口碑如何,这种分析几乎是实时的。
  • 用户关注点,比较忠实的用户除了关注你的品牌,他还关心什么别的,他还对什么样的东西感兴趣。
  • 渠道分析,用户通过什么渠道了解到你的品牌,这样以后做营销行为,就知道如何很快的影响到你的受众,什么样的渠道是最有效的。

那么百度司南有什么实际应用呢?高亮从代言人、舆情分析两个方面做了展示。

很多品牌到了后期推广的时候,都有找代言人的需求。什么样的代言人在你最想影响的受众是最有号召力的?之前可能是一些拍脑袋的决策,但是通过司南,通过海量的数据,通过海量的用户行为分析,可以帮助你做一个决策的科学。实际上我们已经通过大数据的分析,可以产生出超过一千家的企业,它们最合适的代言人到底是哪一位。

另外一个是舆情分析,实际是跟品牌的口碑最像。企业里有一系列的产品,每一个产品可能有轻微的差异化,就像我化妆品一样,每一款产品在用户中的口碑到底怎么样,用户喜欢这些产品什么样的功能,不喜欢这些产品什么样的功能。在之前,很多公司通过调研公司到各个城市,通过实时的访谈获得一些统计数据。整个过程要耗费一个月左右。通过舆情分析,几乎可以实时告诉你这个答案,到底有多少用户是喜欢这个功能,有多少用户不喜欢这个功能。一个月和实时的差距,就是百度大数据能给传统行业带来的竞争力。

最后,高亮表示,目前的产品只是揭开了冰山一角,在大数据这个方面,产品设计的想象力其实是很多很多的,后面会陆续推出一系列的大数据产品。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2014-09-10 01:401532
用户头像

发布了 501 篇内容, 共 248.4 次阅读, 收获喜欢 57 次。

关注

评论

发布
暂无评论
发现更多内容

云原生数据库极致弹性体验 - Amazon Aurora Serverless v2

亚马逊云科技 (Amazon Web Services)

数据库 云原生

软件测试 | 测试开发 | 测试人生 | 三十而立终圆大厂梦,测试开发开启新征程

测吧(北京)科技有限公司

软件测试 测试 测试开发

Python图像处理丨带你认识图像量化处理及局部马赛克特效

华为云开发者联盟

人工智能 企业号九月金秋榜

AI 时代的视频云转码移动端化——更快、更好、更低、更广

ZEGO即构

AI 音视频开发 视频云转码

干货|app自动化之如何参数化用例

霍格沃兹测试开发学社

干货|接口测试必备技能-常见接口协议解析

霍格沃兹测试开发学社

软件测试 | 测试开发 | 测试人生 | 双非院校、入职某知名电商公司薪资翻倍还有股票奖励,这个90后小姐姐也太飒了吧?

测吧(北京)科技有限公司

测试 面试题 软件测试面试题

软件测试中的『草莓酱定律』

BY林子

敏捷测试 草莓酱定律 温伯格

NFT拍卖交易系统开发NFT商城

薇電13242772558

NFT

干货|app自动化测试之模拟器控制

霍格沃兹测试开发学社

软件测试 | 测试开发 | 测试人生 | 97年双非学历的小哥哥,2线城市涨薪100%,我酸了......

测吧(北京)科技有限公司

软件测试 测试

干货|app自动化测试之Capability 使用进阶

霍格沃兹测试开发学社

干货|app自动化测试之设备交互API详解

霍格沃兹测试开发学社

干货|移动端App自动化之触屏操作自动化

霍格沃兹测试开发学社

软件测试 | 测试开发 | 从跨专业手工测试转岗外包,再到 Python 测试开发,跳槽涨薪 85%!

测吧(北京)科技有限公司

软件测试 测试

软件测试 | 测试开发 | Jenkins job 机制该如何使用?

测吧(北京)科技有限公司

测试 测试工程师

软件测试 | 测试开发 | 测试人生 | 双非学历,从外包到某大厂只用了1年时间,在2线城市年薪近30万,我柠檬了......

测吧(北京)科技有限公司

干货|app自动化测试之Andriod WebView如何测试

霍格沃兹测试开发学社

干货|app自动化测试之Appium 原理 与 JsonWP 协议分析

霍格沃兹测试开发学社

干货|app自动化测试之Appium 源码修改定制分析

霍格沃兹测试开发学社

干货|app自动化测试之Appium 源码分析

霍格沃兹测试开发学社

快速上手 Pytest + Requests + Allure2 测试框架实战技能

霍格沃兹测试开发学社

性能测试实战 | 修改 JMeter 源码,定制化聚合压测报告

霍格沃兹测试开发学社

技术分享 | Spring Boot 异常处理

霍格沃兹测试开发学社

IDaaS 系统ArkID一账通内置插件:图形验证码认证因素的配置流程

龙归科技

单点登录 Idaas

The main application of radio technology in aerospace field/IPQ4019 IPQ4029 ,802.11AC 2x2 2.4G&5G

wallys-wifi6

IPQ4019 ipq4029

技术分享 | Spring Boot 集成 Swagger

霍格沃兹测试开发学社

干货|app自动化测试之Appium问题分析及定位

霍格沃兹测试开发学社

技术分享 | 测试平台开发-前端开发之Vue.js 框架

霍格沃兹测试开发学社

软件测试 | 测试开发 | Jenkins 持续集成体系介绍

测吧(北京)科技有限公司

软件测试 测试

瓴羊智能客服,基于钉钉重磅推出一体化的智能服务解决方案

瓴羊企业智能服务

高亮谈大数据存储、分析、产品化_百度_崔康_InfoQ精选文章