写点什么

高亮谈大数据存储、分析、产品化

2014 年 9 月 10 日

在最近举行的百度世界 2014 大会大数据论坛上,百度大数据部研发副总监高亮分享了百度在大数据存储、处理和产品化方面的最新成果。

在今年 4 月份百度发布了开放大数据引擎战略,高亮指出,虽然大数据概念炒的非常火,但是大数据内部运作的逻辑和传统行业是比较类似的。

如果传统行业做实业的话,首先要有地基,你要有厂房,要有原材料,然后做加工,接下来设计成独立的产品,给客户带来独特的体验。开放云就是大数据的地基和厂房,原材料就是在线上和线下产生的海量数据。现在百度目前每天数据规模,2013 年是 25PB,这个数字在快速的变化,我们现在处理的能力已经提高一倍,数据上目前是 50PB,增长了一倍,这个就是我们目前大数据库要处理的数据的原材料。

大数据处理能力分为几个层次,首先是数据存储,然后是智能分析,然后是做出产品。在几年之前,百度的数据存储在每个产品线都有自己的方式。后来用了两年的时间构建了现在的数据存储方式,首先解决了数据的传输,现在百度很多产品线要实时产生大量海量的数据,这些数据都需要被实时的储存一个地方。但是这些产品线的数据格式都是异构的。大数据部门做了非常多的标准化的工作,在基础上形成了第一个海量数据储存的产品,叫通用的数据仓库。总结起来,一是构建了实时的海量数据的传输平台,任何一个产品线产生的数据都能够实时的传送到这个数据仓库里面。二是做了实时的数据标准化的工作,无论你的数据是什么样的格式,到数据仓库里面都以同样的格式来储存。

有了这个物流,有了这个标准化,我们能够在这个基础上对数据进行更多的分析和加工。

高亮指出,整个数据的流程是全自动化的,从数据的生成、数据的传输、数据的标准化,到最后数据的归类、数据的分析,都是全自动化的。

这个产品(Query Engine)是一套标准的海量数据储存方案,无论你的数据是什么样的,经过处理会把它做成数据标准化,当数据实时生成,有非常好的数据传输框架,保证你的数据上传到百度的开放云,在上面进行建模,进行各种各样可视化分析和决策的过程。我们已经成功了上传分析一家合作企业将近 10T 的关于新能源方面的一些数据。

在数据被结构化存储以后,接下来是在这个基础上进行各种各样的智能化分析。就像传统行业有自己的产品设计中心一样,会对产品进行各种各样的分析、排列组合,做各种各样的实验。在这个实验的基础上能够产生出比较好的产品,能够满足用户的需求。大数据部门也有这样的需求,也需要有大数据产品的设计中心,在这个设计中心需要做很多实验,做出适用于百度,适用于客户的数据产品。

我们大数据新产品的设计中心,可以进行很多实时的智能分析,做很多的实验,对产品进行很多排列组合,看哪一种产品能够最适合行业,满足百度的需求。

对于大数据产品,高亮列举了几个上线的实例,包括百度司南、预测、推荐等。其中百度司南门专门针对发展到一定阶段、有了一定的品牌影响力的企业,能够让企业对自身的品牌有更客观的了解,主要体现在三个方面:

  • 品牌分析,了解你的品牌在同行业中的地位如何,周边的人如何看待你的品牌,口碑如何,这种分析几乎是实时的。
  • 用户关注点,比较忠实的用户除了关注你的品牌,他还关心什么别的,他还对什么样的东西感兴趣。
  • 渠道分析,用户通过什么渠道了解到你的品牌,这样以后做营销行为,就知道如何很快的影响到你的受众,什么样的渠道是最有效的。

那么百度司南有什么实际应用呢?高亮从代言人、舆情分析两个方面做了展示。

很多品牌到了后期推广的时候,都有找代言人的需求。什么样的代言人在你最想影响的受众是最有号召力的?之前可能是一些拍脑袋的决策,但是通过司南,通过海量的数据,通过海量的用户行为分析,可以帮助你做一个决策的科学。实际上我们已经通过大数据的分析,可以产生出超过一千家的企业,它们最合适的代言人到底是哪一位。

另外一个是舆情分析,实际是跟品牌的口碑最像。企业里有一系列的产品,每一个产品可能有轻微的差异化,就像我化妆品一样,每一款产品在用户中的口碑到底怎么样,用户喜欢这些产品什么样的功能,不喜欢这些产品什么样的功能。在之前,很多公司通过调研公司到各个城市,通过实时的访谈获得一些统计数据。整个过程要耗费一个月左右。通过舆情分析,几乎可以实时告诉你这个答案,到底有多少用户是喜欢这个功能,有多少用户不喜欢这个功能。一个月和实时的差距,就是百度大数据能给传统行业带来的竞争力。

最后,高亮表示,目前的产品只是揭开了冰山一角,在大数据这个方面,产品设计的想象力其实是很多很多的,后面会陆续推出一系列的大数据产品。

2014 年 9 月 10 日 01:401182
用户头像

发布了 501 篇内容, 共 212.8 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
  • 从百度云看云计算在互联网的落地实践

    InfoQ作为百度开发者大会的主要协办单位之一,全程参与了各站的活动,并通过和当地技术人员的沟通,对百度技术负责人的访谈,深入了解到百度云诞生的背景、对应用开发者的支持,当前最新的技术趋势、应用经验,以及百度自己对互联网变革的理解等。在百度开发者大会武汉站活动间隙,我们也对其做一下简单总结。

  • 百度云开发者技术中心落户成都

    4月12日,成都高新区与百度云签署合作协议,“成都百度云开发者技术中心”正式入驻成都高新区移动互联网大厦。技术中心将为西部地区的优秀开发者提供从免费办公场地、百度云平台服务到政策扶持的全方位孵化服务。这次共有四支团队入驻技术中心,在签约仪式现场,百度移动·云事业部副总经理岳国峰和成都高新区相关负责人阐述了本次合作的愿景并进一步回答了包括政策、技术支持、百度云产品战略等问题。

  • 百度研究院今日再升级,迎来 9 位世界级科学家

    美国时间 11 月 13 日,百度研究院在美国硅谷召开会议,宣布百度研究院顾问委员会正式成立,并宣布在 2018 年陆续迎来 9 位世界级科学家加盟。

  • 神策数据 CEO 桑文锋:精准采集数据,走向智能化分析

    数据分析类的产品随着企业数据信息化的建设,势必会融合加强,慢慢演变成门户化,更人性化,且可视化技术将成为亮点,和交互式分析形成助推。虽然看起来很遥远,但现在有些数据分析服务已经开始意识到这些。一起来看看神策数据CEO桑文锋对未来数据分析的一些解读。

  • 百度大规模知识图谱构建及智能应用

    在 AICon 北京 2019 大会上,宋勋超讲师做了《百度大规模知识图谱构建及智能应用》主题演讲。

  • 盘点可供中小企业参考的商业大数据平台

    对中小企业,拿一个开源的软件搭建大数据平台,无论人才储备还是服务器成本,似乎都难以承受。所幸,还有商业大数据平台可选择。

    2019 年 1 月 3 日

  • 房价预测模型之数据处理

    2019 年 1 月 24 日

  • 百度开发者大会:愿与开发者合作共赢

    2012年3月23日,百度开发者大会在北京国际会议中心召开。在这次以“应用万象,云创未来”为口号的大会上,百度正式发布了云战略,推出百度开发者中心,建立开发服务、运营服务、渠道推广及变现四大体系,以此联合构建开放的云应用和平台生态系统。同时,还发布了个人云存储、移动云测试中心等面向开发者的一系列新产品与服务。

  • 百度辜斯缪谈搜索引擎的未来——实体搜索

    百度资深研发工程师辜斯缪:多年来,自然语言技术一直被认为是人机界面的“乌托邦”梦想。也即人们对计算机说出一句话,计算机就能够理解并迅速响应。然而,在现实应用中,人们使用最为频繁的,还是基于关键词的搜索引擎。近年来搜索引擎呈现出“关键词”-“SNS”-“实体搜索”的递进式发展,其搜索对象也从“信息片段”到了“人”以及“实体”。

  • 互联网产品 + 大数据产品 = 大数据平台

    如何才能弥补这互联网和大数据系统之间的差异呢?解决方案就是将面向用户的互联网产品和后台的大数据系统整合起来,也就是今天我要讲的构建一个大数据平台。

    2018 年 12 月 27 日

  • 百度移动统计分析介绍与进阶经验分享

    为了让开发者有更加深入的了解,InfoQ邀请了“百度移动统计”的产品经理袁泽陆撰写本文,详细介绍百度移动统计产品、如何使用、移动应用分析常见问题解释等。

  • 第 52 讲 | 数据如何驱动研发高效运转?谈高效研发流程那些事(四)

    研发工作是一个科学与艺术活,我们掌握着技术与数据,只要能让团队多一些商业与策略敏锐度,培养从数据角度去解读各种症状的意识,研发部门是完全可以助力业务快速推进的。

    2018 年 7 月 12 日

  • 百度技术沙龙第 50 期回顾:私有云架构设计实践(含资料下载)

    2014年5月17日,在由@百度主办、@InfoQ负责策划组织和实施的第50期百度技术沙龙活动上,来自百度架构师许立强,和青云联合创始人研发副总甘泉,各自分享了其在私有云、公有云架构方面的实战经验。

  • 从 ABC+IOT 到 ABC anywhere,百度边缘计算的进击之路

    今年5月31日,百度云发布了端云一体的边缘计算产品-百度智能边缘(Baidu IntelliEdge-BIE)。面向各行各业对ABC的进一步需求,智能边缘(BIE)将ABC的能力从云计算中心扩展至边缘计算节点,让更多的客户在更多的场景下,可以享受到百度云ABC的能力。

  • SIEM:一个人管理好几个安全工具,如何高效运营?

    如何对黑客的攻击路径和攻击产生的影响进行统计分析?发现攻击之后,如何提取攻击特征,补充安全产品的检测规则呢?

    2020 年 2 月 10 日

  • 百度首届智能小程序高校大赛圆满结束:关注学生心理健康小程序获全国一等奖

    1月15日,由百度智能小程序主办的“超Z少年·轻奇派-中国大学生创意智能小程序大赛”落下帷幕,“千百度”团队凭借智能小程序“暖光森林”获得全国一等奖,更有19名选手获得直通2022百度校招终面的机会。该比赛通过技术教学与创意竞赛的结合,助力中国大学生

    2021 年 1 月 20 日

  • 百度云世界里的“七种武器”:PCS、BAE、Site App、ScreenX 等

    如果说去年百度世界的关键词是“百度新首页”的话,那么今年在研发者人群中,对百度世界最深的印象就是“七种武器”,即在云的世界里,百度为开发者所提供的包括个人云存储、LBS、移动云测试中心等在内的七种工具和服务。按照百度CEO李彦宏的说法,“七种武器”只是百度帮助开发者开发出优质、多样、易用、跨平台应用这一远大图景的开端,未来还有更多。

  • 输入法 B 端市场转化:百度推动产业智能化的新路径

    随着互联网产业化发展,产业互联网和互联网技术的B端化开始成为社会各界关注的热点。

    2020 年 11 月 20 日

  • 万亿级交易量下的苏宁支付平台设计

    演讲嘉宾肖军,苏宁易购集团支付平台总监内容介绍苏宁金融交易量3年内从1000亿增长到2万亿+,服务用户3亿+,服务场景从服务于苏宁易购内部生态,扩展到服务全渠道,全场景,多业态的线上线下智慧零售的开放生态圈,一方面要满足公司业务发展要求,快速研发新产品,另一方面要满足818大促,双11等大促设计要求;本次主要介绍苏宁支付系统如何实现500天性能提升2000倍,从100笔/秒提升到20万笔/秒,给飞行中的飞机换引擎,将从总体架构设计,可视化作战系统,全局架构如何优雅重构,以及架构演进中经典实战案例几个部分进行体系化的分享,在快速响应各种复杂的业务场景需求的情况下,完成架构的演进。包括高可用设计技巧,高伸缩性设计思路,弹性的流量和资源控制,异地多活,全链路压测,消除数据瓶颈与单点,热点追踪与防护,故障自愈,账务系统之大账户瓶颈解决方案,以及未来怎么实现机器人自动巡检和自动修复等实战经验。

    2018 年 12 月 18 日

  • 【百度技术分享】San 介绍以及在百度 APP 的实践

    San是百度自研的高性能MVVM框架,它是一个快速、轻量、灵活的JavaScript组件框架,体积小巧,兼容性好,性能卓越,目前已落地百度APP包括搜索、feed、小程序等核心业务,服务于亿级用户,开源社区已超过36位贡献者,Star数量超过4.3K。

发现更多内容

第八作业

Binary

Springboot 中的切面AOP处理

武哥聊编程

Java aop springboot SpringBoot 2 28天写作

十三周总结

水浴清风

架构师训练营第2期 第13周命题作业

月下独酌

架构师训练营第2期

产品第一周

骏马

英雄惜英雄-当Spark遇上Zeppelin之实战案例

王知无

大数据 spark

Spring-Spring整合MyBatis原理分析

魔曦

第一周作业

Au revoir

HDFS杂谈:Xattrs扩展属性

罗小龙

hadoop hdfs 28天写作

2021年第4周工作学习计划

Tango

计划 日更挑战

第13周作业

Rocky·Chen

算法 数据分析

面试官:Netty的线程模型可不只是主从多Reactor这么简单

公众号『中间件兴趣圈』

reactor Netty nio 中间件 线程模型

如何 debug hive 源码,知其然知其所以然

王凯

hive 源码分析

你不可不知的任务调度神器-AirFlow

王知无

spark 数据可视化 airflow

长期主义是一种生活态度

JiangX

28天写作 价值 长期主义

架构师训练营第2期 第13周总结

月下独酌

架构师训练营第2期

新名词意味着什么?

lidaobing

28天写作 名词

绩效管理,上下同心者胜(二)

一笑

管理 绩效 28天写作

28天瞎写的第二百二十一天:争论 IBM AIX 版本号,只因好强?

树上

28天写作

架构2期-第十三周作业(1)

浮生一梦

第十三周 2组 架构师训练营第2期

产品训练营第一周作业

孤星

架构师训练营 4 期 第3周

引花眠

架构师训练营 4 期

第 13 周 系统架构作业

心在那片海

第 13 周 系统架构总结

心在那片海

最长公共前缀字符串, RxSwift的概念详细解析, 极客大学认识产品经理 John 易筋 ARTS 打卡 Week 35

John(易筋)

ARTS 打卡计划 最长公共前缀字符串 RxSwift的概念详细解析 极客大学认识产品经理 极客大学产品经理训练营

软件架构-缓存技术

看山

缓存 架构

Week 13 数据应用

evildracula

架构 学习笔记

十三、数据应用二

Geek_28b526

Soul 网关源码阅读(六)Sofa请求处理概览

Java 源码阅读 网关

外星人?他们在哪儿呢?「幻想短篇 10/28」

道伟

28天写作

十三周作业

落朽

浅谈量子计算平台架构实践

浅谈量子计算平台架构实践

高亮谈大数据存储、分析、产品化-InfoQ