百度技术沙龙第 44 期回顾: 大数据面面观 (含资料下载)

  • 水羽哲

2013 年 11 月 27 日

话题:百度大数据语言 & 开发AI

在 11 月 23 日由@百度主办、@InfoQ负责策划组织和实施的第 44 期百度技术沙龙活动上,百度质量部大数据应用负责人韩哲、中国科学院信息工程研究所第二研究室,中国科学院信息工程研究所研究员谭建龙分享了各自在大数据领域的经验,话题涉及“基于大数据的质量应用和产品改进 ”和“大数据流过滤技术及应用”。本文将对他们各自的分享做下简单的回顾,同时提供相关资料的下载。

主题一:基于大数据的质量应用和产品改进(下载讲稿

百度质量部大数据应用负责人韩哲首先为大家做分享,他从大数据应用案例的角度来介绍大数据与质量决策的关系。

为了获取新的认知、创造新的智慧,产生有价值的决策,我们在时间、维度做细分,造成了碎片化的大数据,引发了我们对大数据的思考: + 全体复杂性是什么? + 样本数据精确性为什么?

随后他以机票价格预测、蛋白质组和发现横行、青少年犯罪模型等实际的应用距离来尝试对这两个问题进行阐述。他指出,大数据有 4 个关键要素:资源、创新、能力和需求,这五个元素构成了大数据的核心。目前的大数据已经有了完善的架构模式,底层使用 NoSQL、Map Reduce、ETL Tools 等,通过 Thrift、RPC 和 RESTful 的方式开放给上层的应用,即:基础架构层、逻辑挖掘层、应用层。

从大数据与产品质量的角度来看:

  • 基于大数据的产品问题挖掘:BasdCase 挖掘、Crash 定位、隐性问题与未知 Bug
  • 海量用户的体验问题挖掘:满意度、情感分析、产品取向与需求预测
  • 大规模数据的质量:死链、图库缺位、云数据保障

以 BaseCase 挖掘为例,可以通过如下的步骤来做实现:

  1. Session 切割
  2. Spearman's Foot Tule
  3. 加权、标注、迭代模型
  4. 算法移植 Map Reduce
  5. 评估准确性和召回率

还可以通过大数据的方式来获取用户的反馈数据实现产品的改进,简单的方式就是数据抓取、提取,语义分析,进而做特征挖掘、情感统计等。

最后,韩哲提到产品改进决策应用只是冰山一角,大数据还有很多新的内容可以做,这个领域更加看中基础架构、数据挖掘、业务和行业知识兼备的复合型人才。

主题二:大数据流过滤技术及应用(下载讲稿

中国科学院信息工程研究所第二研究室,中国科学院信息工程研究所研究员谭建龙第二个为大家做分享,他从「大数据风潮」、「大数据过滤技术」、「大数据流对信息安全的保障」等角度具体阐释。

他首先列举了大数据的一些特点:

  1. 产生高速,需要做实时分析而不是批量式分析,例如中国联通每秒能够产生 83 万条上网记录,一个月将近 300TB 的数据量;2000 年全球新产生的数据量为 1000PB 到 2000PB,到 2010 年仅全球企业一年新存储的数据量就超过了 7000PB;
  2. 信息价值,大量的不相关信息,可用信息在数据总量中的比例低,但潜在价值巨大;这将会带来直接的市场空间,让数据也称为资产的一部分;

大数据也带来的有安全的问题,谭建龙老师从如下的角度做了具体的分析:

  1. SDN 带来的安全问题,SDN 自身设计中安全性问题考虑不够,当前基于 SDN 实现的网管和安全功能主要集中在接入控制、流量转发和负载均衡等方面,二在安全性机制设计、异常检测和恶意攻击防护等方面比较欠缺;
  2. 大数据的传输带来的安全问题,传输层安全协议的目的是为了保护传输层安全,并在传输层上提供实现密保、认证和完整性的方法,大数据时代,数据中心内部、数据中心之间文件量将是海量的,二数据中心内部以及数据中心之间进行文件的传输将会越来越频繁,文件传输的稳定性、安全性、可控性则会带来挑战;
  3. 网络安全——僵尸网络,一方面大数据导致主机以及数据资源更加集中,为攻击者发起攻击提供了更多机会,另一方面攻击者可以最大限度的搜集可以利用的数据,大数分析技术使攻击更加精准;
  4. 云计算多租户安全,云允许多租户,多个不同的用户共享同一云计算基础设施,攻击者能合法利用大数据技术,窃取用户秘钥或实施攻击;

对于目前的大数据浪潮,还需要在内容分析技术方面做改进,其中重点是特征匹配,谭建龙老师从三个角度来做分析:

  1. 高速硬件匹配,与软件的算法相比,专用的加速硬件的匹配速度可以提高 5~50 倍,技术 FPGA 的单时钟周期压缩自动机随机访问算法的吞吐率达到 28.9GbpS;
  2. 复杂的正则表达式匹配,DFA 层次归并算法的速度是经典子集构造法的 45 倍。目前可以支持万级规模的正则表达式匹配,匹配速度是开源正则表达式匹配引擎 PCRE 等的 20~30 倍;
  3. 大规模精确串匹配,自动机的存储空间平均压缩到 5% 以内,支持 1000 万规模的规则数量,匹配算法是经典算法(AC、WM、BOM)的 3~4 倍;

目前已经有了基于 NetFPGA10 网络设备、正则表达式匹配硬件加速卡等专用硬件的研发工作。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

会后,一些参会者也通过新浪微博分享了他们的参会感受:

@mrkid:大数据通过过滤才更有价值!信工所近期的研究成果多正则表达式引擎解决了这样一个问题,包含大规模精确串匹配,复杂正则表达式匹配,高速硬件匹配等算法硬件方面的优化,为将来更高效地研究大数据(从流式处理方面)奠定了基础。

@gameboy120谭老师这是要逆天啊,要充分挖掘单机计算能力,并从算法以及硬件层面进行创新,不愧是研究院的牛人啊。

@海饼干 er:数据存储的保障,稳定的数据源,同时熟悉算法及大数据原理,好的大数据创意是应用大数据创业的四个要素

@弯眼角笑的猫:idea first 对行业深入的理解才能孵化出商业价值,最后依靠大数据的技术工程化。

有关百度技术沙龙的更多信息,可以通过新浪微博关注@百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往 43 期所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第 45 期百度技术沙龙将在 12 月,在北京车库咖啡举行,欢迎关注@InfoQ@百度技术沙龙获取后续的活动信息。

百度大数据语言 & 开发AI