2012.3.29 微博热报:沃尔玛研发大数据工具、虚拟化管理软件比较、PCIe 接口性能讨论

  • 贾国清

2012 年 3 月 29 日

话题:DevOps大数据语言 & 开发架构AI

据沃尔玛全球电子商务总监 Stephen O’Sullivan 介绍,沃尔玛实验室计划同时将一个 10 个节点的 Hadoop 集群扩展到 250 个节点的 Hadoop 集群。目前实验室正在设计几个能将当前像 Oracle、Neteeza 这样的开放资源的数据库进行迁移、整合的工具;@周磊 BJ推荐了Unix-Center蒋清野的系列文章,该系列文章对EucalyptusOpenNebulaOpenStackOpenQRMXenServerOracle VMCloudStackConVirt等框架进行了总结和对比,共分为商务篇构架篇功能篇综合篇幻灯篇;而阿里巴巴运维部高级 DBA 张瑞(@hellodba)在微博中提到原生 PCIe 接口性能较高,另一类虽然是 PCIe 接口,但其实是 ROC,内部转换为 SAS 接口,性能较差的问题,最后也转变成了是用内存做缓存好还是 SSD 做缓存好的讨论。

36 氪在微博中提到:传统商务加快进入大数据时代,沃尔玛实验室正在研发大数据工具并会将其开源。作为全球最大的零售业巨头,沃尔玛自然不会忽略如日中天的移动互联网浪潮。在其收购了一系列电商创业公司之后,沃尔玛实验室试图通过大数据技术来改变传统的零售市场。以下是网友评论节选:

@庞小抠 _power:无论任何行业都要学着进步 (包括传统行业),否则将脱离时代停滞不前。

@吴冬 - 问道电商:线下零售的海量数据一旦可以整合,必将极大改变现有商业模式,或者中小零售商,就会成为类似 APP 里的应用?

@lincolncao:沃尔玛历来注重数据,传统企业上线,社交传媒,移动互联网。

@王化波:大数据会替代经验、调查成为最主要的决策分析工具,但是大数据也只是优化管理与营销决策,并非颠覆。

@一非:此前,沃尔玛曾进行了一系列的收购。包括 3 亿美元收购的 Kosmix(沃尔玛实验室前身)、OneRiot、Small Society、Social Calenda、Set Direction、Grabble 等多家中小型创业公司。这些创业公司无一例外的要么精于数据挖掘和各种算法、要么在移动社交领域有其专长,这些都是沃尔玛进军移动互联网的重要力量。

@毅俊 _ 喺我:收购这些创业公司无一例外精于数据挖掘和各种算法、在移动社交领域有其专长,这些都是沃尔玛进军移动互联网的重要力量。作为一家传统的零售业企业,能在移动互联网和大数据挖掘上投入如此多的财力物力,说明沃尔玛已看到互联网未来的重要性。相信传统模式会有很大的改观。

周磊 BJ 在自己的微博上分享了 Eucalyptus、OpenStack、Convirt、abiCloud、CloudStack 之间的对比图,同时还推荐了 Unix-Center 蒋清野的“虚拟化管理软件比较”系列文章:

@公云彭勇:事实正好相反,Openstack 在社区活跃程度、代码递交活跃程度,开放性上都超过 Eucalyptus,而且 Ubuntu 2012.04 LTS 正式将 OpenStack 代替 Eucalyptus 成为云平台基础。

@云麒麟李炯:据说因为伪开源,桉树已经被 NASA 弃用,改用 OpenStack 了。

阿里巴巴运维部高级 DBA 张瑞在微博中提到:“虽然都是 PCIe 接口,但是各个厂家的差异很大,一类是 host-based,就是利用主机的 CPU 和内存资源,另一类是 device-based,就是卡上板载了处理芯片和 RAM,各有优缺点。一类是原生 PCIe 接口,性能较高,另一类虽然是 PCIe 接口,但其实是 ROC,内部转换为 SAS 接口,性能较差。”,此贴引发了网友的一番激烈论战,就连博主也表示“要坐等真相”:

@胥昕 ops:回复@julyclyde:PCIE 转 SAS……目前大部分的 RAID 卡都是这种模式,首先第一个直接 SAS 的话还是走的 ICH 南桥通过 DMI 才最后到 CPU 和内存,这里是很大的瓶颈,但是 PCIE 少了这层。

@雪冰 _Memblaze:PCIe Flash 卡也一直在演进,可分三代:1.Non-native Device-Base (Intel Ramsdale/SunFlash F20e),2.Native Host-Based (FusionIO/Virident),3.Native Device-Based (Memblaze)。

@peterliang1976:PCIE SSD 用处很多,除了数据库加速,还可以用在流媒体,那种场合不需要特别高的 IOPS,更注重流量,能不用标准的,都是接近客户具体应用的,通用的测试也很难说谁好。

@非正常人类研究中心高级被研究员:凑个热闹。大概几年前,台湾有个叫火箭的厂商,生产 PCIE SSD,卡上是 RAID5 结构,容量 1TB。我记得百度几年前已经换上固态盘了,IBM X3650M2 刚问世的时候,就有好多是直接装了固态盘销售。SSD 早就该普及了,不晓得为什么拖了好几年才被内地市场认同。

@胥昕 ops:回复@非正常人类研究中心高级被研究员: 提到几年前 SSD 早该普及这点我难以认可,纵使国外也在小心翼翼的尝试着使用纯 SSD 的环境,首先 NAND 芯片的寿命是一个关键的话题,特别是@AmyDeng_Fusionio 提到的能否让各种客户安心的从小机和储存商迁移下来,毕竟长期大规模的应用 SSD 的风险和收益都是没有先例的。

@非正常人类研究中心高级被研究员:回复@胥昕 ops: SSD 普及并不等于取缔硬盘。磁带更容易丢数数据,用了很多年了还在用。再有就是缓存,一掉电肯定丢数据,那大家都关了缓存呗?不行!关了缓存容易宕机,也不安全。世上没有万全之策。

@胥昕 ops:回复@非正常人类研究中心高级被研究员: 缓存目前早已经有较为可靠的方法,前面加大电容,再配 NAND,掉电电容足够供应缓存写入 NAND,再之前也有 BBU,只不过现在更优。

@非正常人类研究中心高级被研究员:回复@胥昕 ops: 就目前应用环境而言,内存缓存已经不再可靠了,如果服务器内存能保证掉电的时候不丢数据,SSD 也就没必要出现了。电容供电只能维持很短的时间,现在的电脑偷工减料很严重,就连 CMOS 的供电都无法保障,电容还真有点悬。


欢迎读者关注@InfoQ官方微博,推荐热门话题,可私信@InfoQ,同时请您说明推荐理由。

DevOps大数据语言 & 开发架构AI