收录了 hadoop搜索引擎 频道下的 50 篇内容
搜索是很多用户在天猫购物时的第一入口,搜索结果会根据销量、库存、人气对商品进行排序,而商品的显示顺序往往会决定用户的选择,所以保证搜索结果的实时性和准确性非常重要。在电商系统中,特别是在“双十一”这样的高并发场景下,如何准确展示搜索结果显得尤为重要。在今年的“双十一”活动中,InfoQ有幸采访到了阿里巴巴集团搜索引擎的三位负责人仁基、桂南和悾傅,与他们共同探讨了搜索引擎背后的细节。以下内容根据本次采访整理而成。
Max Grigorev最近写了一篇文章,题目是《What every software engineer should know about search》,这篇文章里指出了现在一些软件工程师的问题,他们认为开发一个搜索引擎功能就是搭建一个ElasticSearch集群,而没有深究背后的技术,以及技术发展趋势。Max认为,除了搜索引擎自身的搜索问题解决、人类使用方式等之外,也需要解决索引、分词、权限控制、国际化等等的技术点,看了他的文章,勾起了我多年前的想法。 很多年前,我曾经想过自己实现一个搜索引擎,作为自己的研究生论文课题,后来琢磨半天没有想出新的技术突破点(相较于已发表的文章),所以切换到了大数据相关的技术点。当时没有写出来,心中有点小遗憾,毕竟凭借搜索引擎崛起的谷歌是我内心渴望的公司。今天我就想结合自己的一些积累,聊聊作为一名软件工程师,您需要了解的搜索引擎知识。
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。本文是Cloudera资深工程师讲解Hadoop,让您一篇文章就能了解Hadoop的过去和未来。
在本次虚拟研讨会中,InfoQ采访了多位Hadoop提供商和用户,他们就Hadoop的现在和将来发表了看法,并讨论了Hadoop继续走向成功并进一步推广的关键。
QCon大会预热采访。360搜索郝一昕。
本次QCon上海的Hadoop专题出品人王峰(莫问)接受了InfoQ邮件采访,谈到自己在阿里的工作,YARN的优势以及Stream和Spark等平台的比较。
12月初即将举行Hadoop中国2011云计算大会和PyCon中国2011大会,我们不妨看看这些相关技术的最新发展趋势和动态,提前热热身。
Hadoop 商业公司“折戟”的主要原因是开源Hadoop产品化程度不足,但被“围攻”的 Hadoop 并未“折戟”。
文/明道云创始人任向晖
今天是Hadoop十岁生日。于2006年1月28日诞生的它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。InfoQ策划了一系列文章,为大家梳理Hadoop这十年的变化,以及技术生态圈状况,本文是第一篇。
雅虎首席产品官 Blake Irving 吹响了2010Hadoop峰会的呜呜祖啦 (2010南非世界杯助威工具) 雅虎发表的主题演讲阐述了他们的使用规模,贡献的技术方向,以及他们如何应用这项技术的架构模式。
eBay在Hadoop世界(Hadoop World)大会的主题演讲中展示了一种全新搜索引擎Cassini的架构,该引擎预计在2012年上线。它对所有的内容和用户的元数据进行索引来得到更好的排名,并每小时刷新索引。它使用Hadoop来支持每小时进行的索引更新,使用HBase对随机存取信息提供支持。
Elasticsearch是一个开源的分布式实时搜索与分析引擎,支持云服务。作为Elasticsearch-hadoop的第一个里程碑,它的1.3.M1版本在十月上旬发布了。InfoQ与Costin Leau进行了一次对话,谈论了Elasticsearch的搜索与分析引擎,以及它是如何与Hadoop或其它的大数据技术相结合的。
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。 Doug Cutting是Hadoop的发起人,这篇是从他的Hadoop十周年祝贺词翻译而来。
Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展,形成了自己的极其火爆的技术生态圈,并受到非常广泛的应用。在2016年Hadoop十岁生日之际,InfoQ策划了一个Hadoop热点系列文章,为大家梳理Hadoop这十年的变化,技术圈的生态状况,回顾以前,激励以后。本次InfoQ便采访了阿里搜索离线基础平台团队负责人王峰,和大家一起聊一聊Hadoop。
在4月7日举行的第25期百度技术沙龙(海量数据处理解析)活动中,特别邀请到中科院计算所副研究员、大规模数据计算专家查礼( @solochar)作为嘉宾与参会者分享大数据领域的研究成果。查礼主要谈到了在RCFile、MapReduce方向的研究情况,并谈到了对大数据研究趋势的看法。
本文讲述了Cloudera的故事:曾被仰望,后被遗忘,光荣不再,王者能否归来。
System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。
宣布 “Hadoop 已死”已成为一种时尚。但,Hadoop 让企业失去了对大数据的恐惧。
无论有没有使用Hunk,当运行Hadoop时,有很多种方式导致偶尔的性能底下。多数时候人们是增加更多的硬件来解决问题,但是有时候只需要简单更改下文件的名称就可以解决问题。