收录了 yelp 频道下的 50 篇内容
讲述Yelp工程师如何协调其流量故障转移流程,并在可靠性、性能和成本效率之间实现微妙平衡的故事。
这是关于Yelp的实时流数据基础设施系列文章的第一篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化,如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。
Yelp工程团队成员通过本文介绍了将原本基于Lucene的商家搜索功能迁移至Elasticsearch的整个过程,老系统的局限,新系统需要解决的问题,以及在整个过程中获得的经验。
这是关于Yelp的实时流数据基础设施系列文章的第三篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化,如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇主要介绍Schematizer,Yelp的模式存储服务。
这是关于Yelp的实时流数据基础设施系列文章的第二篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化,如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇中介绍的是MySQLStreamer,它从MySQL二进制文件中提取所有的数据变更操作事件,再把这些事件发布到Kafka中。
Yelp承载了上亿张用户上传的照片,这些图片耗费了应用和网站用户的大量带宽,而图片本身的存储和传输也为Yelp造成了不菲成本。为了向用户提供更出色的体验,Yelp一直在努力优化这些照片,目前已经在不牺牲质量的前提下将照片的体积平均减少了30%。借此可以减少用户下载照片所需的时间和带宽,同时存储图片的成本也大幅降低。
近日,Yelp开发团队在博客发布消息:Yelp公开了内部网站设计指南。这份文档此前是Yelp内部使用文档,为设计师、产品经理、工程师提供了Yelp UI模式的通用信息,目的是保证Yelp网站的视觉设计一致性、降低技术模块化难度、可复用标记和样式文件。
Yelp的数据库中已经存储了几千万张相片,用户们现在每天都会上传大概十万张,而且速度还在不断加快。文中介绍了Yelp如何用深度学习技术来挖掘每家商户的最好的相片并优先展示在商户封面上,从而为用户提供最好的体验的。
这是关于Yelp的实时流数据基础设施系列文章的第四篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化,如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。这一篇讲的是流处理器PaaStorm。
在经过了几个月的不断分享之后,Yelp终于赶在圣诞节之前放出了大招:把他们的数据管道的核心模块全都开源出来了!
Yelp是美国最大点评网站,拥有世界各地的Yelper上传的成千上万的照片。能够对照片进行正确的分类对于Yelp提高各种应用的用户体验至关重要,目前,Yelp正在利用各种系统生成的数据增强Yelp近期推出的封面照片多样化、标签式照片浏览等服务。那么Yelp是如何做到对照片进行分类的?答案是深度学习。Yelp的软件工程师Wei-Hong C.在其博客中对这一问题进行详细解答。
Yelp提供了一种可更大程度上访问受限Yelp数据的方法,称为Fusion API。开发人员可使用指定的过滤规则获取Yelp数据,还可关联访问Yelp合作商的数据,此外对API通信的缓存可提高应用的性能。考虑到Yelp数据对在个性推荐中的重要性,Yelp希望借此得到开发人员的更大认可。
这是关于Yelp的实时流数据基础设施系列文章的第六篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化、如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。
Yelp工程师团队表示,面对团队和代码库规模不断增长的情况,他们通过实践向面向服务架构迁移,得以使开发过程同步具备扩展能力,并且保持了快速的软件交付。这一切取决于以下因素,包括对团队灌输分布式系统的理念,创建一组基本的服务设计原则以及实现一个基础支撑架构。
Yelp开源了其数据管道方案中的最新组件,一个基于Python的数据管道客户端库。
Flink on PaaSTA将我们从数百个Flink集群的管理中解放出来,为我们的用户和流处理团队打开了一个充满可能性的新世界。
Yelp广告系统后台团队最近把底层数据存储从MySQL换成了Cassandra,软件工程师Qui N.和Shafi B.发表简单介绍了改变的原因,并分享了一些向Cassandra迁移的经验。
这是Yelp内部使用的计算集群自动伸缩器
重新设计了原来的数据流架构。和内部数据湖)的一组分散的数据管道。在两套不同的在线系统中管理业务实体(其平台中的主要数据实体之一)的属性。
这是关于Yelp的实时流数据基础设施系列文章的第五篇。这个系列会深度讲解我们如何用“确保只有一次”的方式把MySQL数据库中的改动实时地以流的方式传输出去,我们如何自动跟踪表模式变化、如何处理和转换流,以及最终如何把这些数据存储到Redshift或Salesforce之类的数据仓库中去。