收录了 大数据分析 频道下的 50 篇内容
众所周知,大数据生态很复杂,对于个人来说,要全部学会可能要花费好几年时间。而对于企业来说,要最大程度发挥其价值,构建一个成熟稳定、功能多样的大数据平台,期间花费的时间以及人力成本着实难以估量,更何况还需要考虑持续维护的问题。这就是七牛的Pandora大数据平台灵感的来源,我们构建一个大数据平台,作为产品提供给用户,快速帮助用户挖掘数据价值。
营销的基本原理是一致的,每个人都喜欢洞察力,因为这些数字模式可以提供最安全的方法来确保企业采取正确的行动,更有效地运作,以及将其资源用在何处。
本文以智慧城市为背景,介绍西安中服软件有限公司是如何利用大数据分析神兽 Apache Kylin,让物联网的传感器信息,通过云化的大数据物联网云平台,对感知的数据进行分析处理,进而满足智慧城市的建设需求。
本文将借用《Processing a Trillion Cells per Mouse Click》的实验数据,结合笔者的上一篇Hadoop文件格式的内容介绍更多大数据分析中列数据库的核心原理, 希望读者能对列数据库的原理有更多了解,也希望对将来Hadoop在针对数据分析方面能够有更多优化, 并对一些忽悠的厂商和空喊口号的技术有辨别能力。
几千台的 Hadoop 集群,近百 P 级的存储总量,每日产生万亿的消息数据入库,需要针对几十亿 imei 手机设备去重,海量大数据背后,腾讯如何升级分析架构?
Hadoop还有大的发展吗?
Mike Barlow编写的《实时大数据分析:新兴架构(Real-Time Big Data Analytics: Emerging Architecture)》白皮书,以大数据分析为主题,还介绍了实时大数据分析(RTBDA)与传统数据分析有何不同。InfoQ采访了Mike,谈到了实时大数据分析的当前状态以及像决策科学(Decision Science)这样的大数据领域的新兴趋势。
Mohammed Guller撰写的《Spark大数据分析》(Big Data Analytics with Spark)一书针对使用Apache Spark框架执行批处理、互操作、图表、数据流分析,以及机器学习等不同类型的大数据分析项目提供了实用的学习指南。InfoQ采访了本书以及各种大数据应用程序开发工具的作者Mohammed Guller。
作者在本文中探讨了大数据和Hadoop在安全分析领域中所扮演的角色,以及在做安全信息和事件管理(SIEM)、欺诈检测等安全分析的用例中,如何使用MapReduce高效地处理数据。
本次分享介绍腾讯大数据技术的新发展和架构实践。
本文尝试从0到1实现一款轻量级大数据分析系统——MVP,以解决上述痛点问题。
深度学习蓬勃发展,开源界已有 Caffe,MXNet,TensorFlow,Theano,Torch 等主流框架;英特尔也开源了分布式深度学习库 BigDL,它的特点是可以直接运行在现有的 Apache Spark 或 Hadoop 集群之上,并且其目标人群更偏向于大数据分析师们。InfoQ 曾经撰文《 Intel 开源深度学习库 BigDL:Non GPU on Spark》和《Intel 开源了基于 Apache Spark 的分布式深度学习框架 BigDL》,上个月 InfoQ 走进英特尔亚太研发有限公司,进一步学习和了解了 BigDL,并对英特尔公司软件与服务事业部副总裁、系统技术及优化部门总经理 Michael Greene 和英特尔资深首席工程师、大数据技术全球 CTO 戴金权进行了采访,主要内容整理如下。
在物联网时代,数量庞大的“物”会产生PB级的海量数据,传统的数据处理服务的处理速度已无法跟上数据产生的速度。
摘要: 科技媒体ars technica的编辑Sean Gallagher于近日参观了通用电气(GE)的国际研究中心,并探访了GE的“工业互联网”。随后撰文描述了GE的野心:它们正在研发一个名为Predix的云操作系统,对从物联网设备传来的数据进行挖掘和分析。
思科在BroCON大会上亮相了其安全大数据分析架构OpenSOC,引起了大家的广泛关注。OpenSOC是一个针对网络包和流的大数据分析框架,它是大数据分析与安全分析技术的结合,能够实时的检测网络异常情况并且可以扩展很多节点。
12月18号微软宣布收购一家数据分析的企业Metanautix,此次收购行动在2014年就已进行。另据TechCruch报道,Metanautix成立于2012年。 数据分析公司的产品可以用简单的SQL从公有云或者私有云的数据源(包括像Cassandra的NoSQl数据库、传统数据库、像Salesforce的商业系统)中获取有价值的信息。这也印证微软的另外一个策略,为企业提供强大的机器学习和人工智能技术,这可很好的提高企业在数据时代产品效率。
最近,包括IBM在内的多家IT巨头宣布推出企业级云端市场,提供全面的大数据与分析能力,将云厂商、合作伙伴及第三方的“功能即服务”集中起来,提供企业需要的安全性和灵活性。
当提到“实时分析”,大家脑海里首先浮现的是大屏上不断跳跃闪烁的数字和波动的曲线,让人有种纵观全局的掌控感。
爱奇艺业务线达到20多条,存量的设备信息达到30亿,每天处理的用户行为日志超过300T。这种业务数据量对数据运维、开发人员提出了很高的要求。
本次分享介绍爱奇艺自然语言处理如何实现让机器更好地理解娱乐相关的视频/图文内容等。