写点什么

spark44

收录了 spark44 频道下的 50 篇内容

Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战
Apache Spark 3.0 新特性在 FreeWheel 核心业务数据团队的应用与实战

本篇文章作者想分享一下Spark 3.0在FreeWheel大数据团队升级背后的故事和相关的实战经验。

Uber机器学习平台Michelangelo是如何使用Spark模型的?
Uber 机器学习平台 Michelangelo 是如何使用 Spark 模型的?

Michelangelo是Uber的机器学习(ML)平台,可以训练并服务于整个公司范围内生产环境中的数千种模型。

深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用
深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用

TalkingData发现了AWS基于Java开发的深度学习框架DJL(Deep Java Library)可以很好解决Spark在深度学习运算中的一些困境。在这个博客中,我们将带领大家了解TalkingData部署的模型,以及他们是如何利用DJL在Apache Spark上实现生产环境部署深度学习模型。

大数据与机器学习周报 第 14 期:Facebook 推出即时翻译功能

Facebook 推出即时翻译功能

实时计算框架 Flink 在教育行业的应用实践
实时计算框架 Flink 在教育行业的应用实践

本文介绍 Flink和Spark 两种实现方式的异同。

腾讯大数据宣布开源第三代高性能计算平台 Angel:支持十亿维度

12月18日,深圳 - 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel,并预计于2017年一季度开放其源代码。Angel比Spark快数倍到数十倍,能在千万到十亿级的特征维度条件下运行。

杭银消金基于 Apache Doris 的统一数据查询网关改造实践
杭银消金基于 Apache Doris 的统一数据查询网关改造实践

Apache Doris1.2 是社区在版本迭代中的重大升级,借助 Multi Catalog 等优异功能能让 Doris 在 Hadoop 相关的大数据体系中快速落地,实现联邦查询。

使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理
使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理

对于大多数公司而言,处理不断增加的数据量并整合新数据源充满挑战。

Spring XD 1.1: 简化大数据一如 Spring 之于 Java EE

Pivotal最近发布了Spring XD 1.1 GA,新功能包括使用Reactor、RxJava、Spark Streaming和Python进行流处理。 此外,支持Kafka、批量处理和RabbitMQ压缩, 以及支持运行在YARN上的容器组管理的功能。

Spark 系列教程(2)运行模式介绍
Spark 系列教程(2)运行模式介绍

Apache Spark 是用于大规模数据处理的统一分析引擎,它提供了 Java、Scala、Python 和 R 语言的高级 API,以及一个支持通用的执行图计算的优化引擎。

实时计算框架 Flink 在教育行业的应用实践(上)
实时计算框架 Flink 在教育行业的应用实践(上)

系统能及时得到业务数据计算、分析后的结果,这就需要实时的流式计算如Flink等来保障。API直接对原始数据进行大规模关联、聚合操作,是无法做到在极短的时间内通过接口反馈到前端进行展示的。

Inflation 引起的 MetaSpace Full GC 问题排查
Inflation 引起的 MetaSpace Full GC 问题排查

本文将用一个蚂蚁集团线上实际案例,分享我们是如何排查由于 inflation 引起的 MetaSpace FGC 问题。

优化和调整Spark应用程序(七)
优化和调整 Spark 应用程序 (七)

写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

spark
缓存
持久化
唯品会亿级数据服务平台落地实践
唯品会亿级数据服务平台落地实践

本文主要介绍唯品会自研数据服务Hera的相关背景、架构设计和核心功能。

Kylin 5 年的成长与未来规划
Kylin 5 年的成长与未来规划

本文分享 Kylin 在过去 5 年中的成长和 Kylin 4.0 版本开发的状况,也面向社区分享了 Kylin 未来的发展规划。

Spark SQL和DataFrames:内置数据源简介(四)
Spark SQL 和 DataFrames:内置数据源简介 (四)

写在前面: 大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

spark
sparksq
EMR Serverless Spark:一站式全托管湖仓分析利器

EMR Serverless Spark 是一款云原生,专为大规模数据处理和分析而设计的全托管 Serverless 产品。提供作业开发、调试、发布、调度等一站式体验,支持ETL、交互式数据分析等。

大数据
Serverless
数据分析
云原生
EMR
重磅来袭 | 尚硅谷数据湖 Hudi 视频教程发布

Apache Hudi是新一代的流式数据湖平台,其将数据库和数据仓库的核心功能直接引入数据湖,并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi在任何云平台都能够便携地使用,高级的性能优化可以对接Spark、Flink

一站式机器学习平台Deepthought的建设与初探
一站式机器学习平台 Deepthought 的建设与初探

本文介绍爱奇艺开发的面向通用的机器学习场景的一站式机器学习平台Deepthought。

大数据独角兽Databricks再获融资,估值或达380亿美元
大数据独角兽 Databricks 再获融资,估值或达 380 亿美元

这笔投资显示出了投资者对帮助企业将数据转移到云端的服务的前景高度看好。

spark44专题_资料-InfoQ中文网