

 写点什么

登录/注册

spark44

收录了 spark44 频道下的 50 篇内容

Apache Spark 3.0新特性在FreeWheel核心业务数据团队的应用与实战

Apache Spark 3.0 新特性在 FreeWheel 核心业务数据团队的应用与实战

本篇文章作者想分享一下Spark 3.0在FreeWheel大数据团队升级背后的故事和相关的实战经验。

作者 : 肖红梅策划: 陈思

2021-01-06

0

Uber机器学习平台Michelangelo是如何使用Spark模型的？

Uber 机器学习平台 Michelangelo 是如何使用 Spark 模型的？

Michelangelo是Uber的机器学习（ML）平台，可以训练并服务于整个公司范围内生产环境中的数千种模型。

作者 : Anne HollerMichael Mui 译者: 平川策划: 蔡芳芳

2019-11-08

1308

深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用

深度解析 TalkingData 使用 DJL 进行大规模深度学习打分应用

TalkingData发现了AWS基于Java开发的深度学习框架DJL(Deep Java Library)可以很好解决Spark在深度学习运算中的一些困境。在这个博客中，我们将带领大家了解TalkingData部署的模型，以及他们是如何利用DJL在Apache Spark上实现生产环境部署深度学习模型。

作者 : 亚马逊云科技 (Amazon Web Services）

2020-11-13

0

大数据与机器学习周报第 14 期：Facebook 推出即时翻译功能

Facebook 推出即时翻译功能

作者 : 丁涛

2016-07-04

923

实时计算框架 Flink 在教育行业的应用实践

实时计算框架 Flink 在教育行业的应用实践

本文介绍 Flink和Spark 两种实现方式的异同。

作者 : 刘景泽

2019-10-27

1389

腾讯大数据宣布开源第三代高性能计算平台 Angel：支持十亿维度

12月18日，深圳 - 腾讯大数据宣布推出面向机器学习的第三代高性能计算平台——Angel，并预计于2017年一季度开放其源代码。Angel比Spark快数倍到数十倍，能在千万到十亿级的特征维度条件下运行。

作者 : Tina

2016-12-20

4645

杭银消金基于 Apache Doris 的统一数据查询网关改造实践

杭银消金基于 Apache Doris 的统一数据查询网关改造实践

Apache Doris1.2 是社区在版本迭代中的重大升级，借助 Multi Catalog 等优异功能能让 Doris 在 Hadoop 相关的大数据体系中快速落地，实现联邦查询。

作者 : SelectDB 策划: 李冬梅

2023-03-28

0

使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理

使用 Amazon Kinesis Data Firehose 和 Amazon EMR 中的 Apache Spark 优化流式数据处理

对于大多数公司而言，处理不断增加的数据量并整合新数据源充满挑战。

作者 : 亚马逊云科技 (Amazon Web Services）

2019-09-19

252

Spring XD 1.1: 简化大数据一如 Spring 之于 Java EE

Pivotal最近发布了Spring XD 1.1 GA，新功能包括使用Reactor、RxJava、Spark Streaming和Python进行流处理。此外，支持Kafka、批量处理和RabbitMQ压缩, 以及支持运行在YARN上的容器组管理的功能。

作者 : Matt Raible 译者: 韩陆

2015-03-13

3896

Spark 系列教程（2）运行模式介绍

Spark 系列教程（2）运行模式介绍

Apache Spark 是用于大规模数据处理的统一分析引擎，它提供了 Java、Scala、Python 和 R 语言的高级 API，以及一个支持通用的执行图计算的优化引擎。

2021-10-07

0

实时计算框架 Flink 在教育行业的应用实践（上）

实时计算框架 Flink 在教育行业的应用实践（上）

系统能及时得到业务数据计算、分析后的结果，这就需要实时的流式计算如Flink等来保障。API直接对原始数据进行大规模关联、聚合操作，是无法做到在极短的时间内通过接口反馈到前端进行展示的。

作者 : 刘景泽

2019-11-07

197

Inflation 引起的 MetaSpace Full GC 问题排查

Inflation 引起的 MetaSpace Full GC 问题排查

本文将用一个蚂蚁集团线上实际案例，分享我们是如何排查由于 inflation 引起的 MetaSpace FGC 问题。

作者 : 凌屿

2020-07-20

0

优化和调整Spark应用程序(七)

优化和调整 Spark 应用程序 (七)

写在前面：大家好，我是强哥，一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验， 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

spark

缓存

持久化

2021-07-19

0

唯品会亿级数据服务平台落地实践

唯品会亿级数据服务平台落地实践

本文主要介绍唯品会自研数据服务Hera的相关背景、架构设计和核心功能。

作者 : 唯品会数据中台团队

2021-07-14

0

Kylin 5 年的成长与未来规划

Kylin 5 年的成长与未来规划

本文分享 Kylin 在过去 5 年中的成长和 Kylin 4.0 版本开发的状况，也面向社区分享了 Kylin 未来的发展规划。

作者 : apachekylin

2021-01-12

0

Spark SQL和DataFrames：内置数据源简介(四)

Spark SQL 和 DataFrames：内置数据源简介 (四)

写在前面：大家好，我是强哥，一个热爱分享的技术狂。目前已有 12 年大数据与AI相关项目经验， 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。

spark

sparksq

2021-07-16

0

EMR Serverless Spark：一站式全托管湖仓分析利器

EMR Serverless Spark 是一款云原生，专为大规模数据处理和分析而设计的全托管 Serverless 产品。提供作业开发、调试、发布、调度等一站式体验，支持ETL、交互式数据分析等。

大数据

Serverless

数据分析

云原生

EMR

阿里云大数据AI技术

2024-10-31

0

重磅来袭 | 尚硅谷数据湖 Hudi 视频教程发布

Apache Hudi是新一代的流式数据湖平台，其将数据库和数据仓库的核心功能直接引入数据湖，并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi在任何云平台都能够便携地使用，高级的性能优化可以对接Spark、Flink

2022-10-19

0

一站式机器学习平台Deepthought的建设与初探

一站式机器学习平台 Deepthought 的建设与初探

本文介绍爱奇艺开发的面向通用的机器学习场景的一站式机器学习平台Deepthought。

作者 : 爱奇艺技术产品团队

2020-06-24

0

大数据独角兽Databricks再获融资，估值或达380亿美元

大数据独角兽 Databricks 再获融资，估值或达 380 亿美元

这笔投资显示出了投资者对帮助企业将数据转移到云端的服务的前景高度看好。

作者 : Tina

2021-08-23

0