GTLC全球技术领导力峰会·上海站,首批讲师正式上线! 了解详情
写点什么
  • 发布
  • 评论
  • 划线
  • 收藏
  • 关注
  • 全部分类
Spark 内存管理与调优

Spark 是基于内存的大数据计算引擎,因此,在编写 Spark 程序或者提交 Spark 任务的时候,要特别注意内存方面的优化和调优。Spark 官方也提供了很多配置参数用来进行内存或 CPU 的资源使用,但是为什么我们要进行这些参数的配置,这些参数是怎么影响到任务执行的,本

Spark 任务等待与运行策略

前面我们提到了 Spark 的资源分配策略,资源配置有静态和动态两种模式,不同模式在任务提交后会有不同的内存占用行为,但是由于队列资源是有限的,因此会出现任务因为资源不够导致等待的情况。本节来详细分析一下任务提交后在的等待与运行影响因素。

带你厘清事务一致性(下篇)

在上篇和中篇中,无论是单机事务的一致性,还是分布式事务的一致性,可以发现都是针对数据库的事务而言的,说到了分布式、一致性话题,我们再继续讨论一个概念 -- 分布式系统的一致性。分布式系统的一致性是一个更加多元和复杂的场景,单纯的 2PC 或者 3PC 协议无法

Spark 运行状态监控与优化

当我们调试 spark 程序或者排查任务运行状态的时候,除了看 spark 提供的原生日志以外,spark 还为我们提供了很好的监控工具 Monitor,具体的参数详情可以参考 Monitoring and Instrumentation。我们本章通过讲解一个 spark 进行资源优化和并发调整的例子来演示如何用

GraphX 图计算组件最短路算法实战

Spark 除了批处理和流处理,还提供了 GraphX 组件提供图计算。近些年,图计算越来越受到数据分析人员的青睐。图计算目前广泛应用于公安系统和银行金融领域。通过社交网络分析,可以打击犯罪团伙,金融欺诈、信用卡盗刷等。通过人与人之间的关联关系推断,还可以

数据库存取策略对比

零星的搞了很久的数据库,包括关系数据库、图数据库和键值数据库,今天先来抛砖引玉做个对比。

Spark 的动态资源分配

在进行 Spark 任务提交的时候,我们知道 Spark 提供了诸如 num-executor、executor-memory 等参数用来控制资源的申请和使用。但是你是否遇到过提交了任务后,当资源队列资源充足的时候,spark 任务一直在吃内存的情况,貌似有点失控,这其实是“动态资源分配”在作怪

Spark 数据倾斜解决方案实战(三)

上两期,我们分别讲了通过提高并行度和自定义分区策略来解决数据倾斜的方法,同时我们也讲到了他们的共同缺点:针对于不同 key 倾斜到同一个节点到场景。那如果是同样的 key 太大怎么办呢?如何将同一个 key 分配到不同的节点呢?答案就是通过对 key 增加前后缀的方式

自定义 Hadoop 的输入格式

背景:这两天要把一个文件中的的多个 html 代码块进行解析,该文件特别大将近 1TB,所以想用 Hadoop 来处理。

带你厘清事务一致性(中篇)

在上篇中,我们了解了单机数据库的事务一致性,分布式事务的一致性问题更加棘手,本文就来介绍分布式事务是如何解决这一难题的。

个人成就
  • 发布了 25 篇内容

    50280字, 被阅读 267

  • 获得了 3 次赞同

    获得了 0次喜欢, 获得了 3 次收藏

  • 参与了 5 次互动

    互动包含发布评论、点赞评论、参与投票等

TA 关注的
还没有关注其他内容哦

DNSPod与开源应用专场

DNSPod与开源应用专场

小舰