博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
spark 读取mongodb失败,报executor time out 和GC overhead limit exceeded 异常
阅读量:6406 次
发布时间:2019-06-23

本文共 1074 字,大约阅读时间需要 3 分钟。

代码:

import com.mongodb.spark.config.ReadConfigimport com.mongodb.spark.sql._val config = sqlContext.sparkContext.getConf.set("spark.mongodb.keep_alive_ms", "15000").set("spark.mongodb.input.uri", "mongodb://10.100.12.14:27017").set("spark.mongodb.input.database", "bi").set("spark.mongodb.input.collection", "userGroupMapping")val readConfig = ReadConfig(config)val objUserGroupMapping = sqlContext.read.format("com.mongodb.spark.sql").mongo(readConfig)objUserGroupMapping.printSchema()val tbUserGroupMapping=objUserGroupMapping.toDF()tbUserGroupMapping.registerTempTable("userGroupMapping")select _id,c,g,n,rn,t,ut from userGroupMapping where ut>'2018-05-02' limit 100

使用上述的代码取userGroupMapping 集合过后的100条记录,出现了executor time out 和GC overhead limit exceeded 异常。一开始以为推测是task 从mongodb取的数据太大,导致spark executor内存不够,后来调研了一下spark mongodb connector 在取数据的时候是条件下发的,也就是先从mongodb过滤再取回spark 内存,这样的话就不会出现内存不够的情况。后来在网上调研后,有一种说法是说task 太多,导致task gc的时候争夺gc时间和内存资源(这个不是很清楚),根据这种说法,我把本来task core 从16个调成6个后再跑程序,居然不会报错了。至于 具体原因还不是很清楚,先在这里记录一下。

转载于:https://www.cnblogs.com/chengjunhao/p/8984466.html

你可能感兴趣的文章
scope
查看>>
一起谈.NET技术,晚绑定场景下对象属性赋值和取值可以不需要PropertyInfo
查看>>
一起谈.NET技术,.Net Framework源代码中的模式之Prototype(原型模式)
查看>>
[shell 命令] find 查找文件
查看>>
windows下启动mysql服务的命令行启动和手动启动方法
查看>>
VTK三维点集轮廓凸包提取
查看>>
【概率论与数理统计】小结9-3 - 区间估计
查看>>
Golang性能调优入门
查看>>
sqlloader外部表
查看>>
golang笔记——数组与切片
查看>>
屏蔽可忽略的js脚本错误
查看>>
散文分享
查看>>
【Vue】vue.js常用指令
查看>>
NFS学习
查看>>
MySql常用命令总结
查看>>
又一年...
查看>>
文件上传框的美化+预览+ajax
查看>>
Linux VFS
查看>>
ext不能选中复制属性_如何实现Extjs的grid单元格只让选择(即可以复制单元格内容)但是不让修改?...
查看>>
python中print的作用*8、不能+8_在 Python 3.x 中语句 print(*[1,2,3]) 不能正确执行。 (1.0分)_学小易找答案...
查看>>