-
Notifications
You must be signed in to change notification settings - Fork 528
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[Question] 十亿点边如何进行快速导入 #2607
Comments
要高效地导入每天约10亿条增量数据到HugeGraph并避免出现“rest server is too busy to write”的错误,可以参考以下调优建议:
通过遵循这些实践,可以高效地将大数据量导入HBase,并最大限度地减少出现“rest server is too busy to write”错误的风险[1]。 |
是的,
以下是一个示例配置: {
"import-settings": {
"requestTimesWhenInterpolationFailed": 5, // 重试次数
"requestTicksWhenInterpolationFailed": 2, // 重试间隔(秒)
"maximumAnalyzedErrorRow": 100, // 允许的最大解析错误数
"maxiumInterpolateErrorRow": 50, // 允许的最大插入错误数
"InterpolationTimeout": 30 // 插入超时时间(秒)
}
} 这些设置可以通过控制重试行为和错误容忍度来管理 HBase 的负载,从而减少 |
参考下如下两个资料 10亿级别点边以上任意方式小时内能够导入完成 cc @haohao0103 |
此处需要确认写入瓶颈点是HBase/ HugeServer/Loader 如果是Server 可以用nginx /haprox 做负载均衡 |
上面贴出来的那个图片中的报错,这个报错是表示写入瓶颈点在HBase上吗? @JackyYangPassion |
Problem Type (问题类型)
None
Before submit
Environment (环境信息)
Your Question (问题描述)
每天的增量数据大概有10亿条左右,底层的存储用的是hbase。 通过loader工具导入的时候,运行一段时间会出现rest server is too busy to write的情况。 尝试着限制了导入的速率(rate_limit.write=10000),和调大了批量写入的线程占比(batch.max_write_ratio=90),这样导入不会报错,但是导入性能会变的很差。 针对大批量数据的导入有什么调优建议吗。 在保证导入不报错的前提下,最大化的提高导入的性能。
Vertex/Edge example (问题点 / 边数据举例)
No response
Schema [VertexLabel, EdgeLabel, IndexLabel] (元数据结构)
No response
The text was updated successfully, but these errors were encountered: