看反压
通常最后一个被压高的subTask的下游就是job的瓶颈之一
看checkpoint时长
checkpoint时长能在一定程度影响job的整体吞吐
看核心指标
延迟和吞吐是最重要的指标
资源使用率
提高资源利用率是最终目的。排查首先看GC
常见性能问题
- JSON序列化和反序列化
- MAP和Set的Hash冲突
- 和低速系统交互 如MySQL,HBASE
- 数据倾斜
- 频繁GC 甚至TM失联
- 大窗口 窗口size大、数据量大,或者滑动窗口size和step比值比较大如size=5min,step=1s