2.拉链表如果有一天没有拉成功,导致漏拉了一天(比如11号漏了12号的,直接拉13号),怎么处理?怎么避免?(不懂,重跑我的理解)
3.Flink有没有出现过窗口无法触发计算的情况?
最近,在协助其他同事测试flink消费kafka数据,窗口计算的准确性问题。
同事往kafka发送数据,结果窗口一直无法触发计算。但是使用我的mock代码,往kafka发送数据时,窗口计算正常触发。
经过排查,同事的代码把所有的数据发往kafka的一个分区;我的代码会负载均衡,发到所有分区。
kafka有三个分区,flink程序会读取到来自三个分区的数据,并取每个分区的最新事件时间戳作为水位线,然后取三个分区的水位线最低的,作为整个程序的水位线。同事的代码只往其中一个分区发送数据,导致其他两个分区的水位线一直无法更新,所以一直无法触发窗口计算。
将指定分区的代码删除,将数据发往多个分区;
4.Flink的Checkpoint,如果部分算子已经完成本次ck,宕机以后是从哪开始?保存好的算子开始还是从source端重新开始?
可以看到出现一次close的时候,代表我们的程序以及停止,服务器已经宕机,这个时候订单的计算结果如上图的红色方框。在我们运行了上面那条命令后再次查看日志的数据,从open开始可以看到这次就不是从订单最初的状态开始进行的了,而是从上一次宕机前计算的结果,继续往下计算,到这里Checkponit的实战应用测试就完成了。
5.为什么维度表要存在HBase里不存在MySQL里,HBase的rowkey设计有什么实际应用场景?(hbase这块不熟,后面有时间重点加强)
HBase很适合于存储非结构化的数据,还有就是它基于列的而不是基于行的模式。
6.Spark的下游分区如何知道从哪个上游分区读取数据?
partition by 不改变数据行数,原来多少行还是多少行,group by 改变行数,只保留了group by 之后的结果。
8.Flink各个窗口的区别?从源码的角度讲(有时间可以研究一下源码)
9.Flink的前端页面可以看到Job运行过程中的那些信息?
正在运行的job还有完成的job
跨越速运的微信公众号是哪个
还可以关注跨越速运的微信公众号,里面好像有一个总裁热线,还是挺多的~
好像是挺多的, 我们公司就是跟跨越速运合作的,上次就问过跨越速运的员工,如果我们有问题,怎么反馈给跨越速运那边,跨越速运的员工就给我说了几个投诉窗口,首先是电话投诉, 也就是跨越速运的服务热线95324,
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。