gitbook/Kafka核心技术与实战/docs/109238.md
2022-09-03 22:05:03 +08:00

14 KiB
Raw Blame History

22 | 消费者组消费进度监控都怎么实现?

你好,我是胡夕。今天我要跟你分享的主题是:消费者组消费进度监控如何实现。

对于Kafka消费者来说最重要的事情就是监控它们的消费进度了或者说是监控它们消费的滞后程度。这个滞后程度有个专门的名称消费者Lag或Consumer Lag。

所谓滞后程度,就是指消费者当前落后于生产者的程度。比方说Kafka生产者向某主题成功生产了100万条消息你的消费者当前消费了80万条消息那么我们就说你的消费者滞后了20万条消息即Lag等于20万。

通常来说Lag的单位是消息数而且我们一般是在主题这个级别上讨论Lag的但实际上Kafka监控Lag的层级是在分区上的。如果要计算主题级别的你需要手动汇总所有主题分区的Lag将它们累加起来合并成最终的Lag值。

我们刚刚说过对消费者而言Lag应该算是最最重要的监控指标了。它直接反映了一个消费者的运行情况。一个正常工作的消费者它的Lag值应该很小甚至是接近于0的这表示该消费者能够及时地消费生产者生产出来的消息滞后程度很小。反之如果一个消费者Lag值很大通常就表明它无法跟上生产者的速度最终Lag会越来越大从而拖慢下游消息的处理速度。

更可怕的是由于消费者的速度无法匹及生产者的速度极有可能导致它消费的数据已经不在操作系统的页缓存中了。这样的话消费者就不得不从磁盘上读取它们这就进一步拉大了与生产者的差距进而出现马太效应即那些Lag原本就很大的消费者会越来越慢Lag也会越来越大。

鉴于这些原因,你在实际业务场景中必须时刻关注消费者的消费进度。一旦出现Lag逐步增加的趋势一定要定位问题及时处理避免造成业务损失。

既然消费进度这么重要我们应该怎么监控它呢简单来说有3种方法。

  1. 使用Kafka自带的命令行工具kafka-consumer-groups脚本。
  2. 使用Kafka Java Consumer API编程。
  3. 使用Kafka自带的JMX监控指标。

接下来我们分别来讨论下这3种方法。

Kafka自带命令

我们先来了解下第一种方法使用Kafka自带的命令行工具bin/kafka-consumer-groups.sh(bat)。kafka-consumer-groups脚本是Kafka为我们提供的最直接的监控消费者消费进度的工具。当然除了监控Lag之外它还有其他的功能。今天我们主要讨论如何使用它来监控Lag。

如果只看名字你可能会以为它只是操作和管理消费者组的。实际上它也能够监控独立消费者Standalone Consumer的Lag。我们之前说过独立消费者就是没有使用消费者组机制的消费者程序。和消费者组相同的是它们也要配置group.id参数值但和消费者组调用KafkaConsumer.subscribe()不同的是独立消费者调用KafkaConsumer.assign()方法直接消费指定分区。今天的重点不是要学习独立消费者,你只需要了解接下来我们讨论的所有内容都适用于独立消费者就够了。

使用kafka-consumer-groups脚本很简单。该脚本位于Kafka安装目录的bin子目录下我们可以通过下面的命令来查看某个给定消费者的Lag值

$ bin/kafka-consumer-groups.sh --bootstrap-server <Kafka broker连接信息> --describe --group <group名称>

Kafka连接信息就是<主机名:端口>对而group名称就是你的消费者程序中设置的group.id值。我举个实际的例子来说明具体的用法,请看下面这张图的输出:

在运行命令时我指定了Kafka集群的连接信息即localhost:9092。另外我还设置了要查询的消费者组名testgroup。kafka-consumer-groups脚本的输出信息很丰富。首先它会按照消费者组订阅主题的分区进行展示每个分区一行数据其次除了主题、分区等信息外它会汇报每个分区当前最新生产的消息的位移值即LOG-END-OFFSET列值、该消费者组当前最新消费消息的位移值即CURRENT-OFFSET值、LAG值前两者的差值、消费者实例ID、消费者连接Broker的主机名以及消费者的CLIENT-ID信息。

毫无疑问在这些数据中我们最关心的当属LAG列的值了图中每个分区的LAG值大约都是60多万这表明在我的这个测试中消费者组远远落后于生产者的进度。理想情况下我们希望该列所有值都是0因为这才表明我的消费者完全没有任何滞后。

有的时候,你运行这个脚本可能会出现下面这种情况,如下图所示:

简单比较一下我们很容易发现它和前面那张图输出的区别即CONSUMER-ID、HOST和CLIENT-ID列没有值如果碰到这种情况你不用惊慌这是因为我们运行kafka-consumer-groups脚本时没有启动消费者程序。请注意我标为橙色的文字它显式地告诉我们当前消费者组没有任何active成员即没有启动任何消费者实例。虽然这些列没有值但LAG列依然是有效的它依然能够正确地计算出此消费者组的Lag值。

除了上面这三列没有值的情形还可能出现的一种情况是该命令压根不返回任何结果。此时你也不用惊慌这是因为你使用的Kafka版本比较老kafka-consumer-groups脚本还不支持查询非active消费者组。一旦碰到这个问题你可以选择升级你的Kafka版本也可以采用我接下来说的其他方法来查询。

Kafka Java Consumer API

很多时候你可能对运行命令行工具查询Lag这种方式并不满意而是希望用程序的方式自动化监控。幸运的是社区的确为我们提供了这样的方法。这就是我们今天要讲的第二种方法。

简单来说社区提供的Java Consumer API分别提供了查询当前分区最新消息位移和消费者组最新消费消息位移两组方法我们使用它们就能计算出对应的Lag。

下面这段代码展示了如何利用Consumer端API监控给定消费者组的Lag值

public static Map<TopicPartition, Long> lagOf(String groupID, String bootstrapServers) throws TimeoutException {
        Properties props = new Properties();
        props.put(CommonClientConfigs.BOOTSTRAP_SERVERS_CONFIG, bootstrapServers);
        try (AdminClient client = AdminClient.create(props)) {
            ListConsumerGroupOffsetsResult result = client.listConsumerGroupOffsets(groupID);
            try {
                Map<TopicPartition, OffsetAndMetadata> consumedOffsets = result.partitionsToOffsetAndMetadata().get(10, TimeUnit.SECONDS);
                props.put(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG, false); // 禁止自动提交位移
                props.put(ConsumerConfig.GROUP_ID_CONFIG, groupID);
                props.put(ConsumerConfig.KEY_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
                props.put(ConsumerConfig.VALUE_DESERIALIZER_CLASS_CONFIG, StringDeserializer.class.getName());
                try (final KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props)) {
                    Map<TopicPartition, Long> endOffsets = consumer.endOffsets(consumedOffsets.keySet());
                    return endOffsets.entrySet().stream().collect(Collectors.toMap(entry -> entry.getKey(),
                            entry -> entry.getValue() - consumedOffsets.get(entry.getKey()).offset()));
                }
            } catch (InterruptedException e) {
                Thread.currentThread().interrupt();
                // 处理中断异常
                // ...
                return Collections.emptyMap();
            } catch (ExecutionException e) {
                // 处理ExecutionException
                // ...
                return Collections.emptyMap();
            } catch (TimeoutException e) {
                throw new TimeoutException("Timed out when getting lag for consumer group " + groupID);
            }
        }
    }

你不用完全了解上面这段代码每一行的具体含义只需要记住3处地方即可第1处是调用AdminClient.listConsumerGroupOffsets方法获取给定消费者组的最新消费消息的位移第2处则是获取订阅分区的最新消息位移最后1处就是执行相应的减法操作获取Lag值并封装进一个Map对象。

我把这段代码送给你你可以将lagOf方法直接应用于你的生产环境以实现程序化监控消费者Lag的目的。不过请注意这段代码只适用于Kafka 2.0.0及以上的版本2.0.0之前的版本中没有AdminClient.listConsumerGroupOffsets方法。

Kafka JMX监控指标

上面这两种方式都可以很方便地查询到给定消费者组的Lag信息。但在很多实际监控场景中我们借助的往往是现成的监控框架。如果是这种情况以上这两种办法就不怎么管用了因为它们都不能集成进已有的监控框架中如Zabbix或Grafana。下面我们就来看第三种方法使用Kafka默认提供的JMX监控指标来监控消费者的Lag值。

当前Kafka消费者提供了一个名为kafka.consumer:type=consumer-fetch-manager-metrics,client-id=“{client-id}”的JMX指标里面有很多属性。和我们今天所讲内容相关的有两组属性records-lag-max和records-lead-min它们分别表示此消费者在测试窗口时间内曾经达到的最大的Lag值和最小的Lead值。

Lag值的含义我们已经反复讲过了我就不再重复了。这里的Lead值是指消费者最新消费消息的位移与分区当前第一条消息位移的差值。很显然Lag和Lead是一体的两个方面Lag越大的话Lead就越小反之也是同理

你可能会问为什么要引入Lead呢我只监控Lag不就行了吗这里提Lead的原因就在于这部分功能是我实现的。开个玩笑其实社区引入Lead的原因是只看Lag的话我们也许不能及时意识到可能出现的严重问题。

试想一下监控到Lag越来越大可能只会给你一个感受那就是消费者程序变得越来越慢了至少是追不上生产者程序了除此之外你可能什么都不会做。毕竟有时候这也是能够接受的。但反过来一旦你监测到Lead越来越小甚至是快接近于0了你就一定要小心了这可能预示着消费者端要丢消息了。

为什么我们知道Kafka的消息是有留存时间设置的默认是1周也就是说Kafka默认删除1周前的数据。倘若你的消费者程序足够慢慢到它要消费的数据快被Kafka删除了这时你就必须立即处理否则一定会出现消息被删除从而导致消费者程序重新调整位移值的情形。这可能产生两个后果一个是消费者从头消费一遍数据另一个是消费者从最新的消息位移处开始消费之前没来得及消费的消息全部被跳过了从而造成丢消息的假象。

这两种情形都是不可忍受的因此必须有一个JMX指标清晰地表征这种情形这就是引入Lead指标的原因。所以Lag值从100万增加到200万这件事情远不如Lead值从200减少到100这件事来得重要。在实际生产环境中请你一定要同时监控Lag值和Lead值。当然了这个lead JMX指标的确也是我开发的这一点倒是事实。

接下来我给出一张使用JConsole工具监控此JMX指标的截图。从这张图片中我们可以看到client-id为consumer-1的消费者在给定的测量周期内最大的Lag值为714202最小的Lead值是83这说明此消费者有很大的消费滞后性。

Kafka消费者还在分区级别提供了额外的JMX指标用于单独监控分区级别的Lag和Lead值。JMX名称为kafka.consumer:type=consumer-fetch-manager-metrics,partition=“{partition}”,topic=“{topic}”,client-id=“{client-id}”。

在我们的例子中client-id还是consumer-1主题和分区分别是test和0。下图展示出了分区级别的JMX指标

分区级别的JMX指标中多了records-lag-avg和records-lead-avg两个属性可以计算平均的Lag值和Lead值。在实际场景中我们会更多地使用这两个JMX指标。

小结

我今天完整地介绍了监控消费者组以及独立消费者程序消费进度的3种方法。从使用便捷性上看应该说方法1是最简单的我们直接运行Kafka自带的命令行工具即可。方法2使用Consumer API组合计算Lag也是一种有效的方法重要的是它能集成进很多企业级的自动化监控工具中。不过集成性最好的还是方法3直接将JMX监控指标配置到主流的监控框架就可以了。

在真实的线上环境中我建议你优先考虑方法3同时将方法1和方法2作为备选装进你自己的工具箱中随时取出来应对各种实际场景。

开放讨论

请说说你对这三种方法的看法。另外,在真实的业务场景中,你是怎么监控消费者进度的呢?

欢迎写下你的思考和答案,我们一起讨论。如果你觉得有所收获,也欢迎把文章分享给你的朋友。