基于TableStore构建简易海量Topic消息队列-白红宇

基于TableStore构建简易海量Topic消息队列

阅读量：168 次

发布时间：2019-02-27

本文共 1753 字，大约阅读时间需要 5 分钟。

在大数据时代，传统的生产者消费者模式在处理海量Topic时面临诸多挑战。以下将详细阐述如何基于TableStore（表格存储）设计高效的消息队列解决方案，确保在海量Topic场景下的高吞吐、系统稳定性和消息不丢失。

消息队列在大规模应用中通常有两种主要模式：发布者订阅模式和生产者消费者模式。发布者订阅模式下，多个消费者会接收到相同的消息；而生产者消费者模式下，每条消息仅由一个消费者处理。然而，在大规模数据处理中，这两种模式都存在挑战。例如，在一个全网爬虫抓取任务调度系统中，每个大型门户和社交网络都可能成为一个Topic，内部还包含海量子网页。这就要求消息队列系统具备高扩展性、支持海量Topic以及高吞吐性能等特点。

传统的生产者消费者模式在面对海量Topic时，可能会遇到以下问题：

海量Topic和消息量：需要支持海量Topic，同时每个Topic下的生产者和消费者数量也可能是庞大的。尤其是在业务峰值期，消息总量可能接近全网网页总数。

任务优先级：为了实现任务优先级的高效调度，可能需要在Topic下再细分子Topic（或队列），从而提高处理效率。

消息不丢失：由于消息是任务调度信息，消息的丢失是完全不可容忍的。

消息重试机制：消费者在处理过程中可能会因为各种原因（如超时、错误等）失败，需要支持消息的重试调度。

吞吐性能：需要避免消息读区堆积导致的资源浪费。消息读区通常是轻量级的，而消息处理是资源密集型的操作。

基于以上问题，我们设计了一个基于TableStore的消息队列解决方案。TableStore具有以下特点，使其非常适合作为高效的消息队列：

高扩展性：支持海量Topic，通过分区键可以实现不同Topic的数据隔离和自增主键确保消息唯一性。

跨分区高并发：适合处理高并发的写入和读取操作。

条件更新支持：允许在特定条件下进行数据更新，避免了乐观并发的复杂性。

我们的解决方案主要包括以下三个表：

任务消息表：存储所有待处理的任务信息，包括任务ID、优先级、访问地址等。主键由Task ID和Priority共同决定，自增列用于唯一标识每个任务。

消息消费检查点表：记录任务处理的最新位置（ checkpoint）。该表包含两个字段：抓取扫描游标和完成游标。消费者在读取任务时，会根据优先级从高到低依次尝试获取任务。每个优先级层级维护独立的扫描游标和完成游标。

全量消息表：用于记录所有已处理和正在处理的任务信息。通过全量消息表，可以快速判断一个任务是否已经被处理过。

任务处理流程如下：

任务拉取：多个爬虫端定期从任务消息表中拉取任务。每个爬虫端单线程GetRange读取任务，确保任务读取的高效性。

任务抢占：爬虫端根据优先级从高到低依次尝试抢占任务。抢占成功后，任务会被添加到爬虫的内存队列中进行处理。

任务完成：在任务处理完成后，爬虫端会更新全量消息表和任务消息表的状态。全量消息表的状态字段用于避免重复抓取，任务消息表的状态字段用于通知完成游标扫描线程。

完成游标扫描：定期扫描完成游标，确保所有任务都能得到处理。扫描过程中，会更新检查点表中的完成游标位置。

重试机制：如果任务处理失败（如超时或错误），消费者会重试抢占任务。重试过程中，检查点表会在必要时更新，确保任务不会被丢失。

系统稳定性：通过条件更新机制，避免同一网页被多个爬虫端同时抓取。同时，完成游标的设计保证了长尾任务能够及时处理，避免资源浪费。

该方案通过TableStore的高效特性，实现了海量Topic下的高吞吐和系统稳定性。具体优势包括：

高扩展性：TableStore天然支持海量Topic，通过分区键可以轻松扩展到亿级别甚至更高。

优先级处理：优先级通过主键字段实现，高优先级任务会优先被读取和处理。

吞吐性能：两个独立的完成游标确保了任务扫描和处理能够高效进行，避免长尾任务阻塞。

消息不丢失：自增主键和完成游标机制保证了每条消息都会被处理。

重试机制：消费者在处理失败时会自动重试，避免消息丢失。

避免重复处理：全量消息表的状态字段确保了每个网页只会被抓取一次。

这种设计方案不仅解决了大规模消息队列的核心问题，还提供了高效的任务调度和资源利用，确保了系统在高并发场景下的稳定性和可靠性。

转载地址：http://tkrb.baihongyu.com/

你可能感兴趣的文章

Objective-C实现euler method欧拉法算法(附完整源码)