博客
关于我
基于TableStore构建简易海量Topic消息队列
阅读量:168 次
发布时间:2019-02-27

本文共 1753 字,大约阅读时间需要 5 分钟。

在大数据时代,传统的生产者消费者模式在处理海量Topic时面临诸多挑战。以下将详细阐述如何基于TableStore(表格存储)设计高效的消息队列解决方案,确保在海量Topic场景下的高吞吐、系统稳定性和消息不丢失。

消息队列在大规模应用中通常有两种主要模式:发布者订阅模式和生产者消费者模式。发布者订阅模式下,多个消费者会接收到相同的消息;而生产者消费者模式下,每条消息仅由一个消费者处理。然而,在大规模数据处理中,这两种模式都存在挑战。例如,在一个全网爬虫抓取任务调度系统中,每个大型门户和社交网络都可能成为一个Topic,内部还包含海量子网页。这就要求消息队列系统具备高扩展性、支持海量Topic以及高吞吐性能等特点。

传统的生产者消费者模式在面对海量Topic时,可能会遇到以下问题:

  • 海量Topic和消息量:需要支持海量Topic,同时每个Topic下的生产者和消费者数量也可能是庞大的。尤其是在业务峰值期,消息总量可能接近全网网页总数。

  • 任务优先级:为了实现任务优先级的高效调度,可能需要在Topic下再细分子Topic(或队列),从而提高处理效率。

  • 消息不丢失:由于消息是任务调度信息,消息的丢失是完全不可容忍的。

  • 消息重试机制:消费者在处理过程中可能会因为各种原因(如超时、错误等)失败,需要支持消息的重试调度。

  • 吞吐性能:需要避免消息读区堆积导致的资源浪费。消息读区通常是轻量级的,而消息处理是资源密集型的操作。

  • 基于以上问题,我们设计了一个基于TableStore的消息队列解决方案。TableStore具有以下特点,使其非常适合作为高效的消息队列:

    • 高扩展性:支持海量Topic,通过分区键可以实现不同Topic的数据隔离和自增主键确保消息唯一性。
    • 跨分区高并发:适合处理高并发的写入和读取操作。
    • 条件更新支持:允许在特定条件下进行数据更新,避免了乐观并发的复杂性。

    我们的解决方案主要包括以下三个表:

  • 任务消息表:存储所有待处理的任务信息,包括任务ID、优先级、访问地址等。主键由Task ID和Priority共同决定,自增列用于唯一标识每个任务。

  • 消息消费检查点表:记录任务处理的最新位置( checkpoint)。该表包含两个字段:抓取扫描游标和完成游标。消费者在读取任务时,会根据优先级从高到低依次尝试获取任务。每个优先级层级维护独立的扫描游标和完成游标。

  • 全量消息表:用于记录所有已处理和正在处理的任务信息。通过全量消息表,可以快速判断一个任务是否已经被处理过。

  • 任务处理流程如下:

  • 任务拉取:多个爬虫端定期从任务消息表中拉取任务。每个爬虫端单线程GetRange读取任务,确保任务读取的高效性。

  • 任务抢占:爬虫端根据优先级从高到低依次尝试抢占任务。抢占成功后,任务会被添加到爬虫的内存队列中进行处理。

  • 任务完成:在任务处理完成后,爬虫端会更新全量消息表和任务消息表的状态。全量消息表的状态字段用于避免重复抓取,任务消息表的状态字段用于通知完成游标扫描线程。

  • 完成游标扫描:定期扫描完成游标,确保所有任务都能得到处理。扫描过程中,会更新检查点表中的完成游标位置。

  • 重试机制:如果任务处理失败(如超时或错误),消费者会重试抢占任务。重试过程中,检查点表会在必要时更新,确保任务不会被丢失。

  • 系统稳定性:通过条件更新机制,避免同一网页被多个爬虫端同时抓取。同时,完成游标的设计保证了长尾任务能够及时处理,避免资源浪费。

  • 该方案通过TableStore的高效特性,实现了海量Topic下的高吞吐和系统稳定性。具体优势包括:

  • 高扩展性:TableStore天然支持海量Topic,通过分区键可以轻松扩展到亿级别甚至更高。

  • 优先级处理:优先级通过主键字段实现,高优先级任务会优先被读取和处理。

  • 吞吐性能:两个独立的完成游标确保了任务扫描和处理能够高效进行,避免长尾任务阻塞。

  • 消息不丢失:自增主键和完成游标机制保证了每条消息都会被处理。

  • 重试机制:消费者在处理失败时会自动重试,避免消息丢失。

  • 避免重复处理:全量消息表的状态字段确保了每个网页只会被抓取一次。

  • 这种设计方案不仅解决了大规模消息队列的核心问题,还提供了高效的任务调度和资源利用,确保了系统在高并发场景下的稳定性和可靠性。

    转载地址:http://tkrb.baihongyu.com/

    你可能感兴趣的文章
    Nginx配置好ssl,但$_SERVER[‘HTTPS‘]取不到值
    查看>>
    Nginx配置如何一键生成
    查看>>
    Nginx配置实例-负载均衡实例:平均访问多台服务器
    查看>>
    Nginx配置文件nginx.conf中文详解(总结)
    查看>>
    Nginx配置负载均衡到后台网关集群
    查看>>
    ngrok | 内网穿透,支持 HTTPS、国内访问、静态域名
    查看>>
    NHibernate学习[1]
    查看>>
    NHibernate异常:No persister for的解决办法
    查看>>
    NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
    查看>>
    NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
    查看>>
    NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
    查看>>
    NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
    查看>>
    NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
    查看>>
    NIFI从PostGresql中离线读取数据再导入到MySql中_带有数据分页获取功能_不带分页不能用_NIFI资料太少了---大数据之Nifi工作笔记0039
    查看>>
    NIFI同步MySql数据_到SqlServer_错误_驱动程序无法通过使用安全套接字层(SSL)加密与SQL Server_Navicat连接SqlServer---大数据之Nifi工作笔记0047
    查看>>
    Nifi同步过程中报错create_time字段找不到_实际目标表和源表中没有这个字段---大数据之Nifi工作笔记0066
    查看>>
    NIFI大数据进阶_FlowFile拓扑_对FlowFile内容和属性的修改删除添加_介绍和描述_以及实际操作---大数据之Nifi工作笔记0023
    查看>>
    NIFI大数据进阶_NIFI的模板和组的使用-介绍和实际操作_创建组_嵌套组_模板创建下载_导入---大数据之Nifi工作笔记0022
    查看>>