Crawler 模块介绍

在中V档案馆的技术架构中，自动化是核心设计理念。crawler 模块负责整个数据采集流程，通过 BullMQ 实现任务的消息队列管理，支持高并发地处理多个采集任务。

系统的数据存储与状态管理采用了 Redis（用于缓存和实时数据）与 PostgreSQL（作为主数据库）的组合方式，确保了稳定性与高效性。

负责与数据库的交互，提供创建、更新、查询等功能。

负责与机器学习模型相关的处理逻辑，主要用于视频内容的文本分类。

整合 BullMQ，实现任务调度和异步处理。

crawler/mq/exec

该目录下包含了各类任务的处理函数。虽然这些函数并非 BullMQ 所直接定义的“worker”，但在文档中我们仍将其统一称为 worker（例如 getVideoInfoWorker、takeBulkSnapshotForVideosWorker）。

说明：
crawler/mq/exec 中的函数称为 worker。
crawler/mq/workers 中的函数我们称为 BullMQ worker。

架构设计说明： 由于 BullMQ 设计上每个队列只能有一个处理函数，我们通过 switch 语句在一个 worker 中区分并路由不同的任务类型，将其分发给相应的执行函数。

crawler/mq/workers

这个目录定义了真正的 BullMQ worker，用于消费对应队列中的任务，并调用具体的执行逻辑。

crawler/mq/task

为了保持 worker 函数的简洁与可维护性，部分复杂逻辑被抽离成独立的“任务（task）”函数，集中放在这个目录中。

该模块用于与外部系统通信，负责所有网络请求的封装和管理。核心是 net/delegate.ts 中定义的 NetworkDelegate 类。

crawler/net/delegate.ts

这是我们进行大规模请求的主要实现，支持以下功能：

存放项目中通用的工具函数，供各模块调用。

该目录包含 crawler 的启动脚本。我们使用 concurrently 同时运行多个任务文件，实现并行处理。

最后更新于10个月前

这有帮助吗？