功能概览

Open-Crawler

一个企业级分布式爬虫系统,支持爬取网页和 json 格式数据,并且支持数据筛选和动态化存储,支持定时爬取能力,拥有图形化操作界面,支持爬取异常通知,支持爬虫数据分类。

✨ 已实现功能点

  1. 定时任务基于时间轮算法实现,支持动态修改任务状态,同时支持拓展其他实现方式

  2. 客户端与服务端通信采用 Grpc,同时支持 Netty

  3. 注册中心支持 Nacos、Zookeeper,同时支持拓展其他注册中心,而且支持节点动态上线下线

  4. 执行器支持集群部署,支持负载均衡,默认提供了一致性 hash、随机权重算法,支持多种容错机制,默认提供了失败重试、故障转移等机制,负载均衡和容错都支持拓展

  5. 任务监控报警能力支持

  6. 前后端分离,管理后台基于 antd-pro 搭建

  7. 支持多应用任务调度

  8. 支持调度脚本

  9. 支持前后端统一部署,代码分支为:beta

  10. 调度完成后可查看任务具体是哪个节点执行的,可在任务执行日志中查看

  11. 支持任务分片执行,解决大任务问题,大大提升任务执行效率

❓ FAQ

有问题可以提 issues,我会及时解答