功能概览
Open-Crawler
一个企业级分布式爬虫系统,支持爬取网页和 json 格式数据,并且支持数据筛选和动态化存储,支持定时爬取能力,拥有图形化操作界面,支持爬取异常通知,支持爬虫数据分类。
✨ 已实现功能点
-
定时任务基于时间轮算法实现,支持动态修改任务状态,同时支持拓展其他实现方式
-
客户端与服务端通信采用 Grpc,同时支持 Netty
-
注册中心支持 Nacos、Zookeeper,同时支持拓展其他注册中心,而且支持节点动态上线下线
-
执行器支持集群部署,支持负载均衡,默认提供了一致性 hash、随机权重算法,支持多种容错机制,默认提供了失败重试、故障转移等机制,负载均衡和容错都支持拓展
-
任务监控报警能力支持
-
前后端分离,管理后台基于 antd-pro 搭建
-
支持多应用任务调度
-
支持调度脚本
-
支持前后端统一部署,代码分支为:beta
-
调度完成后可查看任务具体是哪个节点执行的,可在任务执行日志中查看
-
支持任务分片执行,解决大任务问题,大大提升任务执行效率
❓ FAQ
有问题可以提 issues,我会及时解答