Open-Crawler

一个企业级分布式爬虫系统,支持爬取网页和json格式数据,并且支持数据筛选和动态化存储,支持定时爬取能力,拥有图形化操作界面,支持爬取异常通知,支持爬虫数据分类。

svg

AI 辅助生成任务

通过设置 prompt,可以让 AI 生成 cron 表达式并自动完成表单填充,提升爬虫创建效率

了解更多 ->
svg

提供多种数据采集方式

提供多种数据采集方式,例如 Xpath、Css、正则、JsonPath

了解更多 ->
svg

支持自定义数据抽取规则

支持自定义数据抽取规则,根据规则爬取数据

了解更多 ->
svg

支持自定义数据过滤规则

支持自定义数据过滤规则,默认提供等于、包含等匹配规则,根据过滤规则筛选数据

了解更多 ->
svg

支持自定义数据去重规则

支持自定义数据去重规则,根据去重规则实现采集数据去重

了解更多 ->
svg

提供多种数据持久化方式

支持多种采集数据持久化方式,默认提供 Mysql 和 ElasticSearch 储存方式

了解更多 ->
svg

支持设置代理、请求头等

支持设置爬虫代理、支持动态设置请求头、支持设置请求参数

了解更多 ->
svg

支持自动化采集

支持定时爬取能力,自动化采集,支持请求失败重试及支持设置重试次数以及重试间隔时间

了解更多 ->
svg

支持采集监控与报警

支持采集及任务监控,支持采集及任务报警,默认提供钉钉和邮件报警,支持自定义拓展

了解更多 ->
svg

支持数据分类

支持给采集到的数据进行分类,可按照分类来获取该分类下的所有数据

了解更多 ->