Changelog

我们会实时同步对 Open-Crawler 所做的所有最新添加和改进,欢迎您在 Github 提交 pr 或 issues

2024-03-08

V2.1.0

该版本主要变更为升级了 schedule 组件版本

  • 升级了 schedule 组件版本

2024-02-25

V2.0.0

该版本是更新内容较多,具体请查看变更列表

Collage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designs
  • feat: rpc 组件升级为最新的 V2.1.0 版本,提供手动注册执行器和使用zookeeper或nacos自动注册执行器两个方式供用户选择
  • feat: 对前端进行了重构,采用 nextjs + antd 的方式进行了重构,新版地址:https://www.openbytecode.com/open-crawler
  • feat: 新增了 AI 功能、支持通过对话的方式辅助生成爬虫

2023-11-28

V1.3.0

该版本新增了爬虫代理功能,支持代理池

  • 新增爬虫代理功能,支持代理池

2023-09-27

V1.2.0

该版本新增了爬虫终止功能;新增了实时查看爬虫日志功能

  • 新增爬虫终止功能
  • 新增实时查看爬虫日志功能

2023-08-11

V1.1.0

该版本随 open-light-rpc 组件一起做了升级,节点通信采用异步通信,性能提升 200%。

  • 节点通信采用异步通信,性能提升 200%

2023-07-12

V1.0.6

该版本随爬虫插件一起做了升级,对爬虫执行流程进行了重构,在爬虫执行链上添加其他流程更加简单、方便,更容易拓展,相信这是一个很好的功能更新。

Collage of new marketing component designs
  • 对爬虫核心执行流程进行了重构

2023-06-18

V1.0.5

该版本升级了报表功能,包括爬虫次数统计、耗时统计、数据量统计;爬虫日志记录开始时间、结束时间、执行结果、异常信息、耗时、采集条数;新增爬虫报警记录功能;爬虫节点列表页面增加了服务器的 cpu、内存、磁盘信息

Collage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designs
  • 升级了报表功能,包括爬虫次数统计、耗时统计、数据量统计
  • 爬虫日志记录开始时间、结束时间、执行结果、异常信息、耗时、采集条数
  • 新增爬虫报警记录功能
  • 爬虫节点列表页面增加了服务器的 cpu、内存、磁盘信息

2023-06-12

V1.0.4

该版本新增了数据实时推送功能,用户可通过接口平台获得授权之后实时获取采集数据,同时也提供了根据分类拉取采集数据

Collage of new marketing component designs
  • 新增了数据实时推送功能,用户可通过接口平台获得授权之后实时获取采集数据
  • 同时提供了根据分类拉取采集数据

2023-05-30

V1.0.3

该版本去掉了之前版本的爬虫任务和任务日志,将任务的属性与爬虫进行了融合,只保留了爬虫日志;新增抓取列表选项字段,优化之前的采集列表与详情的设计

Collage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designs
  • 去掉了之前版本的爬虫任务和任务日志,将任务的属性与爬虫进行了融合,只保留了爬虫日志
  • 新增抓取列表选项字段,优化之前的采集列表与详情的设计

2023-05-01

V1.0.2

该版本相比之前添加采集数据分类能力,支持给采集到的数据进行分类,利于数据归类;另外优化数据去重功能

Collage of new marketing component designs
  • 添加采集数据分类能力,支持给采集到的数据进行分类,利于数据归类
  • 优化数据去重功能

2023-02-21

V1.0.1

该版本优化了任务日志和采集日志记录方式以及爬虫和任务关联关系

Collage of new marketing component designs
  • 任务日志和采集日志优化
  • 爬虫和任务关联关系优化

2022-11-11

V1.0.0

这是 Open-Crawler V1.0.0的第一次正式发布,代表了一个新的分布式爬虫框架的诞生,我们会一直维护其不断成长和进步

Collage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designsCollage of new marketing component designs
  • 提供多种数据采集方式,例如 Xpath、Css、正则、JsonPath
  • 支持自定义爬虫数据抽取规则,根据设置的规则爬取相应数据
  • 支持自定义数据过滤规则,默认提供等于、包含等匹配规则,根据过滤规则筛选数据
  • 支持自定义数据去重规则,根据去重规则实现数据采集去重
  • 支持多种采集数据持久化方式,默认提供 Mysql 和 ElasticSearch 储存方式
  • 支持爬虫代理功能
  • 支持设置爬虫失败重试次数以及重试间隔时间
  • 支持 GET、POST 等请求方式
  • 支持动态设置爬虫的请求头请求参数
  • 支持定时爬取能力,自动化采集
  • 支持采集及任务监控
  • 支持采集报警,默认提供钉钉和邮件报警,支持自定义拓展