发布日期:2023-04-28
蓝天采集器(SkyCaiji)一款网页爬虫系统,采用PHP+Mysql开发,可部署在云端服务器和虚拟主机中,使用浏览器即可采集数据。软件免费无限制使用,规则和插件可自定义开发。软件支持多级、多页、分页采集,自定义采集规则(支持正则、XPATH、JSON等)精准匹配任意信息流,几乎能采集所有类型的网页,绝大多数文章类型页面内容可实现智能识别。
哪么,此系统在采集数据的过程是如果配合代理ip使用,提高采集效率?今天巨量http小编就给大家详细的介绍下:
准备工作:
1,下载并安装蓝天采集器运行环境(点击官网直达)
2,HTTP代理IP(推荐巨量HTTP,每日赠送1000IP,长期免费),生产API链接,备用
蓝天采集器设置代理IP详细教程:
第一步:通过蓝天采集器官网的教程,搭建并运行系统,找到后台“设置”栏,点击“采集设置”,在点击“代理”进入到设置页面,第一部分详细设置如下(如下图):
全局开启:是
使用分组IP:全部(默认)
失败多少次屏蔽该IP:推荐“5”(可根据自己业务对采集数据的需求设定)
IP使用策略:推荐“按时长使用”(可根据购买的代理ip类型选择)
第二步:设置代理ip的相关配置,详细如下(如下图):
使用:是
IP入库时机:数据库中无可用IP时(默认)
API接口:接口
接口地址:输入巨量HTTP平台生成的API链接,填写其中
抓取间隔(分钟):根据开通的代理ip套餐ip时长决定(巨量http免费套餐默认1~5分钟,所以设置在3分钟左右即可)
匹配格式:默认信息
代理类型:http(切记,别选错)
默认设置:默认用户名,默认密码(此项只限设置socks5代理时会用到)
代理分组:无
第三步:以上设置完成,点击底部“测试抓取IP”,当返回“成功”时,则设置正常,证明代理ip的配置就是没问题。
完成以上,在返回到其它设置栏,做好相关采集设置选项,就可以开启数据采集了,整体设置不难,希望能有效的帮助到大家。
巨量HTTP已向众多互联网知名企业提供服务,专注提供长效静态ip,短效动态ip,隧道代理ip,当前节点覆盖全国200+城市,日产千万高品质ip池,ip连通率高达99%,对提高爬虫的抓取效率提供有效帮助,支持API批量使用,支持多线程高并发使用。
2024-03-15
2024-03-15
2024-03-14
2024-02-28
2024-02-28
2023-04-28
关注巨量HTTP公众号
在线客服
客户定制
QQ客服 (09:00 - 24:00)
咨询热线 (09:00 - 24:00)
15629532303
扫码联系微信客服
公众号
扫码关注微信公众号
返回顶部