企业级分布式爬虫如何使用代理IP?
2020-12-09 08:23:49

                      1.jpg

大家在使用分布式爬虫或者叫多进程爬虫的时候,由于目标网站的限制,可能会用到代理IP,要使用代理IP,首先得找一个稳定高匿的代理IP提供商。如何才能资源利用最优化、最合理的使用代理IP来抓数据?携趣小编跟您探讨并提供一些思路。

方案一:使用携趣IP优质代理,携趣IP拥有企业级稳定高匿、高速代理IP的高质量出口池,是爬虫的不二之选,支持一键提取调用,设置白名单,同时支持每次请求随机一个IP或多个IP

方案二:先导入数据库,从数据库里面取IP,大概逻辑如下:

1、在数据库里面建一个表,写一个导入脚本,每分钟请求6次API,把IP列表导入到数据库里面。

2、不要低于10秒一次,也不要高于10秒一次,因为低于10秒提取不到IP,高于10秒会少提取到IP量。当然,如果程序不好控制,那高于10秒也是可以的。

3、在数据库里面记录好 导入时间、IP、Port、过期时间、当前有多少进程在使用这个IP、IP可用状态等字段。

4、写一个抓取脚本,抓取脚本从数据库里面读取可用IP,每个进程从数据库获取一个IP,获取一个状态可用,使用的进程少的IP,当然也可以控制每个进程只使用一个IP,如果没有符合条件的IP,则循环第一步1秒等待新的IP出现。

5、执行抓取,对结果进行判断,处理cookie等,只要出现验证码或者失败就放弃,重新换一个IP。

点击携趣www.xiequ.cn或添加客服赶紧试用吧!


阅读前一篇

nodejs中request库使用HTTPS代理的方法