合肥乐维信息技术有限公司
火车采集器、火车浏览器
http://lewell.blog.ifeng.com
发表 管理 分类 简介 头像 功能 音乐 友情链接 模板 个性域名

数据抓取软件如何批量导入二级代理

2016-09-02 15:36:42 编辑 删除

归档在 我的博文 | 浏览 75 次 | 评论 0 条

大家都知道,我们在抓取网页数据时,会遇到有些网站限制采集策略做得比较严格,而当我们频繁访问网页时就很有可能会禁止我们的IP,就像下面这样:

1.png

所以这个时候,r如果还是需要继续采集换着IP来采集了,怎么更换呢?需要用到的是数据抓取软件也就是火车采集器里的HTTP二级代理服务器在使用Http二级代理的时候,经常会使用到批量导入这个功能,下面具体讲解一下该功能的用法。

首先我们打开火车采集器V9中的Http二级代理,可以看到如下界面

2.png


点击下方的批量导入按钮会弹出如下对话框

3.png


先准备好一个有IP地址的TXT文件导入,文件格式为:ip:端口,一行一个

点击批量导入——浏览——选中代理.txt 文件。这样,代理IP 就导入进来了,如图:

4.png

如果需要导入用户名和密码,则需要将提取正则改为(?<ip>((2[0-4]d|25[0-5]|[01]?dd?).){3} (2[0-4]d|25[0-5]|[01]?dd?))[: :](?<port>d+),(?<user>w+),(?<pwd>w+)

并在TXT文本中加入用户名和密码字段,中间用逗号隔开。

5.png

6.png

不过要注意,这里导入用户名和密码仅火车采集器最新版V9版支持,所以还没有升级新版本的可以升级后再使用。


有不一样的发现

0
上一篇 << 这么拼!京东云、58同城都要实行“…      下一篇 >> 2016年公司注册有哪些条件?
 
0 条评论 / 0 人参与 网友评论 跟帖管理

关于博主

乐维信息

合肥乐维信息技术有限公司,致力于数据挖掘,数据处理。公司现有产品:火车采集器,火车浏览器。

博文相关

凤凰博报微信