博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
WebGet2——自动爬网页工具
阅读量:5923 次
发布时间:2019-06-19

本文共 341 字,大约阅读时间需要 1 分钟。

通过正则表达式作为规则,筛检白名单和黑名单以控制访问网页路径,不断自动访问符合条件的网址。可附带下载资源文件。

此程序适合挂机伪装普通用户、挂机博客互踩、挂机论坛下载图片、附件等应用。

使用方法:

首先建立白名单访问规则,比如我们要爬CnBeta的网页,就这样设置,然后点击“在页面中验证”按钮测试符合规则的链接:

然后,如果我们不希望重复爬到编辑推荐的内容的话,就在黑名单中这样设置并验证:

然后点击“开始获取”,程序就开始自动爬了。

其他设置自行尝试吧,都比较简单了。

 

程序下载:

源代码下载:

本文转自斯克迪亚博客园博客,原文链接:http://www.cnblogs.com/SkyD/archive/2010/03/18/1688990.html,如需转载请自行联系原作者

你可能感兴趣的文章
linux命令
查看>>
Swoole源代码学习记录(十五)——Timer模块分析
查看>>
MySQL 解决 emoji表情 的方法,使用utf8mb4 字符集(4字节 UTF-8 Unicode 编码)
查看>>
当发布时报错: 找不到 obj\Debug\Package\PackageTmp\xxx.aspx 文件
查看>>
Linq使用Group By 1
查看>>
[Step By Step]SAP HANA PAL逻辑回归预测分析Logistic Regression编程实例FORECASTWITHLOGISTICR(预测)...
查看>>
文章标题
查看>>
堆排序
查看>>
第 4 章 gulpjs
查看>>
3.4. IP Address
查看>>
Flex builder的调试时需要flash player debug版本
查看>>
Ubuntu 中启用 root 帐号
查看>>
a2sd+状态下应用程序丢失的解决办法
查看>>
F#初试(2)
查看>>
基于WF4 Workflow Service实现简单审批流程(上)
查看>>
杭州互联网公司汇总
查看>>
数据结构复习笔记(3)
查看>>
基于事件驱动的DDD领域驱动设计框架分享(附源代码)
查看>>
7.5。Outlook smime x509证书
查看>>
51Nod 1289 大鱼吃小鱼(模拟,经典好题)
查看>>