博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Perl单URL爬虫
阅读量:4468 次
发布时间:2019-06-08

本文共 806 字,大约阅读时间需要 2 分钟。

分析了下代码,之前官方那段其实很简单,只要理解了,就能随意改动了。

根据自己的想法,目前想做的是全方位爬虫,并不是类似如此简单的爬,

简单的整理了下这个单例的抓URL。效果一般般,这几天忙完事情,我就改成多线程。

把URL的深度选项加入,以及可定向操作级别。这东西是我一直在思考的东西,也是我的一个想法。

把单例的例子保存下,方便以后翻。

#!/usr/bin/perluse LWP::UserAgent;use HTML::LinkExtor;use URI::URL;@imgs=();test("http://www.baidu.com/s?wd=dd");sub test{ local($url)=shift; # 创建UserAgent对象 $ua=LWP::UserAgent->new; # 调用HTML模块来取出链接并放入数组当中 $p = HTML::LinkExtor->new(\&callback); # 通过GET的方式下载页面(引用了UserAgent对象) $res = $ua->request(HTTP::Request->new(GET => $url),                      sub {
$p->parse($_[0])}); my $base = $res->base; @imgs = map { $_ = url($_, $base)->abs; } @imgs; print join("\n", @imgs), "\n";}sub callback{ my($tag,%attr)=@_; return if $tag ne 'a'; push(@imgs,values %attr);}

 

转载于:https://www.cnblogs.com/xiaoCon/archive/2013/05/08/3067221.html

你可能感兴趣的文章
Z :彻底了解指针数组,数组指针以及函数指针 [复
查看>>
2013年终总结
查看>>
Start to study Introduction to Algorithms
查看>>
AE常见接口之间的关系(较笼统)+arcgis常见概念
查看>>
正则表达式
查看>>
Mysql的DATE_FORMAT()日期格式转换
查看>>
vue实战教程
查看>>
shiro(三),使用第三方jdbcRealm连接数据库操作
查看>>
夜神模拟器
查看>>
SparkStreaming入门及例子
查看>>
Web应用增加struts2支持
查看>>
java程序——凯撒加密
查看>>
Windows Store App之数据存储
查看>>
English class 82 The Importance of traveling
查看>>
python用递归函数解汉诺塔游戏
查看>>
Redis与Python交互
查看>>
Maximum-SubsequenceSum
查看>>
常用的一些shell变量
查看>>
Android无法删除项目+导入项目报错
查看>>
poj 2349(最小生成树应用)
查看>>