perl如何提取网页内容,匹配字符串

2024-05-05 16:21

1. perl如何提取网页内容,匹配字符串

功能实现:
抓取网页使用了LWP::Simple
字符串编码使用了Encode模块的encode方法,若不进行转码则会乱码
具体代码:代码先从网页下载网页文件,然后写入文件中
use LWP::Simple;use utf8;use Encode;
open F,'>d:/bc.html';
 $content = get("http://www.baidu.com");#Encode::_utf8_on($content);$content=encode('gb2312',$content);
die "Couldn't get it!" unless defined $content;print F $content;
#print 'complete';close F;

perl如何提取网页内容,匹配字符串

2. 如何用perl处理html表格,抓取html表格里的信息

试试HTML::TableExtract模块,例子:
招商银行储蓄存款利率表http://www.cmbchina.com/CmbWebPubInfo/InterestRate.aspx?chnl=ckrate
将其中的表格节选部分html放到perl变量$content中处理。
#!/usr/bin/perluse warnings;use strict;use HTML::TableExtract;use Data::Dumper;my $content=                                                                      存期                        人民币                        美元                        英镑                        欧元                        日元                        港币                        加拿大元                        瑞士法郎                        澳大利亚元                         新加坡元                                                                                                       活期                        0.3850                        0.0500                        0.0500                        0.0050                        0.0001                        0.0100                        0.0100                        0.0001                        0.2375                        0.0001                                                                                           通知存款 一天                        0.8800                                                                                                                                                                                                                                                                                                                   通知存款 七天                        1.4850                        0.0500                        0.0500                        0.0050                        0.0005                        0.0100                        0.0100                        0.0005                        0.2625                        0.0005                                                  EOFmy $te = new HTML::TableExtract();$te->parse( $content );for my $ts ($te->table_states) {     print $ts;     for my $row ($ts->rows) {         print Dumper $row;             } }输出:
HTML::TableExtract::Table=HASH(0xa1b7c08)$VAR1 = [          '存期',          '人民币',          '美元',          '英镑',          '欧元',          '日元',          '港币',          '加拿大元',          '瑞士法郎',          '澳大利亚元',          '新加坡元'        ];$VAR1 = [          '活期',          '0.3850',          '0.0500',          '0.0500',          '0.0050',          '0.0001',          '0.0100',          '0.0100',          '0.0001',          '0.2375',          '0.0001'        ];$VAR1 = [          '通知存款 一天',          '0.8800',          undef,          undef,          undef,          undef,          undef,          undef,          undef,          undef,          undef        ];$VAR1 = [          '通知存款 七天',          '1.4850',          '0.0500',          '0.0500',          '0.0050',          '0.0005',          '0.0100',          '0.0100',          '0.0005',          '0.2625',          '0.0005'        ];

3. 请教如何写perl程序自动获取并提取网页内容

想获取网页上的一个form表单,填充数据后,提交给服务器。 我现在可以获取到网页内容,下一步就是过滤出来这个form表单。然后向表单域里填数据,然后再提交!

请教如何写perl程序自动获取并提取网页内容

4. 用perl抓取中文网页内容得到乱码怎么办

#!/usr/bin/perl -w
use LWP::UserAgent; #安装包
my $agent=LWP::UserAgent->new();
$url="http://XXXXXXXXXX";
$response = $agent->get("$url");
$efetch_out=$response->content ;
print "$efetch_out\n";
我一直都是用这个方法抓取页面的,从来没有乱码过,这次一个页面不知道为什么抓出来是乱码。

5. perl怎么抓取https页面

利用LWP::Simple模块,提取网页源代码,赋值给一个字符串变量,然后再进行后续分析,比如部分文件的提取等等:
use LWP::Simple qw(get);my $html = get( "http://www.example.com/index.html" );
另外可以把网页源代码下载下载,直接存为一个文件:
use LWP::Simple qw(getstore);getstore( "http://www.example.com/index.html", "foo.html" );

perl怎么抓取https页面

6. PERL 提取网页源代码

以上地址的返回结果如下:








document.apiForm.rowids.value="787908,778684,806330,787607,818772,778981,794504,824496,814190,775642,819594,808254,821979,775402,789225,823262";
document.apiForm.annot.value="27";
document.apiForm.action = "chartReport.jsp";
document.apiForm.submit();





上面是一个表单,你该用POST方式向chartReport.jsp提交上述表单的内容即可获得你要的数据。

7. perl怎么获取网页所有内容,包括链接下的

通过F12,进行调试js,找到其加密的过程,然后进行模拟。

perl怎么获取网页所有内容,包括链接下的

8. 请问如何用perl 实现 抓取那些网页中只有用户滚屏才能得到的信息

你是用perl编程语言中的svg模块来画图是吧,如果是的话,那你可以设置好viewbox显示任意坐标范围内的数据。
viewbox的设置可以看看参考资料:SVG主要元素和属性