当方perl初心者です。
HTML:TreeBuilderでのHTML解析に試みています。どなたか解決の糸口をご教授ください…。
やりたいこと:
ローカルに保存したtest1.htmとtest2.htmからperlのHTML:TreeBuilderを用いてHTML解析を行い,解析結果をtsvファイルとして出力する。
問題:
以下のエラーが発生。
Can't call method "look_down" on an undefined value at teratail.pl line 26.
test1.htmの解析結果は出力するものの,test2.htmの解析結果を出力しない。HTML解析するモジュールがうまくいっていない様子。(look down構文で検索結果がなければプログラム止まる?)また,while文もうまく判定できていない…。
teratail.pl(HTML解析コード)
perl
1use strict; 2use warnings; 3use HTML::TreeBuilder; 4 5&html_in_tsv_out("test1"); 6&html_in_tsv_out("test2"); 7 8sub html_in_tsv_out{ 9 10my $filename = $_[0]; 11my $tree = new HTML::TreeBuilder; 12$tree->parse_file( "$filename.htm" ); 13$tree->eof(); 14 15my $i=0; #データ行数 16my $flag=0; #行数判定 17my @A; 18open (_FILE ,">","$filename.tsv"); 19open (FILE ,"+>>","$filename.tsv"); 20 21while($flag==0){ 22 23 my $a=0; #行データの格納番号 24 @A=(); #@A初期化 25 26 for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_res") ){ 27 $A[$a]= $tag->as_text,; 28 print FILE "$A[$a] "; 29 $a++; } 30 for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_ran _ranking_item_color") ){ 31 $A[$a]= $tag->as_text,; 32 print FILE "$A[$a] "; 33 $a++; 34 } 35 36 print FILE "\n"; 37 38 print "@A\n"; 39 $i++; 40 if($A[0] eq ""){ 41 $flag++; 42 } 43 print "$i\n"; 44 45} 46 47} 48
test1.htm(解析対象)
HTML
1<!DOCTYPE html> 2 3<tr class="_odd_data" data-point-index="0"> 4<td class="w_res">12/03 11時</td> 5<td class="w_ran _ranking_item_color">745435</td> 6</tr> 7 8<tr class="_odd_data" data-point-index="1"> 9<td class="w_res">12/04 11時</td> 10<td class="w_ran _ranking_item_color">343609</td> 11</tr> 12 13<tr class="_odd_data" data-point-index="2"> 14<td class="w_res">12/05 11時</td> 15<td class="w_ran _ranking_item_color">428533</td> 16</tr> 17 18</html>
test2.htm(解析対象)
HTML
1<!DOCTYPE html> 2 3<tr class="_odd_data" data-point-index="0"> 4<td class="w_res">12/03 11時</td> 5<td class="w_ran _ranking_item_color">7775</td> 6</tr> 7 8<tr class="_odd_data" data-point-index="1"> 9<td class="w_res">12/04 11時</td> 10<td class="w_ran _ranking_item_color">37719</td> 11</tr> 12 13<tr class="_odd_data" data-point-index="2"> 14<td class="w_res">12/05 11時</td> 15<td class="w_ran _ranking_item_color">453</td> 16</tr> 17 18</html>
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2017/12/03 07:43