質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Perl

Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

1回答

2964閲覧

perl HTML:TreeBuilderでのHTML解析

Koh_

総合スコア27

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Perl

Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2017/12/03 04:58

当方perl初心者です。
HTML:TreeBuilderでのHTML解析に試みています。どなたか解決の糸口をご教授ください…。

やりたいこと:
ローカルに保存したtest1.htmとtest2.htmからperlのHTML:TreeBuilderを用いてHTML解析を行い,解析結果をtsvファイルとして出力する。

問題:
以下のエラーが発生。
Can't call method "look_down" on an undefined value at teratail.pl line 26.
test1.htmの解析結果は出力するものの,test2.htmの解析結果を出力しない。HTML解析するモジュールがうまくいっていない様子。(look down構文で検索結果がなければプログラム止まる?)また,while文もうまく判定できていない…。

teratail.pl(HTML解析コード)

perl

1use strict; 2use warnings; 3use HTML::TreeBuilder; 4 5&html_in_tsv_out("test1"); 6&html_in_tsv_out("test2"); 7 8sub html_in_tsv_out{ 9 10my $filename = $_[0]; 11my $tree = new HTML::TreeBuilder; 12$tree->parse_file( "$filename.htm" ); 13$tree->eof(); 14 15my $i=0; #データ行数 16my $flag=0; #行数判定 17my @A; 18open (_FILE ,">","$filename.tsv"); 19open (FILE ,"+>>","$filename.tsv"); 20 21while($flag==0){ 22 23 my $a=0; #行データの格納番号 24 @A=(); #@A初期化 25 26 for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_res") ){ 27 $A[$a]= $tag->as_text,; 28 print FILE "$A[$a] "; 29 $a++; } 30 for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_ran _ranking_item_color") ){ 31 $A[$a]= $tag->as_text,; 32 print FILE "$A[$a] "; 33 $a++; 34 } 35 36 print FILE "\n"; 37 38 print "@A\n"; 39 $i++; 40 if($A[0] eq ""){ 41 $flag++; 42 } 43 print "$i\n"; 44 45} 46 47} 48

test1.htm(解析対象)

HTML

1<!DOCTYPE html> 2 3<tr class="_odd_data" data-point-index="0"> 4<td class="w_res">12/03 11時</td> 5<td class="w_ran _ranking_item_color">745435</td> 6</tr> 7 8<tr class="_odd_data" data-point-index="1"> 9<td class="w_res">12/04 11時</td> 10<td class="w_ran _ranking_item_color">343609</td> 11</tr> 12 13<tr class="_odd_data" data-point-index="2"> 14<td class="w_res">12/05 11時</td> 15<td class="w_ran _ranking_item_color">428533</td> 16</tr> 17 18</html>

test2.htm(解析対象)

HTML

1<!DOCTYPE html> 2 3<tr class="_odd_data" data-point-index="0"> 4<td class="w_res">12/03 11時</td> 5<td class="w_ran _ranking_item_color">7775</td> 6</tr> 7 8<tr class="_odd_data" data-point-index="1"> 9<td class="w_res">12/04 11時</td> 10<td class="w_ran _ranking_item_color">37719</td> 11</tr> 12 13<tr class="_odd_data" data-point-index="2"> 14<td class="w_res">12/05 11時</td> 15<td class="w_ran _ranking_item_color">453</td> 16</tr> 17 18</html>

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

$flagの使い方がおかしく、正しくフラグとして機能しないため、存在しないtagを解析しようとしてエラーが出ていると思います。

perl

1$tree->look_down("data-point-index","$i")->look_down("class","w_res")

処理が進むと、ここでlook_down("data-point-index","4")などというのを評価しようとしてしまいます。存在しないので、$tree->look_down("data-point-index","$i")は未定義になります。未定義なオブジェクトに対してlook_down("class","w_res")を呼び出そうとするため「そんなメソッドはない」と言われてしまいます。これがエラーメッセージが出る直接的な原因と思われます。

もう少し見ていくと、フラグの使い方というより、@Aの使い方が怪しいです。そもそも、データを配列にため込む必要がなさそうです。
ということで、最上位のwhileの終了はlook_down("data-point-index","$i")が成功するかどうかを直接チェックすることで行うことにすると、ざっくり次のような感じになると思います。元ソースのwhile($flag==0)以下を示します。

perl

1# while ($flag==0) { 2 while(my $tag = $tree->look_down("data-point-index","$i")){ 3 4 for my $tag1 ($tag->look_down("class","w_res") ){ 5 my $t = $tag1->as_text; 6 print FILE "$t "; 7 } 8 9 for my $tag1 ( $tag->look_down("class","w_ran _ranking_item_color") ) { 10 my $t = $tag1->as_text; 11 print FILE "$t "; 12 } 13 14 print FILE "\n"; 15 16 $i++; 17 18 } 19

投稿2017/12/03 06:37

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Koh_

2017/12/03 07:43

さっそくの回答ありがとうございます! 問題点が理解できました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問