質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

91.36%

  • HTML

    6183questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • Perl

    341questions

    Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

  • スクレイピング

    113questions

perl HTML:TreeBuilderでのHTML解析

解決済

回答 1

投稿 2017/12/03 13:58

  • 評価
  • クリップ 0
  • VIEW 44

Koh_

score 5

当方perl初心者です。
HTML:TreeBuilderでのHTML解析に試みています。どなたか解決の糸口をご教授ください…。

やりたいこと:
ローカルに保存したtest1.htmとtest2.htmからperlのHTML:TreeBuilderを用いてHTML解析を行い,解析結果をtsvファイルとして出力する。

問題:
以下のエラーが発生。
Can't call method "look_down" on an undefined value at teratail.pl line 26.
test1.htmの解析結果は出力するものの,test2.htmの解析結果を出力しない。HTML解析するモジュールがうまくいっていない様子。(look down構文で検索結果がなければプログラム止まる?)また,while文もうまく判定できていない…。

teratail.pl(HTML解析コード)

use strict;
use warnings;
use HTML::TreeBuilder;

&html_in_tsv_out("test1");
&html_in_tsv_out("test2");

sub html_in_tsv_out{

my $filename = $_[0];
my $tree = new HTML::TreeBuilder;
$tree->parse_file( "$filename.htm" );
$tree->eof();

my $i=0; #データ行数
my $flag=0; #行数判定
my @A;
open (_FILE ,">","$filename.tsv");
open (FILE ,"+>>","$filename.tsv");

while($flag==0){

    my $a=0; #行データの格納番号
    @A=(); #@A初期化

    for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_res") ){
    $A[$a]= $tag->as_text,;
    print FILE "$A[$a]    ";
    $a++;    }
    for my $tag ( $tree->look_down("data-point-index","$i")->look_down("class","w_ran _ranking_item_color") ){
    $A[$a]= $tag->as_text,;
    print FILE "$A[$a]    ";
    $a++;
    }

    print FILE "\n";

    print "@A\n";
    $i++;
    if($A[0] eq ""){
        $flag++;
    }
    print "$i\n";

}

}

test1.htm(解析対象)

<!DOCTYPE html>

<tr class="_odd_data" data-point-index="0">
<td class="w_res">12/03 11時</td>
<td class="w_ran _ranking_item_color">745435</td>
</tr>

<tr class="_odd_data" data-point-index="1">
<td class="w_res">12/04 11時</td>
<td class="w_ran _ranking_item_color">343609</td>
</tr>

<tr class="_odd_data" data-point-index="2">
<td class="w_res">12/05 11時</td>
<td class="w_ran _ranking_item_color">428533</td>
</tr>

</html>


test2.htm(解析対象)

<!DOCTYPE html>

<tr class="_odd_data" data-point-index="0">
<td class="w_res">12/03 11時</td>
<td class="w_ran _ranking_item_color">7775</td>
</tr>

<tr class="_odd_data" data-point-index="1">
<td class="w_res">12/04 11時</td>
<td class="w_ran _ranking_item_color">37719</td>
</tr>

<tr class="_odd_data" data-point-index="2">
<td class="w_res">12/05 11時</td>
<td class="w_ran _ranking_item_color">453</td>
</tr>

</html>
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

$flagの使い方がおかしく、正しくフラグとして機能しないため、存在しないtagを解析しようとしてエラーが出ていると思います。

$tree->look_down("data-point-index","$i")->look_down("class","w_res")


処理が進むと、ここでlook_down("data-point-index","4")などというのを評価しようとしてしまいます。存在しないので、$tree->look_down("data-point-index","$i")は未定義になります。未定義なオブジェクトに対してlook_down("class","w_res")を呼び出そうとするため「そんなメソッドはない」と言われてしまいます。これがエラーメッセージが出る直接的な原因と思われます。

もう少し見ていくと、フラグの使い方というより、@Aの使い方が怪しいです。そもそも、データを配列にため込む必要がなさそうです。
ということで、最上位のwhileの終了はlook_down("data-point-index","$i")が成功するかどうかを直接チェックすることで行うことにすると、ざっくり次のような感じになると思います。元ソースのwhile($flag==0)以下を示します。

# while ($flag==0) {
  while(my $tag = $tree->look_down("data-point-index","$i")){

    for my $tag1 ($tag->look_down("class","w_res") ){
        my $t = $tag1->as_text;
        print FILE "$t    ";
    }

    for my $tag1 ( $tag->look_down("class","w_ran _ranking_item_color") ) {
        my $t = $tag1->as_text;
        print FILE "$t    ";
    }

    print FILE "\n";

    $i++;

  }

投稿 2017/12/03 15:37

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/12/03 16:43

    さっそくの回答ありがとうございます!
    問題点が理解できました!

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

ただいまの回答率

91.36%

関連した質問

同じタグがついた質問を見る

  • HTML

    6183questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • Perl

    341questions

    Perlは多目的に使用される実用性が高い動的プログラミング言語のひとつです。

  • スクレイピング

    113questions