質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

89.13%

Webスクレイピングで取得したデータを検索できるようにしたいです。

解決済

回答 1

投稿

  • 評価
  • クリップ 1
  • VIEW 2,271

tigaimasu

score 13

現在出てるエラー文です→Notice: Undefined offset: 0 in aaa.php on line 27

PHPでDOMでURLのページから要素を取り出す。
HTMLからその要素を検索し、キーワードがひっかかるものを検索という機能をつくりたいのですが、PHPの27行目にエラーがでてしまい解決できません。
改善点をぜひ、教えてください

<?php

$y = (isset($_GET["year"]));
include("simple_html_dom.php");                                                //DOM用ライブラリ読み込み
$url = "//ここにURL";                            //データ取得対象を指定
$dom = file_get_html($url);                                                //指定されたURLからデータを取得しDOMツリーに

$elem01 = $dom->find("#expert", 0)->find(".inner",0)->find("table",0);
foreach($elem01->find("td") as $item){
    var_dump($item->innertext);        
}


foreach($elem01->find("td") as $item){        
    $d = $item->find("innertext");                                            //HTMLの当該記事の日付部分を取得
    $tmp = array();                                                            //記事設定用の配列の初期化
    if(is_array($d)) $tmp["date"] = $d[0]->innertext;                        //日付を配列に
    $ts->add($tmp);                                                            //記事クラス作成(リストに追加)
}

echo(json_encode($ts));    
?>
<!DOCTYPE html>
<html>

<head>
<meta charset="utf-8">
<title></title>
<script src="https://ajax.googleapis.com/ajax/libs/jquery/1.12.3/jquery.min.js"></script>
<script>
$(document).ready(function(){
    $("#btn").click(function(){
        $("#output").html("");
        var url = "aaa.php?year=" + $("#y").val();
        $.ajax({url:url, dataType:"json", cache:false, success:function(j){ //通信成功時
            $.each(j["list"], function(i){
                //検索文字列に一致するかをここでチェックする
                if(this.title.indexOf($("#y").val()) != -1){
                    var src = (this.url) ? "<div>" + this.date + ">表示</a></div><hr>" : "<div>" + this.date  + "</div><hr>";
                    $("#output").append(src);
                }
            });
        }}).fail(function(res){    //通信失敗時のデバッグ用
            $("#output").html(res.responseText);
        });
    });
});
</script>
</head>

<body>
記事検索(キーワード指定):<input type="text" id="y"><br>                    
<input type="button" value="データ取得" id="btn">
<hr>
<div id="output"></div>
</body>

</html>
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+1

$d = $item->find("innertext");
$tmp = array();
if(is_array($d)) $tmp["date"] = $d[0]->innertext;
$ts->add($tmp);

この辺全体的におかしいですね… これだと<innertext>というHTMLタグをfindしてきていることになっちゃうのでは…


【蛇足】

Simple HTML DOM Parser は古いライブラリで非常に動作が遅いです.せっかくなので速い上に外部ライブラリが不必要な方法で回答してみます.

<?php
$y = (int)filter_input(INPUT_GET, 'year');
$dom = new DOMDocument;
@$dom->loadHTMLFile("ここにURL?y={$year}");
$xpath = new DOMXPath($dom);
$json = [];
foreach ($xpath->query('//*[@id="expert"]//*[@class="inner"][1]//table//td') as $i => $td) {
    $json[$i]['date'] = $td->nodeValue;
}
header('Content-Type: application/json; charset=UTF-8');
echo json_encode($json, JSON_UNESCAPED_UNICODE);
<!DOCTYPE html>
<meta charset="utf-8">
<title>Example</title>
<style>
[v-cloak] {
    visibility: hidden;
}
</style>

記事検索(キーワード指定): 
<input type="text" v-model="year"><br>
<input type="button" value="データ取得" @click="fetchData">

<hr>

<div id="output" v-cloak>
    <virtual v-for="item in list">
        <div v-if="item.url"><a href="{{item.url}}">{{item.date}}</a></div>
        <div v-else>{{item.date}}</div>
    </virtual>
</div>

<script src="https://cdnjs.cloudflare.com/ajax/libs/vue/1.0.20/vue.min.js"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/vue-resource/0.7.2/vue-resource.min.js"></script>
<script>
'use strict';

Vue.http.options.emulateJSON = true;

new Vue({
    el: '#output',
    data: {
        list: [],
    },
    methods: {
        fetchData: function () {
            this.list = [];
            this.$http.get('aaa.php', {
                year: year,
            }).then(function (response) {
                this.list = response.data;
            }, function (response) {
                this.list = [];
                console.error(response.data);
            });
        },
    }
});
</script>

(jQueryでやるのすごくダルそうだったのでVue.js使いました)

サイトの具体的なURLも提示されていないので動作確認できてませんが,大まかな流れはこんな感じでいいかと思います.

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 89.13%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる