質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

解決済

1回答

1219閲覧

スクレイピングのaタグ置換について

退会済みユーザー

退会済みユーザー

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2019/01/09 02:19

以前、スクレイピングについて質問した者です。(以下URL)
https://teratail.com/questions/142411

スクレイピングをする際に相対パスを絶対パスに、ということでその際は「aタグの置換」にて解決したのですが、今度は相対パスではなく絶対パスで記載されているリンクにもaタグが置換されてしまいました。

相対パスの場合に「../」に置換するURL:http://other.com/
抽出しているリンクのURL:http://tetetete.com/news/index.html
自サイトで表示されるリンクのURL:other.com/http://tetetete.com/news/index.html

相対パスは絶対パスにしつつ、絶対パスにはURLを置換しない方法はありますか?
よろしければご教授いただけますと幸いです。

現時点でのソースコード

<!--PHP Simple HTML DOM Parserによる読み込み/http://other.comからトピックス3件を抽出--> <div class="topix"> <?php include('simple_html_dom.php'); $html = file_get_html('http://other.com'); $url = "http://other.com"; $abslink = dirname($url) ."/". $link; $base = "http://other.com"; echo '<div class="text">'; // 日付 $out = $html->find('#stage #contents .main-contents tr .list table tr td',0); echo $out-> outertext; echo ' '; // トピックスタイトル(ここにリンクが貼られる) $out = $html->find('#stage #contents .main-contents tr .list table tr td',1); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; echo '<div class="text">'; $out = $html->find('#stage #contents .main-contents tr .list table tr td',2); echo $out-> outertext; echo ' '; $out = $html->find('#stage #contents .main-contents tr .list table tr td',3); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; echo '<div class="text">'; $out = $html->find('#stage #contents .main-contents tr .list table tr td',4); echo $out-> outertext; echo ' '; $out = $html->find('#stage #contents .main-contents tr .list table tr td',5); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; ?> <!--読み込みここまで--> </div>

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

前のBestAnswerからもってきて追記しました。最初の4文字がhttpかどうかで区別できるのでは?

php

1// トピックスタイトル(ここにリンクが貼られる) 2$out = $html->find('#stage #contents .main-contents tr .list table tr td',1); 3if(mb_strpos($out->outertext, 'href="http') === false ) { 4 echo str_replace('href="', 'href="'.$base, $out-> outertext); 5} else { 6 echo $out->outertext; 7} 8echo '</div>';

投稿2019/01/09 02:25

編集2019/01/09 08:10
papinianus

総合スコア12705

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

shinobu_osaka

2019/01/09 02:26

いらないとは思えますけどftp://とかも考慮すると "://" を含まない、でもいいかもですね~。
退会済みユーザー

退会済みユーザー

2019/01/09 02:44

>papinianus様 ご回答頂きましてありがとうございます。試してみましたが、URLに変化ありませんでした… 最初の4文字がhttpである必要があるならば、リンク先が「https」であった場合も適応されますよね?
papinianus

2019/01/09 02:48

はい。httpsもあると考えて4文字にしています。 デバッグのためには、私が追記したifの手前で > echo substr($out->outertext, 0, 4); などとすると良いかもしれません。
退会済みユーザー

退会済みユーザー

2019/01/09 03:07

>papinianus様 お返事ありがとうございます。 $out = $html->find('#stage .contents .left_contents #topics #topics_list table tr td',5); echo substr($out->outertext, 0, 4); if(substr($out->outertext, 0, 4) !== "http" ) { echo str_replace('href="', 'href="'.$base, $out-> outertext); } else { echo $out->outertext; } echo '</div>'; こんな感じでしょうか。(無知で申し訳ありません)
papinianus

2019/01/09 03:19

おそらくそうだと思います(なので無知ではないです) そうしたときに、echo substrした結果はどう画面に表示されましたか?
退会済みユーザー

退会済みユーザー

2019/01/09 03:56

>papinianus様 お返事ありがとうございます! 画面は正常(日付とお知らせタイトルが表示される)ですが、やはりリンクはhttp://other.com/http://tetetete.com/news/index.html といったようにリンクが置換されてしまいました。
papinianus

2019/01/09 04:45

そのリンクの付近に、substrして、echoした文字が4文字出ていませんか?ifがないので必ず出力されるはずなんですが。
退会済みユーザー

退会済みユーザー

2019/01/09 06:59

>papinianus様 お返事ありがとうございます。リンクの付近や画面に4文字は特に出ていません… 画面表示は 2019.00.00 お知らせを更新しました。 2019.00.00 ○〇〇を更新しました。 2019.00.00 ✕✕×を更新しました。 という感じです。 (※タイトルにリンクが貼られています)
papinianus

2019/01/09 07:08

$out = $html->find('#stage .contents .left_contents #topics #topics_list table tr td',5); echo "<hr>"; var_dump(substr($out->outertext, 0, 4)); echo "<hr>"; if(substr($out->outertext, 0, 4) !== "http" ) { echo str_replace('href="', 'href="'.$base, $out-> outertext); } else { echo $out->outertext; } echo '</div>'; などとすると水平線が出力されて強調されるのですがいかがでしょうか?いずれにしても、$out->outertextにurlが入っていて動作するはずなんですが。
退会済みユーザー

退会済みユーザー

2019/01/09 07:40

>papinianus様 お返事ありがとうございます。いただいたコードに修正してみた結果、ニュースタイトルも右側に<string(4) ">という文字が現れました。 2019.00.00 string(4) "お知らせを更新しました。 という感じです。
papinianus

2019/01/09 07:45

string(4) のあとに"でかこまれた4文字はないですか?string(4) "http"となるのを期待してますが何かないですか?
papinianus

2019/01/09 07:48 編集

trim($out->outertext)にかえたらいかがでしょうか。substr(trim($out->outertext),0,4)あるいはvar_dump(substr(trim($out->outertext),0,4))のようにです。
退会済みユーザー

退会済みユーザー

2019/01/09 08:00

>papinianus様 実行ページのソースコードにて、string(4) のあとに "<td " という文字がありました。もしやこの部分が「4文字」と認識されているのでしょうか? <hr>string(4) "<td " <hr><td><a href="http://other.com/http://tetetete.com/news/index.html">お知らせを更新しました。</a></td> というようになっておりました。
papinianus

2019/01/09 08:05

あーそういう構造でしたか。 > この部分が「4文字」 そのとおりです。 では、回答を修正します。
papinianus

2019/01/09 08:09

修正しました。文字列にhref="httpを含まなければ、replace、という風にかえました。
退会済みユーザー

退会済みユーザー

2019/01/09 08:30

!!!!!!!!!!!!できました!!!!!!!!!!! papinianus様、拙い説明など大変ご迷惑をおかけいたしました。長い時間お付き合いいただきまして本当に本当にありがとうございました!!
papinianus

2019/01/09 08:33

よかったです。ものわかりわるくてすみません。
退会済みユーザー

退会済みユーザー

2019/01/10 00:14

papinianus様、こちらこそ、最初から実行ページのソースコードもお見せするべきでした。大変お手数をおかけいたしました。重ね重ねになりますが本当にありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問