質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

解決済

スクレイピングのaタグ置換について

退会済みユーザー

退会済みユーザー

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

1回答

0リアクション

0クリップ

993閲覧

投稿2019/01/09 02:19

以前、スクレイピングについて質問した者です。(以下URL)
https://teratail.com/questions/142411

スクレイピングをする際に相対パスを絶対パスに、ということでその際は「aタグの置換」にて解決したのですが、今度は相対パスではなく絶対パスで記載されているリンクにもaタグが置換されてしまいました。

相対パスの場合に「../」に置換するURL:http://other.com/
抽出しているリンクのURL:http://tetetete.com/news/index.html
自サイトで表示されるリンクのURL:other.com/http://tetetete.com/news/index.html

相対パスは絶対パスにしつつ、絶対パスにはURLを置換しない方法はありますか?
よろしければご教授いただけますと幸いです。

現時点でのソースコード

<!--PHP Simple HTML DOM Parserによる読み込み/http://other.comからトピックス3件を抽出--> <div class="topix"> <?php include('simple_html_dom.php'); $html = file_get_html('http://other.com'); $url = "http://other.com"; $abslink = dirname($url) ."/". $link; $base = "http://other.com"; echo '<div class="text">'; // 日付 $out = $html->find('#stage #contents .main-contents tr .list table tr td',0); echo $out-> outertext; echo ' '; // トピックスタイトル(ここにリンクが貼られる) $out = $html->find('#stage #contents .main-contents tr .list table tr td',1); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; echo '<div class="text">'; $out = $html->find('#stage #contents .main-contents tr .list table tr td',2); echo $out-> outertext; echo ' '; $out = $html->find('#stage #contents .main-contents tr .list table tr td',3); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; echo '<div class="text">'; $out = $html->find('#stage #contents .main-contents tr .list table tr td',4); echo $out-> outertext; echo ' '; $out = $html->find('#stage #contents .main-contents tr .list table tr td',5); echo str_replace('href="', 'href="'.$base, $out-> outertext); echo '</div>'; ?> <!--読み込みここまで--> </div>

以下のような質問にはリアクションをつけましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

リアクションが多い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

2019/01/09 02:30

こちらの質問が他のユーザーから「過去の低評価」という指摘を受けました。

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。