質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

解決済

4回答

2196閲覧

PHP: 正規表現でスラッシュから始まるソースが取得できません。

Nippun

総合スコア1147

HTML5

HTML5 (Hyper Text Markup Language、バージョン 5)は、マークアップ言語であるHTMLの第5版です。

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

0クリップ

投稿2017/08/03 23:02

編集2017/08/04 01:07

以前にも似たような質問をしたのですが、新たにわからない部分があるので質問させていただきます。

PHPでHTMLからimg srcを抽出をしようとしているのですがhttps...jpg, https...jpgは取得できるのですが/hoge/hogehoge...jpgのようにイメージソースが/(スラッシュ)から始まる場合はうまく取得できません。

<img src="http://www.harvard.edu/sites/default/files/feature_item_media/MRI_brain_sagittal_section-w.jpg" alt="MRI scan of a brain" class="img-lg"/> コード

上記の場合はこのようにうまく取得できます。

http://www.harvard.edu/sites/default/files/feature_item_media/MRI_brain_sagittal_section-w.jpg

ですが下記のようなスラッシュから始まる場合だと何も取得できません。

<img typeof="foaf:Image" src="/files/images/news/2017/HP-Instant-Retouch.jpg" width="639" height="426" alt="Innovators use functional fabrics to hack emergency response" /> コード

正規表現はこのようにしています。

preg_match_all('/[src|srcset]\s*=\s*[\'|\"]\s*(.*?(\.jpg|\.jpeg|\.gif|\.png))/i', $htmlSource, $res); コード

具体的なコード

$URL = "http://web.mit.edu"; image($URL); echo "\n"; function image($targetUrl ){ // get html resourse $htmlSource = @file_get_contents( $targetUrl ); if ( $htmlSource ){ // image file preg_match_all('/[src|srcset]\s*=\s*[\'|\"]\s*(.*?(\.jpg|\.jpeg|\.gif|\.png))/i', $htmlSource, $res); if ( isset( $res[1] ) ){ foreach( $res[1] as $targetImgUrl ) { // file names $fileNameTmp = explode( '/', $targetImgUrl); $fileNameTmp = array_reverse( $fileNameTmp); $fileName = $fileNameTmp[0]; // save image $imgData = @file_get_contents($targetImgUrl); if ($imgData){ @file_put_contents(image.$fileName, $imgData); } } } } } ?> コード

どのようにすればhttp及びスラッシュから始まるsrcを取得することが出来ますか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ベストアンサー

ん?何も取れないということはないようですが。

PHP

1<?php 2$htmlSource = '<img typeof="foaf:Image" src="/files/images/news/2017/HP-Instant-Retouch.jpg" width="639" height="426" alt="Innovators use functional fabrics to hack emergency response" />'; 3preg_match_all('/src\s*=\s*[\"|\'](.*?(\.jpg|\.jpeg|\.gif|\.png))"/i', $htmlSource, $res); 4var_dump($res); 5?> 6 7array(3) { 8 [0]=> 9 array(1) { 10 [0]=> 11 string(52) "src="/files/images/news/2017/HP-Instant-Retouch.jpg"" 12 } 13 [1]=> 14 array(1) { 15 [0]=> 16 string(46) "/files/images/news/2017/HP-Instant-Retouch.jpg" 17 } 18 [2]=> 19 array(1) { 20 [0]=> 21 string(4) ".jpg" 22 } 23}

投稿2017/08/04 00:38

ttyp03

総合スコア16996

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Nippun

2017/08/04 00:46

/files/images/news/2017/HP-Instant-Retouch.jpgのように/(スラッシュ)からjpgまでを取るようにするにはどうすればいいですか?
ttyp03

2017/08/04 00:47

$res[1]に取得できているようですが。
Nippun

2017/08/04 00:55

URLのHTMLをすべて読み込んでjpgを取得しようとするとできないのですがそれはなぜかわかりますか?
ttyp03

2017/08/04 01:02

問題なさそうですが、具体的にどこのURLのHTMLがダメなのか書いた方が早いと思います。
Nippun

2017/08/04 01:03

わかりました。 質問を内容を編集します。
Nippun

2017/08/04 01:07

編集しました。 お願いします。
ttyp03

2017/08/04 01:28

確認しました。 何をもってして取得できていないと言っているのでしょうか。 $fileNameを出力してみたところ、下記のように取得できているようですよ。 MIT_logo.gif mit_logo.gif HP-Cell-Moves.jpg HP-Hacking_0.jpg mit-women-technology-program-stem-gender-gap-00_0_0.jpeg A1-MIT-Extinction-Magma_0.jpg MIT-Inflation-Expectation.jpg mit_spotlight.jpg mit_logo.gif 取得できていないというのが、画像が保存できていない、ということであればそれはそうなります。 問題が2点あって、ひとつは取得されるURLは相対パスになっていること。 $res[1]に返されているのは相対パスなので、値としては "/files/images/homepage/default/mit_logo.gif” などになっています。 当然これをそのままfile_get_contentsに渡してもローカルを見てしまうので、URLと結合して渡す必要があります。 単純に file_get_contents($targetUrl . $targetImgUrl); としてみてください。 もうひとつは今の正規表現だとjsのコードも対象になってしまっているように見えるので、もう少し厳しく書いても良いかもしれません。 例えばこんな感じとか。 preg_match_all('/<img .*[src|srcset]\s*=\s*[\'|\"]\s*(.*?(\.jpg|\.jpeg|\.gif|\.png))/i', $htmlSource, $res);
Nippun

2017/08/04 01:34

ありがとうございます。 無事解決できました。
guest

0

こんにちは。

おそらく、http://www.harvard.eduでは画像が表示されるけど、
ttp://web.mit.eduでは画像が表示されないということかと。

それでしたら、http://www.harvard.eduでは、image srcにドメイン(http://www.harvard.edu/)が書いてあるのでアクセスできるが、http://web.mit.eduにはドメインが書いてないからアクセスできない事が原因です。
正規表現の問題ではないです。

image srcが「/」から始まる場合、サーバーは自分自身のディレクトリからファイルを探します。
つまり、http://web.mit.eduのHPで「/files/images/news/2017/HP-Instant-Retouch.jpg」があれば、「http://web.mit.edu/files/images/news/2017/HP-Instant-Retouch.jpg」として表示します。
(ブラウザでアクセスすると表示されると思います

なので、imag srcにドメイン(http://~)が書かれていない場合は
$targetUrlを足してやればいいのではないでしょうか?

投稿2017/08/04 01:31

s-washion

総合スコア204

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

s-washion

2017/08/04 01:32

すでにttyp03さんが的確な回答をされていました。
Nippun

2017/08/04 02:47

ありがとうございます。
guest

0

正規表現で苦戦する場合は、HTML文章からデータを抽出とのことで、多少処理負荷はかかるようになりますが、SymfonyのライブラリのDomCrawlerをComposerでインストールしてDOMの階層構造を解析して作業をするとjQueryのような感覚で要素の属性を抽出できるので悩まなくても済むかもしれません。
The DomCrawler Component
【PHP】 DOMCrawlerコンポーネントによるWebスクレイピング

投稿2017/08/04 01:39

aro10

総合スコア4106

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Nippun

2017/08/04 02:47

参考にさせていただきます。
guest

0

画像からという前提で

preg_match_all('/<img.src\s=\s*"|'>/i', $htmlSource, $res);

ではどうでしょうか。

投稿2017/08/03 23:21

g_k

総合スコア19

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Nippun

2017/08/03 23:50

うまくいかないです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問