質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Q&A

解決済

1回答

8505閲覧

[PHP] wiki記法の文章中のFile:タグから、説明文のみを抽出したい

maresuke

総合スコア16

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

0グッド

0クリップ

投稿2016/07/19 14:10

使用言語はPHPで、現在、webスクレイピングの勉強をしています。

wikipediaの記事中、主に画像の説明などで次のような記法が使われているのを目にします。

[[File:Mōko Shūrai Ekotoba 2.jpg|thumb|Samurai warriors facing Mongols during the [[Mongol invasions of Japan]]; [[Takezaki Suenaga|Suenaga]], 1293]]
[[File:Breakfast at Tamahan Ryokan, Kyoto.jpg|thumb|right|Breakfast at a ''[[Ryokan (Japanese inn)|ryokan]]'' or inn]]

wikipediaのwiki記法で書かれた文字列から、preg_match_allなどを使用して、
$result=Array(
Array(
[0]=>"[[File:Mōko Shūrai Ekotoba 2.jpg|thumb|Samurai warriors facing Mongols during the [[Mongol invasions of Japan]]; [[Takezaki Suenaga|Suenaga]], 1293]]",
[1]=>"Samurai warriors facing Mongols during the [[Mongol invasions of Japan]]; [[Takezaki Suenaga|Suenaga]], 1293"
),
Array(
[0]=>"[[File:Breakfast at Tamahan Ryokan, Kyoto.jpg|thumb|right|Breakfast at a ''[[Ryokan (Japanese inn)|ryokan]]'' or inn]]",
[1]=>"Breakfast at a ''[[Ryokan (Japanese inn)|ryokan]]'' or inn"
)
);
のような感じでfileタグと対応する説明文を取り出したいです。

最初は正規表現で'/([[.+?]])/'と試しましたが説明文中にも[[]]タグがあるためうまくいかず、"|"でexplodeして最後の要素を使用しようとしても、説明文中に[[Ryokan (Japanese inn)|ryokan]]のような表現があると、うまく解析できません。

どなたか上の配列のような結果を導くことができる方法を教えていただけないでしょうか。

よろしくお願いします。

※ちなみに上のfileタグは"https://en.wikipedia.org/w/index.php?title=Japan&action=edit"から使わせていただきました。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

'/(\n[[file:.+?]]\n)/'
前後に改行が必ずある場合こうなります。
'/([[file:.+?]]\n)/'
最後に改行が必ずある場合はこうなります。

こちら実行環境がないので動作させてみてください。

投稿2016/07/19 16:23

intelf___

総合スコア868

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

maresuke

2016/07/19 22:02

なるほどです。改行で区切ればよかったのですね。 うまくできました。ありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問