HTML解析

python3系，BeautifulSoup4でHTMLの解析を行っています．
対象テキストにどのようなマルチメディア(画像，動画，音楽)が存在するかを確認したいと考えています．
そこでテキスト内のメディアの拡張子を取得したいのですが，
どうのようにしたらよいのかわからず困っています．

どの拡張子が使われているかは未知なので，メディアを埋め込むタグを取得し，
そこから・・・という流れかなとは考えているのですが，
メディアを埋め込むタグも特定されていない状態ですので，よい方法が思いつきません．

どなたか教えていただけませんか．

以下のようにimgやsrcを指定することでメディアまで到達できますが，
上記でも書いたようにタグや属性は多くの種類があると思うのでそれをなんとか収集したいのです．

python
1>>> tag=soup.find('img')
2>>> tag
3<img alt="" border="0" height="19" src="j/img/copyright.gif" width="258">
4</img>
5
6
7>>> tag['src']
8'j/img/copyright.gif'

行動規範の内容に同意します

回答1件

ベストアンサー

ページ内に表示されているメディアファイルは、当該ページのHTML内に記述されているものだけでなく、JavascriptやCSSで表示されているものもあるため、pythonとbeatifulsoupのみでウェブページ内で利用されているメディアの種類を厳密に列挙するのは難しいと思われます。

厳密でなくて良いならば、例に挙げられているように"img", "embed", "video", "iframe", "bgsound"等のタグをパースする。もしくは、".png", ".jpg", ".mp4", ".ogg"等の拡張子を探す、のどちらかのアプローチになるかと思われます。

厳密にやりたいならば、seleniumやPhantom JS等のJavascriptも解釈できるツールを利用して、ページでロードされたファイルの一覧からメディアファイルを探すのが良いのではないでしょうか。

投稿2015/10/08 14:15

yura

総合スコア61

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

HTML解析

関連した質問