質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

1回答

1676閲覧

HTML解析

cho

総合スコア23

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2015/10/06 08:20

python3系,BeautifulSoup4でHTMLの解析を行っています.
対象テキストにどのようなマルチメディア(画像,動画,音楽)が存在するかを確認したいと考えています.
そこでテキスト内のメディアの拡張子を取得したいのですが,
どうのようにしたらよいのかわからず困っています.

どの拡張子が使われているかは未知なので,メディアを埋め込むタグを取得し,
そこから・・・という流れかなとは考えているのですが,
メディアを埋め込むタグも特定されていない状態ですので,よい方法が思いつきません.

どなたか教えていただけませんか.

以下のようにimgやsrcを指定することでメディアまで到達できますが,
上記でも書いたようにタグや属性は多くの種類があると思うのでそれをなんとか収集したいのです.

python

1>>> tag=soup.find('img') 2>>> tag 3<img alt="" border="0" height="19" src="j/img/copyright.gif" width="258"> 4</img> 5 6 7>>> tag['src'] 8'j/img/copyright.gif'

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ページ内に表示されているメディアファイルは、当該ページのHTML内に記述されているものだけでなく、JavascriptやCSSで表示されているものもあるため、pythonとbeatifulsoupのみでウェブページ内で利用されているメディアの種類を厳密に列挙するのは難しいと思われます。

厳密でなくて良いならば、例に挙げられているように"img", "embed", "video", "iframe", "bgsound"等のタグをパースする。もしくは、".png", ".jpg", ".mp4", ".ogg"等の拡張子を探す、のどちらかのアプローチになるかと思われます。

厳密にやりたいならば、seleniumやPhantom JS等のJavascriptも解釈できるツールを利用して、ページでロードされたファイルの一覧からメディアファイルを探すのが良いのではないでしょうか。

投稿2015/10/08 14:15

yura

総合スコア61

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問