python3系,BeautifulSoup4でHTMLの解析を行っています.
対象テキストにどのようなマルチメディア(画像,動画,音楽)が存在するかを確認したいと考えています.
そこでテキスト内のメディアの拡張子を取得したいのですが,
どうのようにしたらよいのかわからず困っています.
どの拡張子が使われているかは未知なので,メディアを埋め込むタグを取得し,
そこから・・・という流れかなとは考えているのですが,
メディアを埋め込むタグも特定されていない状態ですので,よい方法が思いつきません.
どなたか教えていただけませんか.
以下のようにimgやsrcを指定することでメディアまで到達できますが,
上記でも書いたようにタグや属性は多くの種類があると思うのでそれをなんとか収集したいのです.
python
1>>> tag=soup.find('img') 2>>> tag 3<img alt="" border="0" height="19" src="j/img/copyright.gif" width="258"> 4</img> 5 6 7>>> tag['src'] 8'j/img/copyright.gif'
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。