質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

解決済

BeautifulSoupオブジェクトのファイル出力方法を教えてください。

MHU_ME
MHU_ME

総合スコア8

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

3回答

0評価

0クリップ

163閲覧

投稿2022/06/18 04:37

Beautifulsoupでタグの中身を置換(imgのリンクをローカルにダウンロードしたファイルに置換)した結果を出力しようとしています。

タグの中身は置換できたのですが、それを出力する方法が分からず、困っています。

url="GetしたいURL" html_text = requests.get(url).text soup = BeautifulSoup(html_text, 'html.parser') #img Srcを取得 srcs = [] save_path = './images/' # 画像の拡張子が、.jpg, .png, jpeg いずれの場合も取得 for link in soup.find_all('img'): if link.get('src').endswith('.jpg'): srcs.append(link.get('src')) elif link.get('src').endswith('.png'): srcs.append(link.get('src')) elif link.get('src').endswith('.jpeg'): srcs.append(link.get('src')) # ローカルにファイル保存 for i, image in enumerate(srcs): re = requests.get(image) i += 100 with open(save_path + f'{i}' + "." + image.split('.')[-1], 'wb') as f: f.write(re.content) # ここもスマートなやり方があれば....(なんかPythonっぽくないやり方になってます) i=100 for link in soup.find_all('img'): fn=save_path + f'{i}' + ".jpg" link.attrs['src']=fn i=i+1 # これは出力できる print(soup.prettify) f=open("output.htm","wb") # これが出力できない f.write(soup) # HTMLの情報が抜けてしまい、本文テキストだけになる f.write(soup.text) f.close()

soupオブジェクトそのものをwriteするにはどのように指定すれば良いのでしょうか?
あるいは、他にもっとスマートなやり方があれば教えてください。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Beautiful Soup

Beautiful Soupは、Pythonのライブラリの一つ。スクレイピングに特化しています。HTMLデータの構文の解析を行うために、HTMLタグ/CSSのセレクタで抽出する部分を指定することが可能です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。