質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

961閲覧

Python Webスクレイピング 画像を保存すると形式はpngなのにエクセルファイルになる。

pythonbegginer

総合スコア25

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

保存

保存(save)とは、特定のファイルを、ハードディスク等の外部記憶装置に記録する行為を指します。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/03/26 06:13

編集2020/03/26 06:15

Pythonを初めて数日の初心者で、プログラミングも勉強始めたばかりです。
最終的にWebスクレイピングができるようになりたいと思っています。

検索してもわからなく、つまづいているので詳しい方教えて下さいm(__)m

※Windows10のコマンドプロンプトから実行しています。
※Webスクレイピングの規約は確認しています。

★やりたいこと★

Webスクレイピングで取得した画像を指定のフォルダに保存したい。

■問題■
タグなどを取得しファイルに保存はできたのですが、ファイル形式はpngになっているのですが、エクセルファイルになっており、開くと文字化けした文字がバーッと書いてあります。どこをどう修正していいかわかりません。
イメージ説明

■参考にしているサイト■
https://hashikake.com/scraping_img#source

★使用しているコード★

Python

1#●画像ファイルをダウンロードするための準備 2# ①-①.ライブラリをインポート 3import time 4import re 5import requests 6from pathlib import Path 7from bs4 import BeautifulSoup 8# ①-②.出力フォルダを作成 9output_folder = Path('C:\python\img') 10output_folder.mkdir(exist_ok=True) 11# ①-③.スクレイピングしたいURLを設定 12url = 'https://www.irasutoya.com/search?q=%E7%8C%AB' 13# ①-④.画像ページのURLを格納するリストを用意 14linklist = [] 15 16#●検索結果ページから画像のリンクを取り出す 17# ②-①.検索結果ページのhtmlを取得 18html = requests.get(url).text 19# ②-②.検索結果ページのオブジェクトを作成 20soup = BeautifulSoup(html, 'lxml') 21# ②-③.画像リンクのタグをすべて取得 22a_list =soup.select('div.boxmeta.clearfix > h2 > a') 23# ②-④.画像リンクを1つずつ取り出す 24for a in a_list: 25# ②-⑤.画像ページのURLを抽出 26 link_url = a.attrs['href'] 27# ②-⑥.画像ページのURLをリストに追加 28 linklist.append(link_url) 29 time.sleep(1.0) 30 31# ●各画像ページから画像ファイルのURLを特定 32# ③-①.画像ページのURLを1つずつ取り出す 33for page_url in linklist: 34# ③-②.画像ページのhtmlを取得 35 page_html = requests.get(page_url).text 36# ③-③.画像ページのオブジェクトを作成 37 page_soup = BeautifulSoup(page_html, "lxml") 38# ③-④.画像ファイルのタグをすべて取得 39 img_list = page_soup.select('div.entry > div > a > img') 40# ③-⑤.imgタグを1つずつ取り出す 41 for img in img_list: 42# ③-⑥.画像ファイルのURLを抽出 43 img_url = (img.attrs['src']) 44# ③-⑦.画像ファイルの名前を抽出 45 filename = re.search(".*/(.*png|.*jpg)$",img_url) 46# ③-⑧.保存先のファイルパスを生成 47 save_path = output_folder.joinpath(filename.group(1)) 48 time.sleep(1.0) 49# ●画像ファイルのURLからデータをダウンロード 50 try: 51# ④-①.画像ファイルのURLからデータを取得 52 image = requests.get(img_url) 53# ④-②.保存先のファイルパスにデータを保存 54 open(save_path, 'wb').write(image.content) 55# ④-③.保存したファイル名を表示 56 print(save_path) 57 time.sleep(1.0) 58 except ValueError: 59# ④-④.失敗した場合はエラー表示 60 print("ValueError!")

宜しくお願いしますm(__)m

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hayataka2049

2020/03/26 06:19

print(save_path) の結果はどんな感じで表示されますか?
pythonbegginer

2020/03/26 06:24

こんなかんじになります↓ 29749 C:\python\img\cat01_moyou_black.png 21640 C:\python\img\cat02_moyou_white.png 26693 C:\python\img\cat03_moyou_gray.png 29026 C:\python\img\cat04_moyou_black_moyou_white.png ・ ・ ・ 宜しくお願いします。
guest

回答2

0

pngファイルを開く既定のプログラムがExcelになっているだけではないですか?

投稿2020/03/26 06:18

mistn

総合スコア1191

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pythonbegginer

2020/03/26 06:27

わ。。すいませんすごい恥ずかしいですね。そうでした。涙。お騒がせしました。
guest

0

ベストアンサー

設定>>アプリ>>規定のアプリ>>ファイルの種類ごとに規定のアプリを選ぶ
から.pngの規定アプリをフォトに変更してください。

または、ファイルを右クリック>>プログラムから開くで任意のプログラムから開く、及び規定のプログラムへの設定も可能となっています。

投稿2020/03/26 06:23

nto

総合スコア1438

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

pythonbegginer

2020/03/26 06:28

その通りでした(´;ω;`)。。やり方まで教えていただきありがとうございますm(__)m治りました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問