質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

4回答

561閲覧

python スクレイピング ループごとに新規ファイルを作成する

c-man

総合スコア5

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2023/01/23 06:58

編集2023/01/23 06:59

実現したいこと

以下のコードがあり既存CSVにURLがあり
そのURLからリンク先にデータ(リンクデータ)を取りに行ってます。
既存CSVから1つめのリンク先に遷移してデータを取りCSV(01.CSV)を作成して書き出しを行う、
次に既存CSVから2つめのリンク先に遷移してデータを取りCSV(02.CSV)を作成して書き出しを行う

・ループ実行ごとに新規CSVファイルが作成されそこにデータが書き出される
・2回ループが実行されれば2つのファイルが作成される
・ファイルに名はナンバーが記載される

上記のことを実現したいです。

該当のソースコード

import pandas as pd import os import time import datetime import csv import glob from bs4 import BeautifulSoup import requests df = pd.read_csv('C:\\Users\\thumb\\s1_dmm.csv', encoding="utf-8") with open('C:\\Users\\thumb\\s2_dmm.csv','a', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) for i in range(len(df)): # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df)

試したこと

ファイルにナンバーを振るなどの動作はできますが、
for文でループするごとにフ新規ァイルを書き出す方法がわからず試せていません。

やりたいことを実現できる情報などいただければと思います。
よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

ループ毎にファイルを作成したいのであれば、ループ内にファイルの作成ロジックを組み込めばいいと思います。
この場合、for i in range(len(df)): の下に、with open ~ のブロックを入れればいいのではないでしょうか。

投稿2023/01/23 08:03

Demerara

総合スコア397

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

c-man

2023/01/23 09:25

以下のようにループ内にファイルの作成ロジックを組み込んだのですが、 ファイルがdmn04.csvしか作成できませんでした。 既存CSV に記載されている最後のデータからしかとれていないようです。 上書きされているのでしょうか。 df = pd.read_csv('C:\\Users\\thumb\\s0_thumb.csv', encoding="utf-8") files = glob.glob("*.csv") new_name = "dmn{0:03d}.csv".format(i + 1) for i in range(len(df)): with open(new_name,'w', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df) f.close()
Demerara

2023/01/23 10:53

with open("dmn{0:03d}.csv".format(i + 1) ,'w', encoding='utf-8' ,newline='') as f: とするか、 new_name = "dmn{0:03d}.csv" for i in range(len(df)): with open(new_name.format(i +1) ,'w', encoding='utf-8',newline='') as f: とすべきではないでしょうか
guest

0

コードや現状の詳細動作は把握していませんが
with open('C:\\Users\\thumb\\s2_dmm.csv','a',~において
a(既存ファイルがあれば追記)ではなくw(既存ファイルがあっても新規作成)とするとよいでしょう。

投稿2023/01/23 07:08

can110

総合スコア38262

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

open(ファイル名) でファイルが作成されるので、ループごとにこのファイル名を変えながらopenすればよろしい

#んで、openしたファイルはcloseしよう

投稿2023/01/23 07:05

y_waiwai

総合スコア87749

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

c-man

2023/01/23 09:43

以下のようにループ内にファイルの作成ロジックを組み込んだのですが、 ファイルがdmn04.csvしか作成できませんでした。 既存CSV に記載されている最後のデータからしかとれていないようです。 上書きされているのでしょうか。 df = pd.read_csv('C:\\Users\\thumb\\s0_thumb.csv', encoding="utf-8") files = glob.glob("*.csv") new_name = "dmn{0:03d}.csv".format(i + 1) for i in range(len(df)): with open(new_name,'w', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df) f.close()
y_waiwai

2023/01/23 10:13

ファイル名を変えないと同じファイルを繰り返し作成するってことになります。 openのところで、どういう名前のファイルを作ってるのかprintするなどして確認してみては。
guest

0

path = 'C:\Users\thumb\'
files = glob.glob(path+'*')

上記を加え以下で回すことで毎回違う名前でファイルを作成することで実現しました。

for i, f in enumerate(files): fname = 'dmn_' + str(i) + '.csv'

たくさんのアドバイスありがとうございました。

投稿2023/01/23 11:03

c-man

総合スコア5

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問