質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.02%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

python スクレイピング ループごとに新規ファイルを作成する

c-man
c-man

総合スコア4

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

4回答

0グッド

0クリップ

146閲覧

投稿2023/01/23 06:58

編集2023/01/23 06:59

実現したいこと

以下のコードがあり既存CSVにURLがあり
そのURLからリンク先にデータ(リンクデータ)を取りに行ってます。
既存CSVから1つめのリンク先に遷移してデータを取りCSV(01.CSV)を作成して書き出しを行う、
次に既存CSVから2つめのリンク先に遷移してデータを取りCSV(02.CSV)を作成して書き出しを行う

・ループ実行ごとに新規CSVファイルが作成されそこにデータが書き出される
・2回ループが実行されれば2つのファイルが作成される
・ファイルに名はナンバーが記載される

上記のことを実現したいです。

該当のソースコード

import pandas as pd import os import time import datetime import csv import glob from bs4 import BeautifulSoup import requests df = pd.read_csv('C:\\Users\\thumb\\s1_dmm.csv', encoding="utf-8") with open('C:\\Users\\thumb\\s2_dmm.csv','a', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) for i in range(len(df)): # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df)

試したこと

ファイルにナンバーを振るなどの動作はできますが、
for文でループするごとにフ新規ァイルを書き出す方法がわからず試せていません。

やりたいことを実現できる情報などいただければと思います。
よろしくお願いいたします。

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

回答4

1

ループ毎にファイルを作成したいのであれば、ループ内にファイルの作成ロジックを組み込めばいいと思います。
この場合、for i in range(len(df)): の下に、with open ~ のブロックを入れればいいのではないでしょうか。

投稿2023/01/23 08:03

Demerara

総合スコア261

c-man👍を押しています

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

c-man

2023/01/23 09:25

以下のようにループ内にファイルの作成ロジックを組み込んだのですが、 ファイルがdmn04.csvしか作成できませんでした。 既存CSV に記載されている最後のデータからしかとれていないようです。 上書きされているのでしょうか。 df = pd.read_csv('C:\\Users\\thumb\\s0_thumb.csv', encoding="utf-8") files = glob.glob("*.csv") new_name = "dmn{0:03d}.csv".format(i + 1) for i in range(len(df)): with open(new_name,'w', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df) f.close()
Demerara

2023/01/23 10:53

with open("dmn{0:03d}.csv".format(i + 1) ,'w', encoding='utf-8' ,newline='') as f: とするか、 new_name = "dmn{0:03d}.csv" for i in range(len(df)): with open(new_name.format(i +1) ,'w', encoding='utf-8',newline='') as f: とすべきではないでしょうか

1

コードや現状の詳細動作は把握していませんが
with open('C:\\Users\\thumb\\s2_dmm.csv','a',~において
a(既存ファイルがあれば追記)ではなくw(既存ファイルがあっても新規作成)とするとよいでしょう。

投稿2023/01/23 07:08

can110

総合スコア36264

c-man👍を押しています

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

1

ベストアンサー

open(ファイル名) でファイルが作成されるので、ループごとにこのファイル名を変えながらopenすればよろしい

#んで、openしたファイルはcloseしよう

投稿2023/01/23 07:05

y_waiwai

総合スコア86031

c-man👍を押しています

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

c-man

2023/01/23 09:43

以下のようにループ内にファイルの作成ロジックを組み込んだのですが、 ファイルがdmn04.csvしか作成できませんでした。 既存CSV に記載されている最後のデータからしかとれていないようです。 上書きされているのでしょうか。 df = pd.read_csv('C:\\Users\\thumb\\s0_thumb.csv', encoding="utf-8") files = glob.glob("*.csv") new_name = "dmn{0:03d}.csv".format(i + 1) for i in range(len(df)): with open(new_name,'w', encoding='utf-8',newline='') as f: writer = csv.writer(f) writer.writerow(header1) # CSVデータのi行0列目のデータを取得 url = df.iloc[i, 4] list_head = df.iloc[i, 0:5] response = requests.get(url=url, headers=headers, cookies=cookie) html = response.content res = requests.get(url) res.raise_for_status() soup = BeautifulSoup(html, "html.parser") writer.writerow(list_head) for link in soup. find_all('img',class_='mg-b6'): print(link.get("src")) row = [link.get("src")] writer.writerow(row) print(df) f.close()
y_waiwai

2023/01/23 10:13

ファイル名を変えないと同じファイルを繰り返し作成するってことになります。 openのところで、どういう名前のファイルを作ってるのかprintするなどして確認してみては。

0

path = 'C:\Users\thumb\'
files = glob.glob(path+'*')

上記を加え以下で回すことで毎回違う名前でファイルを作成することで実現しました。

for i, f in enumerate(files): fname = 'dmn_' + str(i) + '.csv'

たくさんのアドバイスありがとうございました。

投稿2023/01/23 11:03

c-man

総合スコア4

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.02%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。