(Python) 複数のcsvファイル内の指定列のみを結合する方法他

実施したいこと
フォルダ内に存在する複数のcsvファイルの任意の列を抽出して結合したいと考えています。
コードの流れは以下の通りかと考えています。
ここで列1だけを0列目に配置するやりかたがわかりません。

[作成したい結合後のcsvファイルの中身]

列1	sampleA	sampleB	sampleC
1	1000	1000	1000
2	2000	2000	2000
3	3000	3000	3000

現在の状況
下のようなcsvが現在出力されています。

sampleA	sampleB	sampleC
1000	1000	1000
2000	2000	2000
3000	3000	3000

補足情報
[フォルダの構成]
data
-sampleA.csv
-sampleB.csv
-sampleC.csv

※dataフォルダはDesktop直下にあります

[各csvファイルの中身]

列1	列2
1	1000
2	2000
3	3000

[現在のコード]

python
1import pandas as pd
2import os
3import glob
4
5#dataフォルダ内の.csvファイル一覧を取得
6data_path    = os.path.abspath(r"C:/Users/Username/Desktop/data")
7csvfile_path = glob.glob(data_path + '/*.csv')
8
9#csvファイルの中身を追加していくリストを用意
10total_list = []
11df         = []
12
13#読み込むファイルのリストを走査
14for filename in csvfile_path:
15    csvfile      = pd.read_csv(filename)
16    csvfile_drop = csvfile.drop(csvfile.columns[[0, 1]], axis='columns')
17    csvfile_drop = csvfile_drop.rename(columns={'列2':filename})
18    total_list.append(csvfile_drop)
19    df = pd.concat(total_list, axis=1)
20
21#total.csvとして出力
22df.to_csv("total.csv")

よろしくお願いします。

meg_

2020/12/15 00:24

> 途中でつまづき中々先に進めない状況です。質問のコードのどこでつまづいているのでしょうか？

sssan

2020/12/15 00:43

説明不足で申し訳ございません。まず、上記コードを実行すると ValueError: No objects to concatenate というエラーが出ます。宜しくお願い致します。

bsdfan

2020/12/15 01:31 編集

csvfilelist が空になっていませんか？ os.path.dirname を使っているのでDesktopにある*.csvを探していることになっています。

sssan

2020/12/15 01:37

os.path.dirnameでdataフォルダのpath名を取得し、 csvfilelist = glob.glob(csvfolder_path + '/*.csv')でdataフォルダ直下のcsvファイルを取得していることになっていませんでしょうか？宜しくお願い致します。

bsdfan

2020/12/15 01:50

それぞれの変数をprintして確認してみてください。 os.path.dirnameは、引数のファイル(ディレクトリ)の親ディレクトリを返します。今回の場合は、dataフォルダがあるフォルダ=Desktopを取り出していることになります。 https://docs.python.org/ja/3/library/os.path.html#os.path.dirname

meg_

2020/12/15 01:59 編集

> まず、上記コードを実行すると ValueError: No objects to concatenate というエラーが出ます。どこでエラーが発生しているかも含め質問に追記しましょう。

sssan

2020/12/15 04:43

→bsdfan様、meg様現在の状況を更新しました。お手数をおかけしますが宜しくお願い致します。 →bsdfan様仰る通りdataフォルダを抽出していました。修正したところ無事csvファイルを読み込むことができました。 →meg様エラーの詳細を記述しておらず申し訳ありませんでした。ValueError: No objects to concatenateについてはpathを変更することで解決できました。

meg_

2020/12/15 05:25

下記は不要では？ csvfile_name = os.path.basename(csvfile_name)

sssan

2020/12/15 07:22

→meg様仰る通りos.path.basenameは不要で、for filename in csvfile_path:のfilenameを使用すれば大丈夫でした。結合後に列1だけを0列目に配置するやりかたはわかりますでしょうか？お手数をおかけしますが宜しくお願い致します。

行動規範の内容に同意します

回答1件

ベストアンサー

一列目のデータによるのですが、一列目をインデックスにしてすべてを結合してから、リセットするのはどうでしょうか。

python
1total_list = []
2
3# 読み込むファイルのリストを走査
4for filename in csvfiles:
5    csvfile = pd.read_csv(filename, index_col=0)
6    total_list.append(csvfile.rename(columns={'列2':filename}))
7
8# ループが終わってから結合
9df = pd.concat(total_list, axis=1).reset_index()
10
11#total.csvとして出力
12print(df.head())
13df.to_csv("total.csv")