質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

データバインディング

データソースと、アプリケーションやウェブページ(ウェブアプリケーション)のユーザインタフェースを静的または動的に結合する技術です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

920閲覧

既存のデータフレームに複数のCSVからデータを拾って、新しい列として加える

Ksaman

総合スコア1

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

データバインディング

データソースと、アプリケーションやウェブページ(ウェブアプリケーション)のユーザインタフェースを静的または動的に結合する技術です。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/05/14 16:35

まったくどうしたらいいのかわからない

サンプルとして以下のデータフレームがあると仮定します

# sample of my real data data = {'RequestCode':[1111, 2222, 8888, 1212, 2222,1010, 1111], 'Code':['J1', 'J2', 'J8', 'J12', 'J2', 'J10', 'J1'], 'OrderDate':[20210218, 20210303, 20210303, 20210515, 20210515, 20210218, 20210515]} # Create DataFrame df = pd.DataFrame(data) df RequestCode Code OrderDate 0 1111 J1 20210218 1 2222 J2 20210303 2 8888 J8 20210303 3 1212 J12 20210515 4 2222 J2 20210515 5 1010 J10 20210218 6 1111 J1 20210515

別のフォルダにたくさんのCSVファイルがあります
全部の名前がfile{date}.csvというルールに従えている
中身もすべて同じ列の数と列名 [Date, Code, Cost, Number]

例えばfile20210303.csvが

Date Code Cost Number 20200512 8888 500 32581 20200803 2222 1500 21669 20210501 1313 2000 5679

"file20210218.csv"は

Date Code Cost Number 20210512 1111 1500 66581 18200803 3333 1500 21669 20210501 1010 2000 5679

csvファイル名の{date}の部分がdfのOrderDateにあるのであれば、それを読み込んでcsvの"Code"列がdfの"RequestCode"列に等しいところのNumberの値をdfの新し列として追加したい。イメージとして下記のdfになるかな

df RequestCode Code OrderDate Number 0 1111 J1 20210218 66581 1 2222 J2 20210303 21669 2 8888 J8 20210303 32581 3 1212 J12 20210515 4 2222 J2 20210515 5 1010 J10 20210218 5679 6 1111 J1 20210515

一つだけのファイルなら

df1 = pd.read_csv('file20210303.csv') df = pd.merge(df, df1, how = 'left', left_on =['RequestCode', 'OrderDate'], right_on =['Code','Date']) df = df.drop(['Cost'], axis=1)

こんな感じでしたが、複数になると、困ってます、教えてください

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

meg_

2021/05/14 17:12

> こんな感じでしたが、複数になると、困ってます、教えてください csvファイルが「複数になる」と何に「困って」いるのでしょうか? ループ処理の書き方が分からない、という主旨の質問でしょうか?
bsdfan

2021/05/15 02:42

文章では、csvのファイル名の{date}部分をキーに結合したいとありますが、最後のコードでは、csvの中身のDate列をキーに結合しています。 やりたいことは、どちらですか?
Ksaman

2021/05/15 03:40

@meg_ はいループのやり方です、よろしくお願いします
Ksaman

2021/05/15 03:45

要するに追加したイメージのdfがでればいいです。 自分の思い付きが正しいと思わないしこだわっていないです
guest

回答1

0

条件に合うファイルから作ったDataFrameを結合してからマージすればよいのではないのでしょうか。

動作確認はしていませんが、以下のような感じです。

python

1dfs = [] 2for date in set(df['OrderDate']): 3 try: 4 dfs.append(pd.read_csv(f'file{date}.csv') 5 except: 6 pass 7 8df = pd.merge(df, pd.concat(dfs), how = 'left', left_on =['RequestCode', 'OrderDate'], right_on =['Code','Date']) 9df = df.drop(['Cost'], axis=1)

投稿2021/05/15 01:08

ppaul

総合スコア24666

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問