for文の作業を効率化する方法を教えてください．

####【やりたいこと】
csvファイル中の80万行×14列のデータの中で複数条件にあてはまった列が存在する行ごとに個数をカウントし、その個数を新しい列に出したい。
↓
アドバイス等頂いた方々のおかげでカウントのためのスクリプトがかけました．
↓
【今ここ】
しかし，現在の書き方では80万×80万のデータ参照→カウント→出力が行われているはずなので，データ集計をもっと効率的に行いたいのです．

####【質問内容】
現在のスクリプトをどのようにしたらもっと効率的に作業が行われるのか知りたい．

####【現在のスクリプト】

"""csvデータをインポート"""
T = pd.read_csv(r'C:\Users****\Desktop\py\T.csv')

"""条件にあったデータのカウント"""
T['FlontVCount'] = T.apply(lambda r: ((T['SimSec']==r['SimSec']) & (T['Lane']==r['Lane']) & (T['SD']<r['SD'])).sum(), axis=1)

"""csvデータをエクスポート"""
T.to_csv("T.csv",index=False,encoding='UTF_8_sig')

###出力される'T.csv'データ
下の画像は少ないデータでやった時のものです．上手くいけばFlontVCountが加わる．

Orlofsky

2019/12/11 02:46

なぜ、80万件もあったらきちんとしたデータベースに移行した方が良いですよ、って誰も書かないのだろうか？

Guroguro

2019/12/13 20:20

御礼が遅くなり，申し訳ありません．情報ありがとうございました．データベースについて調べてみて，同じことが出来ました．処理が物凄く速くなりました．

行動規範の内容に同意します

回答1件

ベストアンサー

回答の前に。
過去の質問を見なければ回答するために必要な状況を掴むのが困難でした。
あまりいい質問とは言えません。

回答ですが、アルゴリズムの一例を示します。

データを並べ替える。
順番は、A の値が昇順になるように、A の値が等しいもの同士は C の値が昇順になるように、A の値も C の値も等しいもの同士は B の値が昇順になるように。

A の値と C の値が等しいものを同じグループとして、データを分割する。

No A B C D
2  3 2 0 ?
5  3 2 0 ?
4  3 3 0 ?

No A B C D
6  3 1 1 ?
1  3 6 1 ?

No A B C D
3  4 4 1 ?

分割したデータそれぞれについて、B の値を元に D の値を設定する。
（B の値を元に D の値を設定するアルゴリズムは省略。）

分割したデータを結合する。

No の値が昇順になるように並べ替える。

投稿2019/12/13 03:12

2KOH

総合スコア999

Guroguro

2019/12/13 20:18

ありがとうございます．今後はもう少しわかりやすく質問するように致しますね．

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

『🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中！

＼teratail特別グッズやAmazonギフトカード最大2,000円分が当たる！／

for文の作業を効率化する方法を教えてください．

関連した質問