test.csv
1#test.csvの一部 2 3 create_at \ 40 Sun Jul 22 07:23:39 +0000 2018 51 Sun Jul 22 04:44:03 +0000 2018 62 Sat Jul 21 15:28:48 +0000 2018 7 8 tweet \ 90 あげみー! https://t.co/pqbYn2wf08 101 本日ラジオ。ジ日オラ本。 112 海賊王になるのは誰だ。。。 https://t.co/6idYoGEZD5 12
日付が月曜、火曜、水曜、木曜のtweetだけ抽出してcsvに保存したいと考えています。
しかし、test.csvの容量が5GBあるためか、実行から4日ほど経過してもいまだに実行中のままです。
ソースコード上で工夫したらよい点とかあるでしょうか。
アドバイスよろしくお願い致します
Python
1tweet_df = pd.read_csv('./test.csv', encoding='utf-8', names=('create_at', 'tweet'), engine='c') 2train_df = pd.DataFrame( columns=['create_at', 'tweet'] ) 3 4for i in range(tweet_df['tweet'].shape[0]): 5 if 'Mon' in str(tweet_df['create_at'][i]) or 'Tue' in str(tweet_df['create_at'][i]) or 'Wed' in str(tweet_df['create_at'][i]) or 'Thu' in str(tweet_df['create_at'][i]): 6 tmp = pd.Series([tweet_df['create_at'][i], tweet_df['tweet'][i]], index=train_df.columns) 7 train_df = train_df.append(tmp, ignore_index=True) 8 9train_df.to_csv("train_df_1.21.csv") 10print(tweet_df['tweet'].shape[0])
使用しているPCについて
- macOS High Sierra version 10.13.6
- プロセッサ 3.2GHz Intel Core i5
- メモリ 8GB 1600MHz DDR3
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。