CSVを抽出、加工の処理がうまくいきません。

###前提・実現したいこと
twitterのテキスト処理の過程でcsvファイルを加工して出力するのですが、狙った形でのプロットがなかなかうまくいきません。卒論の初稿締め切りが迫っており、ここしか頼るところがありません。どなたか助けていただけませんでしょうか。

入力ファイル(csv)↓
||A|B|C|D|E|F|G|H|I|
|:--|:--:|:--:|:--:|:--:|
|0|2011/3/11|19:57:54|eiden33|ちょっとイソジンかって放射能対策してくる。||None|None|None|None|
|1|2011/3/11|20:02:34|BELx2TOKYOJAPAN|外部電源が無いですが電源車で復旧だそうです。放射能漏れは無いとのことだけど柏崎原発の時も隠蔽してたので、納豆，コンブ，イソジン（ヨウ素剤）を用意していおきましょう！ヨウ素の摂取量です。甲状腺に異常のある人はヨウ素取りすぎないようにhttp://www.nuketext.or...||None|None|None|None|
…
|3501|2011/4/1|11:48:22|shiori_ayase|今日は、イソジン買って帰る。・・・いや、放射線対策じゃなくてね、のどが痛いんだよ、うがい薬が欲しいんだよ！！||None|None|None|None|
|3502|2011/4/2|12:05:15|enjoy_cacao||logic_text||陰毛がチリチリして来た気がするのも、やはり放射能の影響でしょうか。イソジントリートメントでケアしなくては…。||None|

目標とするcsvファイル↓
||A|B|C|D|E|F|G|H|I|
|:--|:--:|:--:|:--:|:--:|
|0|2011/3/11|19:57:54|eiden33|||||||
|1|2011/3/11|20:02:34|BELx2TOKYOJAPAN|||||||
…
|3501|2011/4/1|11:48:22|shiori_ayase|||||||
|3502|2011/4/2|12:05:15|enjoy_cacao|logic_text||||||

以上の操作の説明としましては、ツイート情報（１行）から空白やNoneやツイート本文を除いて、かつ、日時とアカウント名だけを取り出して出力のように並べるという動作がしたいです。

###発生している問題・エラーメッセージ

エラーメッセージ

###該当のソースコード

list1=[]
list2=pd.DataFrame(index=[], columns=[])

for i in range(0,1):
    txt = dema_df.loc[i:i,['C','D','E','F','G','H','I']]
    
    a = txt.iloc[:,[n]]
    while(len(str(a)) <= 15):
            
            b = re.findall("[a-zA-Z0-9_]{2,15}", str(a))#正規表現
            oo=[]
            for j in range(0,len(b)):
                
                if (b[j] != 'None'):
                    oo=np.append(oo,b[j])
                    
    list1=pd.DataFrame(oooo)
    list2=pd.concat([list2,list1])
list2

###試したこと

ここでは、「正規表現での抽出」は半角表記であるものを抽出する動作なので、アカウント名を抽出しようとすると日時の情報も一緒に抽出されてしまうので一旦切り分けて考えています。
できれば日時情報も一緒に作業過程の中に入ったコーディングをご教授いただけたら幸いです。

上記コードの考え方としましては、
①入力されたcsvファイル(dema_df)を上から１行だけ読み込む。
②まず長文（ツイート内容）を弾くためにlen <= 15 のセルだけを抽出（アカウント名の字数制限は2文字以上15文字以下）。
③正規表現を用いて半角表記のセル（＝アカウント名の入ったセル）を取り出す。
④取り出したセルを左から順番に一列に並べる

以下、元のデータフレームの終わりの行まで繰り返し

となります。

（②を行うことでツイート本文中のURLなどの半角表記に③で反応してしまうことを防いでいます。）

目標とするプロットまで、まだまだ至らぬ点がたくさんあるコーディングであるとは思いますが、自力ではこれが限界でした...。何卒よろしくお願いします。

###補足情報(言語/FW/ツール等のバージョンなど)

退会済みユーザー

2018/01/02 09:14

とにかく急いで対応するのであれば、ここで回答を待つよりExcelでマウス片手に列を切り貼りした方が手っ取り早いですよ。表のとおりにCSVのデータが並んでいるなら、D列を削除、Noneを削除、云々するだけで対応できそうですが...

James1201

2018/01/02 09:18

ありがとうございます。最悪の手段としてそちらの手段も検討してみようと思いますが、このようなファイルがあと何個もあるためできればコーディングで対処したい所存です...。

退会済みユーザー

2018/01/02 09:25

取り急ぎ他の人にも注目してもらいやすいように+1しますね。

James1201

2018/01/02 09:33

恐縮です、ありがとうございます…！m(_ _)m

行動規範の内容に同意します

回答2件

ベストアンサー

焦っている気持ちはわかりますが、
CSVファイルをコピーしやすい状態にする、データのバリエーションについて、などより多くの情報を先に提示することによって、解決に近づくことが楽になります。

アカウント名について、半角から始まることを仮定しました。

python
1import pandas as pd
2import numpy as np
3import re
4
5from io import StringIO
6# CSVファイルがないので、見えているものを手で入れました。
7a = StringIO('''A,B,C,D,E,F,G,H,I
80,2011/3/11,19:57:54,eiden33,ちょっとイソジンかって放射能対策してくる。,,None,None,None,None
91,2011/3/11,20:02:34,BELx2TOKYOJAPAN,外部電源が無いですが電源車で復旧だそうです。放射能漏れは無いとのことだけど柏崎原発の時も隠蔽してたので、納豆，コンブ，イソジン（ヨウ素剤）を用意していおきましょう！ヨウ素の摂取量です。甲状腺に異常のある人はヨウ素取りすぎないようにhttp://www.nuketext.or...,,None,None,None,None
103501,2011/4/1,11:48:22,shiori_ayase,今日は、イソジン買って帰る。・・・いや、放射線対策じゃなくてね、のどが痛いんだよ、うがい薬が欲しいんだよ！！,,None,None,None,None
113502,2011/4/2,12:05:15,,enjoy_cacao,logic_text,,陰毛がチリチリして来た気がするのも、やはり放射能の影響でしょうか。イソジントリートメントでケアしなくては…。,,None''')
12
13# read CSV file
14df = pd.read_csv(a)
15# possible account parts
16cols = df.columns[2:]
17# fill NaNs
18df = df.fillna('')
19# get account name with assumption, else fill with ''
20df.loc[:, cols] = df[cols].apply(lambda ss: [next(iter(re.findall('^[a-zA-Z0-9_]{2,15}', str(s))), '') or '' for s in ss], axis=1)
21# replace 'None' with ''
22df = df.replace(to_replace='None', value='')
23# replace '' for NaN to drop
24df = df.replace(to_replace='', value=np.nan)
25# record column names
26cols = df.columns
27# drop NaNs and shift to left
28df = df.apply(lambda x: pd.Series(x.dropna().values), axis=1).fillna('')
29# use recored column names
30df.columns = cols[:len(df.columns)]
31# answer is in df
32print(df)

見えている限りdema_df[['A','B','C']]で目的は果たされませんか？

投稿2018/01/02 10:10

編集2018/01/02 16:53

mkgrei

総合スコア8560

James1201

2018/01/02 15:35

ご回答ありがとうございます。実は抽出したいアカウント名の入ったセルは、行を追っていくとC列より先のD、E列...、にも偏在しておりそれを条件を使って抽出し、配列で表示したいのです...。

James1201

2018/01/02 15:35

mkgrei

2018/01/02 17:03 編集

D列以降にアカウント名があっても取ってこれるようにしました。コードなので、回答に追記しました。考え方としては必要なもの以外をNaNを取り除くメソッドdropnaを使って消すことによって左側に欲しいものを持ってきます。手元の環境ではNaNに種類があってうまくドロップできなかったので、そのためにまず必要のないものをすべて空の文字列''にしてから、''をNaNへ一気に変換して、ドロップしました。コード・日本語混合の文字変換が面倒だったので、コメントは短く英語にしました。雰囲気で何をしたいのかわからない場合はまたコメント等で質問してください。

James1201

2018/01/03 07:54

無事に目標となるファイルを作ることができました。本当にありがとうございました...！！！

行動規範の内容に同意します

つimport csv

python
1import csv
2
3with open('sample.csv', 'r') as f:
4    reader = csv.reader(f)
5
6    for row in reader:
7        print(row)

投稿2018/01/02 09:33

nullpon

総合スコア5737

James1201

2018/01/02 09:39

ご回答ありがとうございます。 csv自体の読み込み・１行づつ出力は自力でもできるのですが、１行ずつ読み込んでそれを「細々と加工する」という動作で行き詰まっている次第です…。

nullpon

2018/01/02 09:56

上記のrowはlistで、row[0],row[1],...でカラム毎の値を取得できます。

James1201

2018/01/02 15:59

そうしますと、取得したrow[0],row[1],...,row[n]を、例えば、条件でrow[1],row[2],row[10]の３つに絞れたとして、それらを上記のlist1に格納するという作業をi行繰り返したものを上記のlist2に格納したのち、プロットという形にするにはどうすれば良いのでしょうか...。イメージとしては list1は抽出したもの(アカウント名)を横に隙間なく１行に並べていく作業で、 list2でlist1をⅰ回縦に積んでいくというイメージです。伝わりにくかったらすみません...！！

James1201

2018/01/03 07:56

無事解決いたしました、ご協力ありがとうございました！

行動規範の内容に同意します

あなたの回答