質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

197閲覧

CSVを抽出、加工の処理がうまくいきません。

James1201

総合スコア15

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

1グッド

0クリップ

投稿2018/01/02 08:49

編集2018/01/02 08:53

###前提・実現したいこと
twitterのテキスト処理の過程でcsvファイルを加工して出力するのですが、狙った形でのプロットがなかなかうまくいきません。卒論の初稿締め切りが迫っており、ここしか頼るところがありません。どなたか助けていただけませんでしょうか。

入力ファイル(csv)↓
||A|B|C|D|E|F|G|H|I|
|:--|:--:|:--:|:--:|:--:|
|0|2011/3/11|19:57:54|eiden33|ちょっとイソジンかって放射能対策してくる。||None|None|None|None|
|1|2011/3/11|20:02:34|BELx2TOKYOJAPAN|外部電源が無いですが電源車で復旧だそうです。放射能漏れは無いとのことだけど柏崎原発の時も隠蔽してたので、納豆,コンブ,イソジン(ヨウ素剤)を用意していおきましょう!ヨウ素の摂取量です。甲状腺に異常のある人はヨウ素取りすぎないようにhttp://www.nuketext.or...||None|None|None|None|

|3501|2011/4/1|11:48:22|shiori_ayase|今日は、イソジン買って帰る。・・・いや、放射線対策じゃなくてね、のどが痛いんだよ、うがい薬が欲しいんだよ!!||None|None|None|None|
|3502|2011/4/2|12:05:15|enjoy_cacao||logic_text||陰毛がチリチリして来た気がするのも、やはり放射能の影響でしょうか。イソジントリートメントでケアしなくては…。||None|

目標とするcsvファイル↓
||A|B|C|D|E|F|G|H|I|
|:--|:--:|:--:|:--:|:--:|
|0|2011/3/11|19:57:54|eiden33|||||||
|1|2011/3/11|20:02:34|BELx2TOKYOJAPAN|||||||

|3501|2011/4/1|11:48:22|shiori_ayase|||||||
|3502|2011/4/2|12:05:15|enjoy_cacao|logic_text||||||

以上の操作の説明としましては、ツイート情報(1行)から空白やNoneやツイート本文を除いて、かつ、日時とアカウント名だけを取り出して出力のように並べるという動作がしたいです。

###発生している問題・エラーメッセージ

エラーメッセージ

###該当のソースコード

list1=[] list2=pd.DataFrame(index=[], columns=[]) for i in range(0,1): txt = dema_df.loc[i:i,['C','D','E','F','G','H','I']] a = txt.iloc[:,[n]] while(len(str(a)) <= 15): b = re.findall("[a-zA-Z0-9_]{2,15}", str(a))#正規表現 oo=[] for j in range(0,len(b)): if (b[j] != 'None'): oo=np.append(oo,b[j]) list1=pd.DataFrame(oooo) list2=pd.concat([list2,list1]) list2

###試したこと

ここでは、「正規表現での抽出」は半角表記であるものを抽出する動作なので、アカウント名を抽出しようとすると日時の情報も一緒に抽出されてしまうので一旦切り分けて考えています。
できれば日時情報も一緒に作業過程の中に入ったコーディングをご教授いただけたら幸いです。

上記コードの考え方としましては、
①入力されたcsvファイル(dema_df)を上から1行だけ読み込む。
②まず長文(ツイート内容)を弾くためにlen <= 15 のセルだけを抽出(アカウント名の字数制限は2文字以上15文字以下)。
③正規表現を用いて半角表記のセル(=アカウント名の入ったセル)を取り出す。
④取り出したセルを左から順番に一列に並べる

以下、元のデータフレームの終わりの行まで繰り返し

となります。

(②を行うことでツイート本文中のURLなどの半角表記に③で反応してしまうことを防いでいます。)

目標とするプロットまで、まだまだ至らぬ点がたくさんあるコーディングであるとは思いますが、自力ではこれが限界でした...。何卒よろしくお願いします。

###補足情報(言語/FW/ツール等のバージョンなど)

退会済みユーザー👍を押しています

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/01/02 09:14

とにかく急いで対応するのであれば、ここで回答を待つよりExcelでマウス片手に列を切り貼りした方が手っ取り早いですよ。表のとおりにCSVのデータが並んでいるなら、D列を削除、Noneを削除、云々するだけで対応できそうですが...
James1201

2018/01/02 09:18

ありがとうございます。最悪の手段としてそちらの手段も検討してみようと思いますが、このようなファイルがあと何個もあるためできればコーディングで対処したい所存です...。
退会済みユーザー

退会済みユーザー

2018/01/02 09:25

取り急ぎ他の人にも注目してもらいやすいように+1しますね。
James1201

2018/01/02 09:33

恐縮です、ありがとうございます…!m(_ _)m
guest

回答2

0

ベストアンサー

焦っている気持ちはわかりますが、
CSVファイルをコピーしやすい状態にする、データのバリエーションについて、などより多くの情報を先に提示することによって、解決に近づくことが楽になります。

アカウント名について、半角から始まることを仮定しました。

python

1import pandas as pd 2import numpy as np 3import re 4 5from io import StringIO 6# CSVファイルがないので、見えているものを手で入れました。 7a = StringIO('''A,B,C,D,E,F,G,H,I 80,2011/3/11,19:57:54,eiden33,ちょっとイソジンかって放射能対策してくる。,,None,None,None,None 91,2011/3/11,20:02:34,BELx2TOKYOJAPAN,外部電源が無いですが電源車で復旧だそうです。放射能漏れは無いとのことだけど柏崎原発の時も隠蔽してたので、納豆,コンブ,イソジン(ヨウ素剤)を用意していおきましょう!ヨウ素の摂取量です。甲状腺に異常のある人はヨウ素取りすぎないようにhttp://www.nuketext.or...,,None,None,None,None 103501,2011/4/1,11:48:22,shiori_ayase,今日は、イソジン買って帰る。・・・いや、放射線対策じゃなくてね、のどが痛いんだよ、うがい薬が欲しいんだよ!!,,None,None,None,None 113502,2011/4/2,12:05:15,,enjoy_cacao,logic_text,,陰毛がチリチリして来た気がするのも、やはり放射能の影響でしょうか。イソジントリートメントでケアしなくては…。,,None''') 12 13# read CSV file 14df = pd.read_csv(a) 15# possible account parts 16cols = df.columns[2:] 17# fill NaNs 18df = df.fillna('') 19# get account name with assumption, else fill with '' 20df.loc[:, cols] = df[cols].apply(lambda ss: [next(iter(re.findall('^[a-zA-Z0-9_]{2,15}', str(s))), '') or '' for s in ss], axis=1) 21# replace 'None' with '' 22df = df.replace(to_replace='None', value='') 23# replace '' for NaN to drop 24df = df.replace(to_replace='', value=np.nan) 25# record column names 26cols = df.columns 27# drop NaNs and shift to left 28df = df.apply(lambda x: pd.Series(x.dropna().values), axis=1).fillna('') 29# use recored column names 30df.columns = cols[:len(df.columns)] 31# answer is in df 32print(df)

見えている限りdema_df[['A','B','C']]で目的は果たされませんか?

投稿2018/01/02 10:10

編集2018/01/02 16:53
mkgrei

総合スコア8560

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

James1201

2018/01/02 15:35

ご回答ありがとうございます。 実は抽出したいアカウント名の入ったセルは、行を追っていくとC列より先のD、E列...、にも偏在しておりそれを条件を使って抽出し、配列で表示したいのです...。
James1201

2018/01/02 15:35

ご回答ありがとうございます。 実は抽出したいアカウント名の入ったセルは、行を追っていくとC列より先のD、E列...、にも偏在しておりそれを条件を使って抽出し、配列で表示したいのです...。
mkgrei

2018/01/02 17:03 編集

D列以降にアカウント名があっても取ってこれるようにしました。 コードなので、回答に追記しました。 考え方としては必要なもの以外をNaNを取り除くメソッドdropnaを使って消すことによって左側に欲しいものを持ってきます。 手元の環境ではNaNに種類があってうまくドロップできなかったので、 そのためにまず必要のないものをすべて空の文字列''にしてから、''をNaNへ一気に変換して、ドロップしました。 コード・日本語混合の文字変換が面倒だったので、コメントは短く英語にしました。 雰囲気で何をしたいのかわからない場合はまたコメント等で質問してください。
James1201

2018/01/03 07:54

無事に目標となるファイルを作ることができました。 本当にありがとうございました...!!!
guest

0

つimport csv

python

1import csv 2 3with open('sample.csv', 'r') as f: 4 reader = csv.reader(f) 5 6 for row in reader: 7 print(row)

投稿2018/01/02 09:33

hichon

総合スコア5737

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

James1201

2018/01/02 09:39

ご回答ありがとうございます。 csv自体の読み込み・1行づつ出力は自力でもできるのですが、1行ずつ読み込んでそれを「細々と加工する」という動作で行き詰まっている次第です…。
hichon

2018/01/02 09:56

上記のrowはlistで、row[0],row[1],...でカラム毎の値を取得できます。
James1201

2018/01/02 15:59

そうしますと、取得したrow[0],row[1],...,row[n]を、 例えば、条件でrow[1],row[2],row[10]の3つに絞れたとして、それらを上記のlist1に格納するという作業をi行繰り返したものを上記のlist2に格納したのち、プロットという形にするにはどうすれば良いのでしょうか...。 イメージとしては list1は抽出したもの(アカウント名)を横に隙間なく1行に並べていく作業で、 list2でlist1をⅰ回縦に積んでいくというイメージです。 伝わりにくかったらすみません...!!
James1201

2018/01/03 07:56

無事解決いたしました、ご協力ありがとうございました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問