python3でのcsvデータの取り込み方法

別のソフトで出力されたcsvファイル(Unicode)の数値データのみをリストに格納したいのですが、
どのようにプログラムを組めばよいか教えて下さい。
データは下記のようなものです。数値のデータの間はタブとスペースで区切られているようです。
これらのX座標、Y座標をそれぞれリストとして格納できればと考えております。

X 座標 Y 座標
-2.605988E+00 5.895555E-07
-2.595808E+00 5.896124E-07
-2.585628E+00 5.897834E-07

tachikoma

2018/08/27 03:58

pandasはもう検討しました？

Opt

2018/08/27 04:04

pandasも含めてネットにあったコードで試してみましたがうまくいきませんでした。

tachikoma

2018/08/27 04:09

まぎちゃんのコードでうまくいかなかったら、問題点を追記してもらえると嬉しいです。

行動規範の内容に同意します

回答3件

pandas を使って読み込むとよいのではないでしょうか

Python
1import pandas as pd
2
3df = pd.read_csv('data.csv', sep='\s+')
4x = df.iloc[:,0].values.tolist()
5y = df.iloc[:,1].values.tolist()

投稿2018/08/27 04:05

magichan

総合スコア15898

Opt

2018/08/27 04:11

エラーとなってしまい上手くいかないようです。 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

magichan

2018/08/27 04:16

(1). encoding オプション付ける df = pd.read_csv('data.csv', sep='\s+', encoding='utf8') (2). ヘッダ行（1行目）を読み込まないようにする df = pd.read_csv('data.csv', sep='\s+', skiprows=[0], header=None) のどちらかでどうでしょうかね？

Opt

2018/08/27 04:21

共に上手くいかないようです。。 (1)の場合 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte (2)の場合 pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 3, saw 5

Opt

2018/08/27 04:23

試しに df = pd.read_csv(file, sep='\s+', engine="python") としてみたところ、エラーはなくなりましたが、下記のような出力となってしまいました。 print(x)→['\x00', '\x00', '\x00', '\x00', '\x00', '\x00'] print(y)→[[None, '\x00-\x002\x00.\x006\x000\x005\x009\x008\x008\x00E\x00+\x000\x000\x00',

magichan

2018/08/27 04:23

(1)のencodingの値を 'utf8-sig' または 'utf-8-sig' にしたらどうなりますか？

Opt

2018/08/27 04:29

共に下記エラーとなっています。 ValueError: the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex)

magichan

2018/08/27 04:32

であれば　更に引数に　engine='python' を追加してください

Opt

2018/08/27 04:37

df = pd.read_csv(file, sep='\s+', engine='python',encoding= 'utf8-sig') のように記述しましたが、下記エラーとなってしまいました。 LookupError: unknown encoding: utf8-sig 'utf-8-sig' の場合は先ほどと同じエラーとなってしまいます。 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

magichan

2018/08/27 04:39

スミマセン　utf-8-sig の方が正解ですね。

Opt

2018/08/27 04:44

正解というのはどういうことでしょうか？

magichan

2018/08/27 04:49

ん？もしかしてですが、文字コードは utf-8　じゃなくて utf-16 だったりしませんかね？であれば encoding='utf-16' でどうでしょう

magichan

2018/08/27 05:06

えっ。BigEndianなの？だったら、utf-16be　となります。とりあえず https://docs.python.org/3/library/codecs.html#standard-encodings 見て、合うやつを記述してください

行動規範の内容に同意します

自己解決

元の出力ファイル形式を変更することで解決いたしました。
ご回答いただきありがとうございました。

投稿2018/08/27 06:44

Opt

総合スコア7

解決済みだったらすみません。
まぎちゃんとのやり取り見てての質問なのですが、下記のコードは通りますか？

Python
1with open("data.csv", encoding="utf8") as file:
2    for line in file.readlines():
3        print(line.rstrip())

投稿2018/08/27 04:46

tachikoma

総合スコア3601

Opt

2018/08/27 04:48

下記エラーとなってしまいます。 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

tachikoma

2018/08/27 04:51

文字コードをutf-16にするとどうですか？ https://stackoverflow.com/a/42340744/8499046

Opt

2018/08/27 04:59

utf-16に変更してみました（表記UTF-16BE）。が、上記と同様のエラーで上手くいきません。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

python3でのcsvデータの取り込み方法

関連した質問