質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.30%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

1回答

2754閲覧

日本語の行を含むcsvをpythonで読み込みたいがエラーになってしまう

Tanhx

総合スコア11

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2023/02/16 04:14

編集2023/02/17 01:01

実現したいこと

csvをpythonのpandasで読み込もうとしています.
読み込もうとしているcsvはproduct_idとcommentの2列からなります. product_idは数値でcommentが日本語です. エンコードはutf-16です. 各種のエラーが出て現在csvが読み込めない状況です. 主に課題としてはcomment中にカンマがあることから複数列と判定され読み込めができないのではないかと思われます. 解決方法をご存知の方がいればご享受いただきたいです.

試したこと

python

1df=pd.read_csv('./product.csv',encoding='utf-16',engine='python')

ParserError: unexpected end of dataとなってしまう

python

1df=pd.read_csv('./product.csv',encoding='utf-16',engine='python', on_bad_lines='skip')

データは読み込めるものの本来180万件あるデータのうち4万1000件しか取得できない

python

1df=pd.read_csv('./product.csv', encoding='utf-16', header=0, quoting=csv.QUOTE_NONE, engine='python')

ParserError: Expected 2 fields in line 75354, saw 3

python

1import codecs 2with codecs.open('./product.csv', mode ="r", encoding= "utf-8",errors="ignore") as file: 3 data = pd.read_table(file, delimiter=",",error_bad_lines=True)

ParserError: Error tokenizing data. C error: Expected 2 fields in line 12, saw 3

python

1col_name = range(1,5,1) 2df = pd.read_csv('./products.csv', names=col_name,encoding='utf16',engine='python',error_bad_lines=False) 3_df = df.fillna('') 4_df.head(7)

2番目と同様4万件のデータしか読み込めない

補足情報(FW/ツールのバージョンなど)

pyhon 3.7.13
pandas 1.3.5

参考にしたサイト
https://stackoverflow.com/questions/52105659/pandas-read-csv-unexpected-end-of-data-error

https://ikatakos.com/pot/programming/python/packages/pandas/handling_bad_lines

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

odataiki

2023/02/16 04:18

念のため確認ですが >読み込もうとしているcsvはproduct_idとcommentの2行からなります >2行 2列、ですよね? >comment中にカンマがあることから複数行と判定され こちらも「~複数列と判定され」ですよね?
can110

2023/02/16 04:26

> ParserError: Expected 2 fields in line 75354, saw 3 その75354行目の内容(文字列)は具体的にどのようになっているでしょうか。 > 主に課題としてはcomment中にカンマがあることから~ データにカンマが含まれている場合は「"」などで適切に囲まれている必要がありますが、そのあたりはどうなっているでしょうか?
melian

2023/02/16 05:06 編集

一旦、行全体を一列として読み込んで、データフレーム上で分割してみてはどうでしょうか。 df = pd.read_csv('./product.csv', sep=r'\0', encoding='utf-16', engine='python', skiprows=1, header=None) df = df[0].str.extract(r'^(\d+),(.*)').set_axis(['product_id', 'comment'], axis=1) df['product_id'] = df['product_id'].astype(int)
meg_

2023/02/16 10:57

> ParserError: Expected 2 fields in line 75354, saw 3 この行のデータが3列あるんでしょうね。ひとまずこの行のデータを確認して修正しましょう。また他の行で同様のエラーが出るかもしれませんが。
guest

回答1

0

自己解決

すみません, こちら180万件あるというのが間違いで本来4万件程度のデータだったので2番目でほぼ解決していました. コメントくださった方ありがとうございます.

投稿2023/02/19 07:33

Tanhx

総合スコア11

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問