実現したいこと
csvをpythonのpandasで読み込もうとしています.
読み込もうとしているcsvはproduct_idとcommentの2列からなります. product_idは数値でcommentが日本語です. エンコードはutf-16です. 各種のエラーが出て現在csvが読み込めない状況です. 主に課題としてはcomment中にカンマがあることから複数列と判定され読み込めができないのではないかと思われます. 解決方法をご存知の方がいればご享受いただきたいです.
試したこと
python
1df=pd.read_csv('./product.csv',encoding='utf-16',engine='python')
ParserError: unexpected end of dataとなってしまう
python
1df=pd.read_csv('./product.csv',encoding='utf-16',engine='python', on_bad_lines='skip')
データは読み込めるものの本来180万件あるデータのうち4万1000件しか取得できない
python
1df=pd.read_csv('./product.csv', encoding='utf-16', header=0, quoting=csv.QUOTE_NONE, engine='python')
ParserError: Expected 2 fields in line 75354, saw 3
python
1import codecs 2with codecs.open('./product.csv', mode ="r", encoding= "utf-8",errors="ignore") as file: 3 data = pd.read_table(file, delimiter=",",error_bad_lines=True)
ParserError: Error tokenizing data. C error: Expected 2 fields in line 12, saw 3
python
1col_name = range(1,5,1) 2df = pd.read_csv('./products.csv', names=col_name,encoding='utf16',engine='python',error_bad_lines=False) 3_df = df.fillna('') 4_df.head(7)
2番目と同様4万件のデータしか読み込めない
補足情報(FW/ツールのバージョンなど)
pyhon 3.7.13
pandas 1.3.5
参考にしたサイト
https://stackoverflow.com/questions/52105659/pandas-read-csv-unexpected-end-of-data-error
https://ikatakos.com/pot/programming/python/packages/pandas/handling_bad_lines

回答1件
あなたの回答
tips
プレビュー