質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Q&A

解決済

2回答

460閲覧

PANDASで100000行のCSVを8000行ずつSHIT-JISにしたいです。

rogers1

総合スコア6

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

0グッド

0クリップ

投稿2022/04/27 03:03

前提・実現したいこと
チャットボットのQ&AをWEBから取り込む
際、10メガずつしか取り込めないため、
100000行データを8000行ずつ11の
CSVファイルを作成する必要があります。
CSVの形式はshift-jisでなければ
取り込みできません。
ネットでしらべて、PYTHONによる
分割方法があることが分かりました。
SHIFT-JIS(ANCII)
のCSVを
下記コード

df = pd.read_csv('test.csv')
span = 8000
for i in range((len(df)+span-1)//span):
df[spani:span(i+1)].to_csv(f'test{i}.csv', index=False)

実際にVSCODEで実行すると
出来上がったCSVが文字化けしています。
メモ帳でみると文字化けしないので
UTF-8に出力しているためだと思いました。
SHIFT-JISで出力するにはencoding='shift_jis
とする必要があると思い

df = pd.read_csv('test.csv'shift_jis)
span = 8000
for i in range((len(df)+span-1)//span):
df[spani:span(i+1)].to_csv(f'test{i}.csv',encoding='shift_jis,index=False)

としましたがエラーとなりました。

SHIFT-JISで出力するには上記コードをどのように変更する必要がありますでしょうか?
プログラミン初心者です。どうぞ、よろしくお願いいたします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

rogers1

2022/04/27 07:21

1行目のコードが抜けていました。 すみません。 【修正前】(UTF-8で出力されるコード) import pandas as pd df = pd.read_csv('test.csv') span = 5000 for i in range((len(df)+span-1)//span): df[span*i:span*(i+1)].to_csv(f'test{i}.csv', index=False) 【修正後】(shift-jisで書いてみたところエラーが出たコード) import pandas as pd df = pd.read_csv('test.csv'encoding='shift_jis) span = 8000 for i in range((len(df)+span-1)//span): df[span*i:span*(i+1)].to_csv(f'test{i}.csv',encoding='shift_jis,index=False)
guest

回答2

0

ベストアンサー

Dataframe の index が行番号と同値である場合(df.index//span でグループ化)。

python

1import pandas as pd 2import numpy as np 3 4# create dataframe with random values 5df = pd.DataFrame(np.random.random_sample(100_000)) 6 7# 8span = 8000 9( 10 df.groupby(df.index//span) 11 .apply(lambda x: 12 x.to_csv( 13 f'test{x.index[0]//span:02d}.csv', 14 encoding='shift_jis', index=False)))

+1 はヘッダ行

bash

1$ wc -l test*.csv 2 8001 test00.csv 3 8001 test01.csv 4 8001 test02.csv 5 8001 test03.csv 6 8001 test04.csv 7 8001 test05.csv 8 8001 test06.csv 9 8001 test07.csv 10 8001 test08.csv 11 8001 test09.csv 12 8001 test10.csv 13 8001 test11.csv 14 4001 test12.csv 15 100013 total

投稿2022/04/27 07:17

melian

総合スコア19714

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

rogers1

2022/04/27 07:55

ご回答ありがとうございます。元データは5列・100000行のデータです。 ご回答のコードを実行すると1列8000行のデータに分割されました。 行頭はの行タイトルは各分割ファイルの1行目に書き込みたいです。 その場合どちらのコードを変更する必要がりますでしょうか? 大変初歩的な質問かもしれませんが、どうぞ、よろしくお願いいたします。
melian

2022/04/27 08:04

状況がよく分からないのですが、回答にある df は動作確認のためのダミーデータですので、そちらでお使いのデータフレームに置き換えて下さい。
rogers1

2022/04/27 08:19

本当に初歩的な質問で申し訳ありません。 読み込むデータはDドライブのtestフォルダのtest.csv だとして、拡張子pyファイル(下記コード記載) はtestフォルダと同じところにあります。 その場合、下記コードを実行すると df = pd.DataFrame('test.csv') がValueError: DataFrame constructor not properly called! 正しく呼び起こせなかったようですが、 df = pd.DataFrame('test.csv') の書き方が悪いと思うのですが、どのように変更すればよろしいでしょうか? 本当に初歩的ですみません。 import pandas as pd import numpy as np # create dataframe with random values df = pd.DataFrame('test.csv') # span = 8000 ( df.groupby(df.index//span) .apply(lambda x: x.to_csv( f'test{x.index[0]//span:02d}.csv', encoding='shift_jis', index=False)))
rogers1

2022/04/27 09:09

列タイトル行は id(新規登録は空欄)、 トピックタグ(スラッシュ区切りで複数登録可能)、 質問 、回答、 添付ファイル、 の5列 見出し列のようなものはないようです。
rogers1

2022/04/27 09:12

df = pd.DataFrame('test.csv') に('test.csv')のようなファイル名を指定するのだと思ったのですが、 pandasの指定する列や行やインデックスを指定するのですね 基本的な部分が分かっていなく、すみません。
guest

0

そんな難しく考えずとも、1行読んで1行書き出す、というのを8000のループで回せばいいだけです
んで、エンコーディングを読むときはもとの文字コードに、書くときにはShiftJISとすればよろしい

投稿2022/04/27 04:01

編集2022/04/27 04:03
y_waiwai

総合スコア87749

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

rogers1

2022/04/27 05:30

ご回答ありがとうございます。普段は一般事務をしていて、pythonを勉強中の者です。 頑張ってググれば「1行読んで1行書き出す、というのを8000のループで回す」 コードが分かるかと思いますが、もし「1行読んで1行書き出す、というのを8000のループで回す」 でshift-jisで書き出すサンプルコードを教えていただけないでしょうか? どうぞ、よろしくお願いいたします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問