質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.32%

pythonでtxtファイルをcsvファイルにする方法について

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 12K+

u_k_statistics

score 44

以下のようなtxtファイルをcsvファイルにしたくてpythonで以下のようなものを書いたのですがうまくいきません。具体的にはcsvファイルの1行1列目のセルに
[aaaaaaaa,bbbbb,・・・,11/30]
とはいっていて、1行2列目のセルに
[aaaaaaaa,bbbbb,・・・,11/30]
とはいってしまいます。

aaaaaaaa〜11/30が1項目ずつ1つのセルに入り、2行目に00000000〜1が1項目ずつ1つのセルに入るようにしたいです。

どうしたらよいでしょうか?
よろしくお願いします。

(txtファイル)
aaaaaaaa    bbbbb    cccccc    dddddddd    eeeeee    10/01    10/02    10/03    10/04    10/05    10/06    10/07    10/08    10/09    10/10    10/11    10/12    10/13    10/14    10/15    10/16    10/17    10/18    10/19    10/20    10/21    10/22    10/23    10/24    10/25    10/26    10/27    10/28    10/29    10/30    10/31    11/01    11/02    11/03    11/04    11/05    11/06    11/07    11/08    11/09    11/10    11/11    11/12    11/13    11/14    11/15    11/16    11/17    11/18    11/19    11/20    11/21    11/22    11/23    11/24    11/25    11/26    11/27    11/28    11/29    11/30
00000000    1111111    22222222    ああああああああああああああああああああああああああああああああああああああああああああああ    3    1    ×    ×    ×    ×    ×    1    1    1    1    ×    ×    ×    ×    1    1    1    ×    ×    ×    1    ×    ×    ×    ×    1    1    1    1    1    1    ×    ×    1    1    1    1    ×    1    1    1    1    1    1    1    ×    ×    1    1    ×    1    1    1    ×    ×    ×    1    1    1    ×    1



(以下略)

(pythonファイル)

 -*- coding: utf-8 -*-

import csv
import re
if name == "main":

    fp = open('test.csv', 'aw')

    f = open("filename.txt","r")

    rows1=[]
    for row in f:
        rows = re.split('\t',row)
        rows1.append(rows)

    w = csv.writer(fp,delimiter=',')
    w.writerow(rows1)
    f.close()

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

書き出し部分を以下のようにしてみたらどうでしょうか

w = csv.writer(fp,delimiter=',')
for r in rows1:
    w.writerow(r)
f.close()

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/04/28 17:09

    回答ありがとうございます。
    状況としてはエラーは出るのですがcsvファイル自体は作成されています。
    しかし本来30行ほどの入力があるはずなのですが、9行目までしか入力されていないという状況です。
    9行目までは文字化けもなく入力されています。

    10行目に入力されるはずの文字をお見せしたいのですが、全てをお見せすることは申し訳ないのですができませんので、どのようなものかだけご説明させていただきます。

    (0からはじまる8桁の数字) (0からはじまる7桁の数字) (20160428のような日付を表す数字)  (日本語の文章) ここから以降は数字、日本語、-、×がランダムに並べられているようなもので、それぞれがひとつの要素になっています。

    ちなみに9行目と10行目の主な相違点としましては
    (0からはじまる8桁の数字)のところが9行目は012...なのですが10行目が018...となっています。

    以下プログラムとエラーコードです。

    プログラム
    # -*- coding: utf-8 -*-
    import codecs
    import sys
    import csv
    import re

    if __name__ == "__main__":

    fp = open('temp.csv', 'aw')

    f = codecs.open("textname.txt","r",'utf-8')


    rows1=[]
    for row in f:
    rows = re.split('\t',row)
    rows1.append(rows)
    # print rows1

    w = csv.writer(fp,delimiter=',')
    for r in rows1:
    r = [s.encode('shift_jis') for s in r]
    w.writerow(r)
    f.close()

    エラーコード
    Traceback (most recent call last):
    File "/Users/Username/Desktop/pythonfile.py", line 22, in <module>
    r = [s.encode('shift_jis') for s in r]
    UnicodeEncodeError: 'shift_jis' codec can't encode character u'\uff0d' in position 0: illegal multibyte sequence
    [Finished in 0.0s with exit code 1]

    よろしくお願いします。

    キャンセル

  • 2016/04/28 21:44 編集

    エラーで出ている u'\uff0d' (UNICODEの 0xff0d) は、全角のハイフンマイナス(FULLWIDTH HYPHEN-MINUS)と呼ばれる文字で、実は純粋なShift-JIS(sjis、shift_jis)文字コードに変換する際にShift-JIS側に対応する文字コードが無いためにエラーとなります。cp932はShift-JISをもとにマイクロソフトが拡張した文字コードセットで、こちらには対応する文字があるのでエラーが出なかったのです。

    文字コードセットは様々な種類があって、日本語における文字コードセットも、JIS(iso-2022-jp)、Shift-JIS(派生系のcp932など含む)、EUC-JP、UTF-8(UNICODE)...などなど沢山あってややこしいのですが、これらをコントロールできるようになるといざという時に役に立ちますので、頭の片隅にでも置いておくと良いかと思います。

    キャンセル

  • 2016/04/28 22:10

    回答ありがとうございます。
    shift−jisが対応してなくてcp932が対応している文字が入っていたのが原因だったんですね。
    何回も質問に答えていただいたおかげで前に進むことができました。
    ありがとうございました。
    また何かありましたら質問するかと思いますのでまたその時はまたよろしくお願いします。

    キャンセル

0

まとめて書き込みたいのであれば、writerow ではなく writerowsが使えるようです。
また、rowをsplitする際には、行末の改行をstripで取り除いておいたほうがよいと思います。

rows1 =[]
for row in f:
    #rows = re.split("\t",row)
    rows = row.strip().split('\t')
    rows1.append(rows)
f.close()

w = csv.writer(fp,delimiter = ",")
w.writerows(rows1)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/04/26 14:19

    ありがとうございます。試してみたいと思います。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.32%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る