python　テキストから特定単語を抜き出す

.txtの中にあるteniohalistの特定単語から前3文字を抜き出し、テキストに保存するプログラムを組もうとしています。

TypeError: a bytes-like object is required, not 'tuple'
とエラー文がでてきてどうしたらいいのか全く分からないので教えてください。

import sys
tenioha = set( list( filter(lambda x:x!="", """が,の,を,に,へ,と,で,や,の,に,と,や,か,は,も,ば,と,が,し,て,か,な,ぞ,わ,よ""".split(',') ) ) )
print(tenioha)
dataset = []
with open('wikiwakati.txt', 'r') as f:
  for fi, line in enumerate(f):
    if fi > 10000:break
    terms = line.split()
    for cur in range(3, len(terms) - 3, 1):
      if terms[cur] in tenioha:
        try:
　　　　　　　head = list(terms[cur-4:cur])                                                                                                                                                           
　　　　　　　ans  = terms[cur]                                                                                                                                                                            
　　　　　　　dataset.append((head,ans,) )
        except KeyError as e:
            pass
print("all data set is %d"%len(dataset))
with open('output.txt', 'wb')as f:
 f.writelines(dataset)

matobaa

2019/10/29 21:57

エラーには重要な情報がたくさん含まれています。細部まで読むと答えがあるはず。可能なら前後を含めたエラー出力全部を質問文に貼り付けてください。

tanishi_a

2019/10/30 00:41 編集

・入力 (wikiwakati.txt) の内容も載ってると再現確認できるのですが・出力 (output.txt) で出てくることを期待する内容も載っていると、合っているかの確認がしやすいです・コードに全角空白が入ってますよ・どの行でエラーとか出ないのでしょうか？

行動規範の内容に同意します

回答1件

エラーの原因は

Python
1with open('output.txt', 'wb')as f:
2    f.writelines(dataset)

の部分で、バイナリーモード('wb')でファイルをopen()しているにも関わらず、f.writelines()にてタプル型のデータのリストを渡しているのが原因です。

どのようなデータ形式でファイルを作成したいのか不明なのですが、、

データをバイナリーデータにて格納したいのであれば、pickleを使ってシリアライズを行い

Python
1import pickle
2
3with open('output.txt', 'wb')as f:
4    pickle.dump(dataset,f)

のように書き込むとよいのではないでしょうか。

ただこの場合拡張子が.txt で良いのか？とは思いますが。

そうではなくデータをテキストデータで格納するのであれば、open()のオプションから "b"を外した上で、writelines()でリストを渡すのを諦めて、ループにて１行づつ

Python
1with open('output.txt', 'w') as f:
2    for d in dataset:
3        f.write(f'{d}\n')

とすると一応ファイルにデータを書けます。

ファイルのデータの形式がこれで良いのかは全く不明ですが。。。

投稿2019/10/30 00:00

magichan

総合スコア15898

tanishi_a

2019/10/30 00:39

本筋でないコメントで申し訳ないのですが、、コメントとして使われているのだと思うのですが、引用記号 `>` を使っていると、質問者のコメントを引用しているように見えてしまいます。。

magichan

2019/10/30 02:06

『補足コメント』として使ってます。マークダウンの用途としては"引用"なのでたしかにそうですね。まあ文脈で判断できると思いますので気にしないでくだし。

taxtuki

2019/10/30 02:25

ありがとうございます。下記のfor文回す方法でtxtファイルに書き込むことができました。

taxtuki

2019/10/30 02:27

追加で質問さしていただきたいのですが outputしたファイルの中身が (['(&、', '英語名', '：)'], 'と') と出てきます　[]はリスト型として　()このかっこはどこから来てるのか、またどうやったら外せるのか教えていただきたいのですが

magichan

2019/10/30 02:42

書き込まれるデータは dataset.append((head,ans,) ) にてリストに追加されているtuple型のデータなので、tuple型を示す括弧が付きます。これを外したいのであれば for文でunpackして for head, ans in dataset: __f.write(f'{head}, {ans}\n') のように、headとansをバラバラにファイルに書き込めばよいのではないでしょうか

行動規範の内容に同意します