質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.77%

テキストファイル内容の余分な部分を取り除きたい

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 231
退会済みユーザー

退会済みユーザー

前提

夏目漱石「三四郎」が書かれたテキストファイル("sanshiro.txt")の内容から、余分な部分を取り除いて表示したいと思います。
参考したネット情報ではzipファイルを解凍させ、即座にテキストファイルを読み込んでいます。
同じように実施すると修正時に何回もファイルの解凍をおこなうことになるので、
解凍部分を分離させてテキストファイルの読み込みが行えるようにしました。

ですが、下記のように元のコードでは余分な部分が取り除けましたが、
変更したコードではできなくなりました。
何か有効な手法はございますでしょうか?

ご教授の程、お願いいたします。

該当コード

変更後

txtf = open("sanshiro.txt")
contents = txtf.read()
print(type(contents))
# => <class 'str'>
print(contents)

# ファイル整形
import re
# ヘッダ部分の除去
txtf = re.split('\-{5,}',contents)[2]
# フッタ部分の除去
txtf = re.split('底本:',contents)[0]
# | の除去
txtf = contents.replace('|', '')
# ルビの削除
txtf = re.sub('《.+?》', '', contents)
# 入力注の削除
txtf = re.sub('[#.+?]', '',contents)
# 空行の削除
txtf = re.sub('\n\n', '\n',contents) 
txtf = re.sub('\r', '',contents)

# 整形結果確認

# 頭の100文字の表示 
print(contents[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(contents[-100:])


三四郎
夏目漱石


【テキスト中に現れる記号について】

《》:ルビ
(例)頓狂《とんき

青空文庫作成ファイル:
このファイルは、インターネットの図書館、青空文庫(http://www.aozora.gr.jp/)で作られました。入力、校正、制作にあたったのは、ボランティアの皆さんです。

元のコード

url = 'https://www.aozora.gr.jp/cards/000148/files/794_ruby_4237.zip'
zip = '794_ruby_4237.zip'
import urllib.request
#URL によってリソースを取得し、それを一時的な場所に保存
urllib.request.urlretrieve(url, zip)

# ダウンロードしたzipの解凍
import zipfile
with zipfile.ZipFile(zip, 'r') as myzip:
    myzip.extractall()
    # 解凍後のファイルからデータ読み込み
    for myfile in myzip.infolist():
        # 解凍後ファイル名取得
        filename = myfile.filename
        # ファイルオープン時にencodingを指定してsjisの変換をする
        with open(filename, encoding='sjis') as file:
            text = file.read()
# ファイル整形
import re
# ヘッダ部分の除去
text = re.split('\-{5,}',text)[2]
# フッタ部分の除去
text = re.split('底本:',text)[0]
# | の除去
text = text.replace('|', '')
# ルビの削除
text = re.sub('《.+?》', '', text)
# 入力注の削除
text = re.sub('[#.+?]', '',text)
# 空行の削除
text = re.sub('\n\n', '\n', text) 
text = re.sub('\r', '', text)

# 整形結果確認

# 頭の100文字の表示 
print(text[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(text[-100:])



うとうととして目がさめると女はいつのまにか、隣のじいさんと話を始めている。このじいさんはたしかに前の前の駅から乗ったいなか者である。発車まぎわに頓狂な声を出して駆け込んで来て、いきなり肌をぬい

評に取りかかる。与次郎だけが三四郎のそばへ来た。
「どうだ森の女は」
「森の女という題が悪い」
「じゃ、なんとすればよいんだ」
三四郎はなんとも答えなかった。ただ口の中で迷羊、迷羊と繰り返した。

やってみたこと

変更後は、元のコードから入手したテキストファイル("sanshiro.txt")の読み込みから始めました。
元と変更後の両者とも、頭と後ろの100文字のみ出力するようにしています。
頭と後ろの100文字は2行空けて表示しています。
元コードは余分な部分を取り除いた上で結果を表示させています。

補足事項

windows10
python3.7.4
参考:https://qiita.com/makaishi2/items/63b7986f6da93dc55edd

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • 1T2R3M4

    2020/08/14 16:02

    txtfをfile、contentsをtextにして元のコードと確認してみては。

    キャンセル

回答 1

checkベストアンサー

+1

元のソースだと読み込んだtext変数を上書きしながら処理していますが、
変更後ソースだとcontents変数には上書きせずtxtf変数に書き出しています。
ただこれだとそれぞれの処理の変更が残らないし、そもそも書き出したtxtf変数を出力に使っていません。
ただそれだけのことでは?

contents変数を上書き処理して試した分には元ソースと同じ結果になっていると思います。

txtf = open("sanshiro.txt")
contents = txtf.read()
print(type(contents))
# => <class 'str'>
print(contents)

# ファイル整形
import re
# ヘッダ部分の除去
contents = re.split('\-{5,}',contents)[2]
# フッタ部分の除去
contents = re.split('底本:',contents)[0]
# | の除去
contents = contents.replace('|', '')
# ルビの削除
contents = re.sub('《.+?》', '', contents)
# 入力注の削除
contents = re.sub('[#.+?]', '',contents)
# 空行の削除
contents = re.sub('\n\n', '\n',contents) 
contents = re.sub('\r', '',contents)

# 整形結果確認

# 頭の100文字の表示 
print(contents[:100])
# 見やすくするため、空行 
print()
print()
# 後ろの100文字の表示 
print(contents[-100:])

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/08/14 18:06

    ご回答ありがとうございます。
    ファイル名だけを示すtxtfをそのファイル内容を示すcontentsと同等に扱っていたのが原因だったようです。教えていただいたコードで問題なく出力できました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.77%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る