テキストの各行のはじめの「,」までを読み取っていく。

Question

```eigo.txt
,364
of,44
the,34
in,25
was,21
0,18
at,17
and,16
g,15
for,13
5,13
a,12
ph,12
with,11
to,10
were,10
pga,9
1,9
ao,9
natto,8
b,8
by,8
buffer,8
```

このtxtの、「,数字」が邪魔なのですが、色々と方法があるのですが、
「,」より左側だけを読み取っていく方針だと、どうなるでしょうか。
全部読み取ろうとすると、以下のようになり、

```python
def main():
    with open(WORDS_FILE_PATH, mode="r", encoding="utf-8") as f:
        words = f.readlines()

example = sentence()
    out_text = ""
    for word in words:
        try:
            result = example.get_sentence_list(word, 1)[0]
        except RuntimeError as e:
            result = e
        out_text += f"{word.rstrip()}, {result}\n"

with open(OUT_FILE_PATH, mode="w", encoding="utf-8") as f:
        f.write(out_text)
```

こんなエラーになります。
```エラー
Traceback (most recent call last):
  File "C:\Users\a\Desktop\yomitori.py", line 53, in <module>
    main()
  File "C:\Users\a\Desktop\yomitori.py", line 37, in main
    words = f.readlines()
  File "C:\Users\a\AppData\Local\Programs\Python\Python39\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 199: invalid start byte
```
yomitori.pyは上のコードを書いたファイルです、これはたぶん「,」を含んでるものを読み取った結果のエラーだと思うのですが、では「,」の左側までを、各行読み取っていくにはどのようにすれば良いのでしょうか・・・。

色々調べて、
```python
# 01 文章を単語に分ける
# 複数の区切り文字を指定するため re.split を使う
words = re.split(r'\s|\,|\.|$|$', target_text.lower())

# 02 集計する
counter = Counter(words)

# 02.5 要素・出現回数のリスト個別に取得
values, counts = zip(*counter.most_common())

# 02.6 csv出力
with open("eigo.csv", "a", newline="") as f:
    writer = csv.writer(f)
    writer.writerows(values)
```

こうすることにしました、まず初めの説明。そもそもcounter.most_commonは文字と頻出数の２つのリストに分けて取得ができるようで、こうして文字の方であるvaluesのみを取る事にしました。

```output(values)
('', 'of', 'the', 'in', 'was', '0', 'at', 'and', 'g', 'for', '5', 'a', 'ph', 'with', 'to', 'were', 'pga', '1', 'ao', 'natto', 'b', 'by', 'buffer'・・・)
```

そのvaluesをcsvに書き込もうとしました、文字コードのエラーが生じないように。実際に生じませんでしたが、できたファイルは・・・

```eigo.csv
,364
of,44
the,34
in,25
was,21
0,18
・・・
```

このように、変わってません、なぜか「,」と「数字」が相変わらず入ってます。valueには英語のみのはずなのになぜ？？

Accepted Answer

eigo.txtは162で終わっているのに対し、エラーに出力されたpositionは199なんで、
実際に読み取っているファイルは、掲示されたeigo.txtではないですよね？
先の方の通り、文字コードのエラーが原因かと。
日本語混ざってないですか？
日本語込みなら、読み取るテキストをUTF-8で保存してみては？

本題の回答としては、sentence()が何しているか分かりませんが、
単純にカンマの左を読み取るだけなら、split関数でいけるかと。
```ここに言語を入力
def main():
    WORDS_FILE_PATH = "eigo.txt"
    OUT_FILE_PATH = "out.txt"
    with open(WORDS_FILE_PATH, mode="r", encoding="utf-8") as f:
        words = f.readlines()

print(words)
    #example = sentence()
    out_text = ""
    for word in words:
        result = ""
        try:
            #result = example.get_sentence_list(word, 1)[0]
            ret = word.split(',')[0]
            print(ret)
        except RuntimeError as e:
            result = e
        out_text += f"{word.rstrip()}, {result}
"

with open(OUT_FILE_PATH, mode="w", encoding="utf-8") as f:
        f.write(out_text)
```

Answer

初学者の回答になります。至らない場合はご容赦ください。

まずUnicodeDecodeErrorについてですが、これはテキストファイル自体の文字コードに由来するものだと推測されます。元となっているテキストの文字コードはUTF-8でしょうか？Pythonではchardetと呼ばれる文字コードを判定するパッケージもあります。一度テキストファイルの文字コードをご確認ください。

次に「,数字」を除きたいというお話ですが、こちらには正規表現を用いた処理が適していると思われます。Pythonには正規表現を扱うためのreモジュールがあります。こちらはインストール不要で利用可能です。かなり柔軟な表現が可能ですので、[こちら](https://qiita.com/luohao0404/items/7135b2b96f9b0b196bf3)などを参考にされるとよいと思われます。手前味噌なコードですと、

```python
import re

text = """
,364
of,44
the,34
in,25
was,21
0,18
at,17
and,16
g,15
for,13
5,13
a,12
ph,12
with,11
to,10
were,10
pga,9
1,9
ao,9
natto,8
b,8
by,8
buffer,8
"""

removed_text = re.sub(",\d*", "", text)
print(removed_text)
```

で、「,数字」を除去することが可能ではあります。

関連した質問