質問編集履歴

進捗を書きました。

2022/04/17 16:03

投稿

ques346

スコア60

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -57,4 +57,42 @@
     (result, consumed) = self._buffer_decode(data, self.errors, final)
 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x81 in position 199: invalid start byte
 ```
-yomitori.pyは上のコードを書いたファイルです、これはたぶん「,」を含んでるものを読み取った結果のエラーだと思うのですが、では「,」の左側までを、各行読み取っていくにはどのようにすれば良いのでしょうか・・・。
+yomitori.pyは上のコードを書いたファイルです、これはたぶん「,」を含んでるものを読み取った結果のエラーだと思うのですが、では「,」の左側までを、各行読み取っていくにはどのようにすれば良いのでしょうか・・・。
+色々調べて、
+```python
+# 01 文章を単語に分ける
+# 複数の区切り文字を指定するため re.split を使う
+words = re.split(r'\s|\,|\.|\(|\)', target_text.lower())
+# 02 集計する
+counter = Counter(words)
+# 02.5 要素・出現回数のリスト個別に取得
+values, counts = zip(*counter.most_common())
+# 02.6 csv出力
+with open("eigo.csv", "a", newline="") as f:
+    writer = csv.writer(f)
+    writer.writerows(values)
+```
+こうすることにしました、まず初めの説明。そもそもcounter.most_commonは文字と頻出数の２つのリストに分けて取得ができるようで、こうして文字の方であるvaluesのみを取る事にしました。
+```output(values)
+('', 'of', 'the', 'in', 'was', '0', 'at', 'and', 'g', 'for', '5', 'a', 'ph', 'with', 'to', 'were', 'pga', '1', 'ao', 'natto', 'b', 'by', 'buffer'・・・)
+```
+そのvaluesをcsvに書き込もうとしました、文字コードのエラーが生じないように。実際に生じませんでしたが、できたファイルは・・・
+```eigo.csv
+,364
+of,44
+the,34
+in,25
+was,21
+0,18
+・・・
+```
+このように、変わってません、なぜか「,」と「数字」が相変わらず入ってます。valueには英語のみのはずなのになぜ？？

Python