【python超初心者】正規表現を用いて単語カウントを行うには？
退会済みユーザー
総合スコア0

Question

1バイト文字のみのtxtの大文字⇔小文字変換。スペース区切り（正規表現）で単語リストを作り、出現回数降順でカウントリストを作る

Pythonで自然言語処理を行うために文字列操作の練習を始めた者です。
txtやcsvをインポートして文字列操作（大文字⇔小文字、半角⇔全角、スペース区切り、カンマ区切り）して単語ごとの出現頻度を算出できるようになりたくて、jupyter-notebookにて課題に取り組んでおりますが、最初の課題で躓いてしまいました。

### 該当のソースコード

Python3
ソースコード
import re

f_test = open('hoge.txt','r') #txtをインポート。ちゃんとできたかprintで確認。
lines = f_test.readlines()
for line in lines:
    print(line)

f_test.close()

with open('hoge.txt','r') as f: #全て小文字に変換。ちゃんとできたかprintで確認。
    lines=f.read().lower()
    print(lines)

def words_list(lines): #スペースで区切って単語リストを作る。printで確認できない。
    return re.split(("[^a-z]+",lines)[:-1])
    print(word_list)

def words_to_count(word_list): #辞書を作って単語をカウント。printで確認できない。
    wdict={word:0 for word in set(word_list)}
for w in word_list:
        wdict[w] += 1
 return wdict
    print(wdict)

def print_words(word_dict): #降順に並び替え。printで確認できない。
    for word in sorted(word_dict,key=lambda x:(-word_dict[x],x)):
print(word,word_dict[word])

### 試したこと

txtのインポート、大文字を小文字に変換する、は正しくできたかどうかをprint()で確認できたのですが、その後の正規表現を用いてスペース区切りにて単語をリストに分割、で躓き、以後の単語ごとに出現回数をカウント、出現回収降順に並び替える、が上手くいかず、本やWebで調べたものの上手くいきませんでした。

### 補足情報（FW/ツールのバージョンなど）

jupyternotebookでコードが正しいか都度確認するようにしていますが、正規表現以降ではエラーも何もでないものの以後うまくいかない。

Answer

インデントが潰れていて読めないので若干憶測含みですが、関数の概念が理解できていないのではないでしょうか。

```python
>>> def add1(x):  # ここで実行される訳ではない
...     print(x+1)
... 
>>> add1(1)  # 関数呼び出しを行って初めて呼び出される
2
>>> hoge = 10
>>> add1(hoge)  # 適当な変数名でもいい（引数名と合わせる必要はない）
11
>>> def add2(x):
...     x = x + 2  # 関数の中で引数に代入してみる
...     print(x)
... 
>>> fuga = 20
>>> add2(fuga)
22
>>> fuga # 呼び出し元には影響が波及しない（代入に関してであって、属性アクセスなどはまた別）
20
```

というあたりをよく勉強してください（文字列操作どうこう以前にやるべきことが多そう）。

Answer

マークダウンにコードを埋め込む方法があるので　利用してはいかがでしょうか

```pyhon
import re

f_test = open('hoge.txt','r') #txtをインポート。ちゃんとできたかprintで確認。
lines = f_test.readlines()
for line in lines:
print(line)

f_test.close()

with open('hoge.txt','r') as f: #全て小文字に変換。ちゃんとできたかprintで確認。
    lines=f.read().lower()
    print(lines)

def words_list(lines): #スペースで区切って単語リストを作る。printで確認できない。
    return re.split(("[^a-z]+",lines)[:-1])

print(word_list)

def words_to_count(word_list): #辞書を作って単語をカウント。printで確認できない。
    wdict={word:0 for word in set(word_list)}
    for w in word_list:
        wdict[w] += 1
    return wdict

print(wdict)

def print_words(word_dict): #降順に並び替え。printで確認できない。
    for word in sorted(word_dict,key=lambda x:(-word_dict[x],x)):

print(word,word_dict[word])
```

コード修正の参考に
https://qiita.com/hatchinee/items/a904c1f8d732a4686c9d

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問