[Python]文字列から英単語のみのリストを生成したい (正規表現について)

Question

### 前提・実現したいこと
文字列から英単語のみのリストを生成したい

例
Subject: Re: WINBENCH 3.11 help
→['Subject', 'Re', 'WINBENCH', 'help']

### 発生している問題・エラーメッセージ
実行した結果，以下のようなa,A,z,Zのみからなるリストが出力されました．正規表現に問題があるものと思われるのですが，原因が分かりません．
![イメージ説明](db4e357af65a39f264458107aedaf1c8.png)
### 該当のソースコード
読み込まれた文字列はlinesに入っているものとします．
```ここに言語名を入力
	for line in lines: # 読み込まれたテキストデータを行単位で処理
		new_string = line.strip() # line 前後の余分な文字を除去
		# [^a‐z A‐Z
]は a‐z でも A‐Z でもない任意の文字
		new_string = re.sub('[^a‐zA‐Z
]', ' ',new_string)
		new_string = re.sub('.', ' ', new_string) # ピリオドを半角スペースに
		new_string = re.sub('[0‐9]', ' ', new_string) # 数字を半角スペースに
		words = new_string.split() # スペースで split し、単語リストを得る
		print(words)
```

### 試したこと

new_string = re.sub('[^a‐zA‐Z
]', ' ',new_string)をいったん消去して実行したところ，以下のように余分な文字が含まれますがちゃんとした単語が表示されました．おそらく問題点は正規表現の書き方にあると考えられます
![イメージ説明](4e92eed581c476307b5c1fe49203a27f.png)
### 補足情報（FW/ツールのバージョンなど）
Python3.8.6を使用しています．ターミナルはコマンドプロントです．

Accepted Answer

こんにちは

ご質問にあるコードをコピペして検証してみたところ、意図している結果にならない原因は、

```python
new_string = re.sub('[^a‐zA‐Z
]', ' ',new_string)
```

の正規表現 `[^a‐zA‐Z
]` で使われている二つのハイフン `‐` が、通常のハイフン、すなわちASCIIコード2Dのハイフン`-`**ではなく、** Unicode [U+2010](https://www.fileformat.info/info/unicode/char/2010/index.htm) のハイフンになっていることのようです。ですので、これらを通常の（2Dの）ハイフンに修正してみるといかがでしょうか？

- **参考:** [ハイフンに似てる文字の文字コード](https://qiita.com/ryounagaoka/items/4cf5191d1a2763667add)  ryounagaokaさん@Qiita


### 追記

見た目上ほとんど見分けがつきませんが、下記のような修正になります。

```diff
- new_string = re.sub('[^a‐zA‐Z
]', ' ',new_string)
+ new_string = re.sub('[^a-zA-Z
]', ' ',new_string)  # 通常のハイフンに修正
```

以下は、ご質問にあるコードをコピペし、修正前の上記の行をコメントアウトして、通常のハイフンに修正した行に置き換えたサンプルです。

- **動作確認用 Repl.it:** [https://repl.it/@jun68ykt/Q297047](https://repl.it/@jun68ykt/Q297047)

Answer

これでいいのでは？

```
words = re.split(r'[^a-zA-Z]+', new_string)
```

前提・実現したいこと

発生している問題・エラーメッセージ

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

追記

関連した質問