「大文字のアルファベット一文字」を文字列から見つけ、削除したいと考えています。

正規表現について公式ドキュメントを読み、次のように考えました。

「大文字のアルファベット」は[A-Z] もしくは ¥U　で指定できるのではないか
{1} もしくは ? を直後につけることで一文字と指定できるのではないか

https://docs.python.org/ja/3/library/re.html#regular-expression-syntax

問題のコード

python
1import re
2hogehoge = "1 F 11 FF 111 FFF"
3result = re.sub(r'[A-Z]{1}', '', hogehoge)
4print(result)

output
11  11  111 
2

理想のアウトプットは以下の通りです。

idealoutput
11  11 FF 111 FFF
2

なお、r'[A-Z]?' とした場合には同様の出力。r'¥U{1}'とした場合にはhogehogeが返ってきました。

実行環境

mac 10.15.4（19E287）
Python 3.8.1
jupyter-notebook 6.0.3

なにか凡ミスだと思うのですが、よろしくお願い致します。

行動規範の内容に同意します

回答2件

こういうことですかね。

re.sub(r'(?<![A-Z])[A-Z](?![A-Z])', '', hogehoge)

投稿2020/04/24 08:41

編集2020/04/24 08:42

KojiDoi

総合スコア13692

takurooper

2020/04/24 08:51

ご回答ありがとうございます！！先に回答していただいたため、LouiS0616様をベストアンサーとさせていただきました。

行動規範の内容に同意します

ベストアンサー

質問の意図を読み違えていたので修正。

例えば、

hogehoge = "1 FF 11 F 111 G"
という文字列を
result = "1 FF 11 111" （空白については不問）
として取り出したいと考えております。

否定先読み・後読みが便利です。

Python
1>>> re.sub(r'(?<![A-Z])[A-Z](?![A-Z]) ?', '', '1 F 11 FF 111 FFF')
2'1 11 FF 111 FFF'
3>>> re.sub(r'(?<![A-Z])[A-Z](?![A-Z]) ?', '', '1 FF 11 F 111 G')
4'1 FF 11 111 '

追記・別解

ド派手に質問を勘違いした上に、
修正の結果KojiDoiさんのパクリみたいになってしまったので差別化のため追記。

次のようなアプローチも有効だと思います。

Python
1import re
2
3src = '1 FF 11 F 111 G'
4dst = ' '.join(
5    seq for seq in src.split()
6    if not re.fullmatch(r'[A-Z]', seq)
7)
8print(dst)

修正前の回答

re.subはマッチした部分文字列の全てを置き換えます。そういう仕様です。
置き換え回数を抑制したい場合は、引数countを利用します。

Python
1>>> re.sub(r'[A-Z]{1}', '', hogehoge)
2'1  11  111 '
3>>> re.sub(r'[A-Z]{1}', '', hogehoge, count=1)
4'1  11 FF 111 FFF'

re --- 正規表現操作 — Python 3.8.2 ドキュメント

なお、正規表現はただ [A-Z] で充分です。
[A-Z]{1} は冗長ですし、[A-Z]? だとちょっと意味合いが変わってきます。

投稿2020/04/24 08:28

編集2020/04/24 08:57

LouiS0616

総合スコア35668

takurooper

2020/04/24 08:34

ご回答ありがとうございます。質問の意図がわかりにくかったかもしれませんが、アルファベット一文字を、回数の制限なく削除したいと考えています。例えば、 hogehoge = "1 FF 11 F 111 G" という文字列を result = "1 FF 11 111" （空白については不問）として取り出したいと考えております。

LouiS0616

2020/04/24 08:37

確かに『大文字のアルファベット一文字』を素直に解釈するとそうなりますね。ちょっと読み違えていたようです。失礼しました。回答を修正しますので、少々お待ち下さい。

LouiS0616

2020/04/24 08:42

ああっと、修正しましたのですがこれもちょっと外してますね。もうちょっと手直しします。

LouiS0616

2020/04/24 08:46

修正しました。

takurooper

2020/04/24 08:50

できました、ありがとうございます！！ {1}では一文字を指定できず、（A-Z以外）（A-Z）（A-Z以外）のように指定するということだったのですね。助かりました！

KojiDoi

2020/04/24 08:57

「{1}では一文字を指定できず、」ではありません。正規表現マッチは基本的に部分マッチなので、X{1}はXにもXXにもXXXにもマッチしてしまいます。単に量指定子を使っただけでは質問の意図のような選別は出来ないのです。「この前に大文字は来ない」「この後に大文字は来ない」を明確に指示してやる必要があるということです。

行動規範の内容に同意します

あなたの回答