正規表現で分からないことがあります

text = 記号や数字を含む文字列@記号や数字を含む文字列＠

というような文章が複数あり、@の全半角がランダムです。
これから文字列のみを切り分けて取得したいです

↓これはわかります

python
1import re
2re.split(r"[\＠\@]",text)

↓searchとかmatchで先読み(後読み)使ってやってみたい

python
1re.match(r"(\S+(?=[\＠\@]))(.)(\S+(?=[\＠\@]))(.)",text)

んですが、肯定先読みが最小で止まらない？ので上手く行きません
泥臭く半々に割って個別にmatchするのは思いつくんですが、スマートなやり方ってないもんでしょうか

@の全半角を一方に揃えるというのは無しでお願いします(どちらの状態か、にも意味があるため)

行動規範の内容に同意します

回答3件

アットマークで区切りたいが、そのアットマークが全角か半角かもチェックしたいということですね。ならsplitにひと工夫するのが早いのではないでしょうか。

import re
x=re.split("([@＠])", text)

こうすると区切り文字そのものも要素としてxに取り込まれるんで、続けて簡単に処理できるでしょう。

投稿2018/03/06 04:09

KojiDoi

総合スコア13671

KSwordOfHaste

2018/03/06 04:38

予想外のテクニックが・・・やはりリファレンスを見るというのは大事ですね。

drken35

2018/03/06 06:09

えーこれはすごい… ちょっと本当に申し訳ないんですがベストアンサーはfind使ってくれたnamniumさんにあげたいのですがこれはこれ単体で非常に勉強になりました。どうもありがとうございました (リファレンス読んでみたけど、どこに書いてあるか全然わからなかった…)

KSwordOfHaste

2018/03/06 06:20

https://docs.python.jp/3/library/re.html 最初の方に書いてありますよ。「キャプチャグループの丸括弧が pattern で使われていれば、パターン内のすべてのグループのテキストも結果のリストの一部として返されます。」

KojiDoi

2018/03/06 06:46

perlでもjavascriptでも使える超便利な手法なんですが、意外に知らない人が多いようですね。 javascript だとこんな感じ。 a="2018/03/04 12:34:56" a.split(/[/: ]/) > Array [ "2018", "03", "04", "12", "34", "56" ] a.split(/([/: ])/) > Array [ "2018", "/", "03", "/", "04", " ", "12", ":", "34", ":", … ]

行動規範の内容に同意します

python
1text = "ほげほげ＠hogehoge@12345678@abcdefgh＠"
2separator = '@＠'
3separated = {key:[] for key in separator}
4for x in re.findall('.+?[{}]'.format(separator), text):
5    separated[x[-1]].append(x[:-1])
6
7# {'＠': ['ほげほげ', 'abcdefgh'], '@': ['hogehoge', '12345678']}

投稿2018/03/06 05:29

fuzzball

総合スコア16731

ベストアンサー

こんな感じでしょうか？否定グループ[^否定対象]を使う方法です。

python
1re.findall(r'[^@＠]+[@＠]',text)

実行例

python
1import re
2
3text1 = 'hogefuga@barbaz@'
4text2 = 'fizz@buzz＠'
5text3 = 'aaaa＠bbbb＠'
6
7for t in (text1,text2,text3):
8    m = re.findall(r'[^@＠]+[@＠]',t)
9    print(*m,sep='\n',end='\n\n')
10    for n in m:
11        if n[-1] == '@':
12            print(n[:-1],'と半角@')
13        elif n[-1] == '＠':
14            print(n[:-1],'と全角＠')
15    print('\n-----\n')

実行例の結果

plain
1hogefuga@
2barbaz@
3
4hogefuga と半角@
5barbaz と半角@
6
7-----
8
9fizz@
10buzz＠
11
12fizz と半角@
13buzz と全角＠
14
15-----
16
17aaaa＠
18bbbb＠
19
20aaaa と全角＠
21bbbb と全角＠
22
23-----