大文字の英単語が２語連続で続く英語の抽出について

お世話になります。

大文字の英単語が２語連続で続く英語の抽出について聞きしたいです。
例えば、「We are TANAKA and YAMADA HANAKO」とあった場合に

列1	列2	列3
TANAKA	YAMADA	HANAKO

とせずに

列1	列2
TANAKA	YAMADA HANAKO

と抽出したいのですが、いい方法が思いつきません。
大文字のみの抽出はできるのですが、自分のしたいようになりません。

python
1import numpy as np
2import pandas as pd
3
4data="We are TANAKA and YAMADA HANAKO"
5d=data.split(" ")
6f=[i for i in d if i.isupper()]
7df=pd.DataFrame(f).T

ご教示いただけますと幸いです。

よろしくお願いいたします。

行動規範の内容に同意します

回答3件

python
1import pandas as pd
2
3text = 'We are TANAKA, YAMADA HANAKO and ENGLISHMAN IN NEWYORK'
4
5df = pd.DataFrame({'text': [text]})
6dfx = (
7  df['text'].str
8    .extractall(r'((?:[A-Z]+(?=\b))(?:\s+[A-Z]+(?=\b))*)')
9    .reset_index(drop=True)
10    .T.rename(lambda x: f'列{x+1}', axis=1))
11
12print(dfx)
13
14#
15      列1            列2                    列3
160  TANAKA  YAMADA HANAKO  ENGLISHMAN IN NEWYORK

投稿2022/01/13 16:21

編集2022/01/13 16:45

melian

総合スコア21727

sham0909

2022/01/14 01:14

ご回答ありがとうございます。参考にさせていただきます

行動規範の内容に同意します

正規表現を使うのがいいでしょう。

Python
1import re
2data="We are TANAKA and YAMADA HANAKO"
3d = re.findall(r"\b[A-Z]+(?: [A-Z]+)?\b",data)

投稿2022/01/13 13:52

otn

総合スコア86590

sham0909

2022/01/13 14:11

ご回答ありがとうございました。２語であれば、ここまでシンプルにできたのですね。正規表現・・・勉強します。

otn

2022/01/13 14:31 編集

2語かどうかは本質的じゃないです。2語以上なら (?: [A-Z]+)? の「0回か1回」の「?」を (?: [A-Z]+)* と、「0回以上の繰り返し」の「*」に変えるだけです。と、普通なら2語以上になってしまうところをあえて2語だけに制限していました。やりたいことはちゃんと質問文に書きましょう。

sham0909

2022/01/14 01:13

ありがとうございました。以後気をつけます

行動規範の内容に同意します

ベストアンサー

以下のようにすれば、TANAKAとYAMADA HANAKOを抽出できます.あとは。これをDataFrameにするのか簡単です。

python
1>>> txt = 'We are TANAKA and YAMADA HANAKO'
2>>> import re
3>>> not_uppers = [w for w in txt.split() if w != w.upper()]
4>>> uppers = [w for w in re.split(' *' + ' *| *'.join(not_uppers) + ' *', txt) if w!= '']
5>>> print(uppers)
6['TANAKA', 'YAMADA HANAKO']