スペースやハイフンも完全一致の場合だけ文字列を取得したいが1つのコードで処理できない
解決済
回答 2
投稿
- 評価
- クリップ 0
- VIEW 343
前提・実現したいこと
「文字列に含まれる単語と、あらかじめ指定した単語リスト中の単語が、完全一致するものを見つけたい」です。
前回の質問「Pythonで文字列の完全一致の判定に失敗する問題について」では、ハイフンの処理や部分一致の回避の仕方は分かったのですが、スペースも含めた(looks cool
)という文字列を引っ張ってこようとすると分割(スプリット)が使用できず、実現したい出力を一気に求める方法がわからず困っています。
#入力
text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'l', 'looks cool', 'T-shirt']
#出力
cool
looks cool
T-shirt
発生している問題・エラーメッセージ
['The', 'T-shirt', 'looks', 'cool']
cool
T-shirt
no splitter:
T
shirt
cool
l
looks cool
T-shirt
該当のソースコード
text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'looks cool', 'T-shirt']
splitted = list(map(lambda x: x.strip(' .,!?'), text.split()))
print(splitted)
for word in words:
if word in splitted:
print(word)
print('no splitter:')
for word in words:
if word in text:
print(word)
補足情報(FW/ツールのバージョンなど)
python 3.7.4
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
+1
- 単語リスト
words
に含まれる文字列word
に空白が含まれている場合、word.split
で複数の単語subword
に分割する。 - 検索文字列を分割したリスト
splitted
に、それぞれのsubword
が含まれている位置(インデックス)を保存するリストresult
を生成する。 - 複数の
subword
のひとつでもsplitted
に含まれていない場合、ValueError
例外が発生するので、そこで現在の文字列word
は検索文字列に含まれていない。次のword
の処理に移る。 - すべての
subword
がsplitted
に含まれていた場合、生成されたリストresult
に含まれる数値(インデックス)が連続しているか(つまり、現在の数値が直前の数値に1足した値か)を調べる。 - ひとつでも不連続であれば、現在の文字列
word
は検索文字列に含まれていない(正確には、バラバラに各単語が含まれている)。次のword
の処理に移る。 - すべて連続しているのであれば、現在の文字列
word
が、検索文字列にそのままの形で含まれているので、表示処理を行なう。
text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'looks cool', 'T-shirt']
splitted = list(map(lambda x: x.strip(' .,!?'), text.split()))
print(splitted)
for word in words:
if word in splitted:
print(word)
elif " " in word:
try:
result = [splitted.index(subword) for subword in word.split()]
for i in range(len(result)):
if i > 0 and result[i] != result[i - 1] + 1:
continue
print(word)
except ValueError:
continue
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
+1
要件が今ひとつ不明瞭ですが、「前後が英数字でもハイフンでもない」ということだと、正規表現で。
for word in words:
if re.search(f"(?<![\w-]){word}(?![\w-])",text):
print(word)
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.36%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる