質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.36%

スペースやハイフンも完全一致の場合だけ文字列を取得したいが1つのコードで処理できない

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 343

harunouta

score 144

前提・実現したいこと

「文字列に含まれる単語と、あらかじめ指定した単語リスト中の単語が、完全一致するものを見つけたい」です。

前回の質問「Pythonで文字列の完全一致の判定に失敗する問題について」では、ハイフンの処理や部分一致の回避の仕方は分かったのですが、スペースも含めた(looks cool)という文字列を引っ張ってこようとすると分割(スプリット)が使用できず、実現したい出力を一気に求める方法がわからず困っています。

#入力
text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'l', 'looks cool', 'T-shirt']

#出力
cool
looks cool
T-shirt

発生している問題・エラーメッセージ

['The', 'T-shirt', 'looks', 'cool']
cool
T-shirt
no splitter:
T
shirt
cool
l
looks cool
T-shirt

該当のソースコード

text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'looks cool', 'T-shirt']

splitted = list(map(lambda x: x.strip(' .,!?'), text.split()))
print(splitted)
for word in words:
    if word in splitted:
        print(word)


print('no splitter:')
for word in words:
    if word in text:
        print(word)

補足情報(FW/ツールのバージョンなど)

python 3.7.4

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

  • 単語リストwordsに含まれる文字列wordに空白が含まれている場合、word.splitで複数の単語subwordに分割する。
  • 検索文字列を分割したリストsplittedに、それぞれのsubwordが含まれている位置(インデックス)を保存するリストresultを生成する。
  • 複数のsubwordのひとつでもsplittedに含まれていない場合、ValueError例外が発生するので、そこで現在の文字列wordは検索文字列に含まれていない。次のwordの処理に移る。
  • すべてのsubwordsplittedに含まれていた場合、生成されたリストresultに含まれる数値(インデックス)が連続しているか(つまり、現在の数値が直前の数値に1足した値か)を調べる。
  • ひとつでも不連続であれば、現在の文字列wordは検索文字列に含まれていない(正確には、バラバラに各単語が含まれている)。次のwordの処理に移る。
  • すべて連続しているのであれば、現在の文字列wordが、検索文字列にそのままの形で含まれているので、表示処理を行なう。
text = "The T-shirt looks cool."
words = ['T', 'shirt', 'cool', 'looks cool', 'T-shirt']

splitted = list(map(lambda x: x.strip(' .,!?'), text.split()))
print(splitted)
for word in words:
    if word in splitted:
        print(word)
    elif " " in word:
        try:
            result = [splitted.index(subword) for subword in word.split()]
            for i in range(len(result)):
                if i > 0 and result[i] != result[i - 1] + 1:
                    continue
            print(word)
        except ValueError:
            continue

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

+1

要件が今ひとつ不明瞭ですが、「前後が英数字でもハイフンでもない」ということだと、正規表現で。

for word in words:
    if re.search(f"(?<![\w-]){word}(?![\w-])",text):
        print(word)

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.36%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る