質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.46%
Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

907閲覧

用意した複数のテキストに対してそれぞれ少し違う形のものもマッチするようにし、それらのテキストが含まれる文章から条件に合ったものをすべて抽出したい

mafusuke

総合スコア5

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/08/24 12:16

編集2020/08/24 12:29

現在、入力されたテキストから、正規表現を使って少しの文字の違いを許容し、テキストを複数ある中からこれだと判定する仕組みを作りたいと思っています。
具体的には、ゲームの武器名などが格納されており、例えば
bb-4というものであれば、
"bb(-|\s)?(4)?"
として正規表現で書いています。(誤差を考慮して-が空白でも,後の数字がなくてもマッチする)
そしてその格納されている中に"bb4-aim"という名前のものもあります。( "bb4(-|\s)?aim" )
マッチしたあとの文字列から、一つの武器名に対して一意に決められる番号を取得するのも困難だと考え、(?P<>)を使用して書くことでマッチした文字列の武器の番号も同時に取得できるようにしてみました。
そして,これらの正規表現を|でつなぎ,

python

1pattern = "|".join(上で示したようなものが複数ある正規表現のリスト) 2match_obj = re.search(pattern, "入力されたテキスト", re.IGNORECASE) 3match_dict = match_obj.groupdict() 4item_dict = {k: v for k, v in match_dict.items() if v is not None} # 値がNoneのものを取り除く 5# item_dictのキーがマッチした武器名の一意に決められる番号,値がマッチしたテキスト

このように書いたのですが,これでは"bb4-aim"と入力してもbb4でマッチしてしまうことに気づきました。bb4のもとのbb4-aimのものの順番を入れ替えればよいのですが、これらは番号順に並べていることもあり、さらに複雑になりそうなので困っています。
色々考えた末このような方法ですることとしたのですが、改善策や、他の手段があれば教えていただきたいです。
Python3.7です。

-- 追記 --
素朴にfor文ですべての正規表現を回して、試したのですが思っていたより高速で、私の場合これでも十分な気がしてきています。もし、このような方法以外に良いものがあればぜひ紹介していただきたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

入力文字列の詳細仕様がわからないので正確なことは言えませんが、文字列の一部でなく全体がいずれかのパターンに一致するという前提であれば、searchのかわりにfullmatchを使うことで精度を向上できないでしょうか?

Python

1pattern = "|".join(上で示したようなものが複数ある正規表現のリスト) 2match_obj = re.fullmatch(pattern, "入力されたテキスト", re.IGNORECASE)

投稿2020/08/24 12:34

GlassGrass

総合スコア52

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.46%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問