質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
TypeScript

TypeScriptは、マイクロソフトによって開発された フリーでオープンソースのプログラミング言語です。 TypeScriptは、JavaScriptの構文の拡張であるので、既存の JavaScriptのコードにわずかな修正を加えれば動作します。

Q&A

解決済

2回答

476閲覧

正規表現で完全一致で単語を取得できない

syen2501

総合スコア38

TypeScript

TypeScriptは、マイクロソフトによって開発された フリーでオープンソースのプログラミング言語です。 TypeScriptは、JavaScriptの構文の拡張であるので、既存の JavaScriptのコードにわずかな修正を加えれば動作します。

0グッド

0クリップ

投稿2018/10/20 16:23

編集2018/10/20 16:41

TypeScriptで特定の単語を正規表現で取得したいと思いサンプルなどを調べていました。
目的として、テキストを取得し、特定の語を完全一致で取得したいと思いプログラムを
作成しています。

サンプルとして、下記のプログラムは実行できることを確認しました。

TypeScript

1 var str = 'the first 3 letters of the alphabet are abc. not abc123'; 2 var s = "abc"; 3 var regexp = eval("/\b(" + s + ")\b/g;"); //完全一致させるための正規表現 4 console.log(str.search(regexp));

しかし、実際にテキストからドキュメントを取得し同じように正規表現で判定させようとすると
「-1」が帰ってきてしまいます。
原因が分からないので、助言をいただければ幸いです。よろしくお願いします。

TypeScript

1'use strict'; 2import * as vscode from 'vscode'; 3import * as fs from 'fs'; 4 5export function activate(context: vscode.ExtensionContext) { 6 console.log('Congratulations, your extension "semieditor" is now active!'); 7 const readJson = JSON.parse(fs.readFileSync('C:\Users\\shin\src\parent_dict.json','utf8')); 8 9 context.subscriptions.push(vscode.commands.registerCommand('extension.color', () => { 10 vscode.window.showInformationMessage("Color Range Word"); 11 const strengthTimeWordList = readJson.強時間; 12 13 function decorateWord() { 14 const activeEditor = vscode.window.activeTextEditor; 15 const text = activeEditor.document.getText(); //ドキュメント取得 16 for (let i = 0; i < strengthTimeWordList.length; i++){ 17 let word = strengthTimeWordList[i].split('=>'); 18 let rangeWord = word[0]; //jsonファイル内の左辺(矢印の左側の単語) 19 let rangeWordreg = eval("/\b(" + rangeWord + ")\b/g;"); 20 console.log(text.search(rangeWordreg)); 21 } 22 } 23 decorateWord(); 24 })); 25

<parent_dict.json>

json

1{ 2 "強時間":["現在=>設置している", 3 "(現在=>設置している", 4 "現在は=>使わず" 5 ] 6}

<取得したテキスト>
現在はあるものを使わず、別のものを使用している。
・現在設置しているものを使用すること。
(現在設置している機器の仕様)

<実行結果>
Congratulations, your extension "semieditor" is now active!
-1
-1
-1

※最終目標として、jsonファイル内の矢印の左と右の単語それぞれで
対応させてその単語だけハイライトで表示するようにしたい。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

私が認識できた限りでは、現在.*設置しているのような正規表現でマッチングさせればとりあえずの目標には届くんじゃないかと思えました。

本当にちゃんとやろうとするなら、MecabとかCabochaとかを使った解析が必要になると思います。
https://qiita.com/nezuq/items/f481f07fc0576b38e81d

投稿2018/10/21 08:19

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

syen2501

2018/10/21 11:23

回答ありがとうございます。 「現在.*設置している」の正規表現を他の語でも判定させて無事にマッチングさせることが出来ました。
guest

0

console.log()での出力箇所を増やしてみて、どの部分が意図しない結果になっているのか絞り込んでみると良いと思います。

追記

文字列のセットが検索対象に含まれるかチェックしたいのであれば、正規表現を使うのではなく、データ構造とロジックを見直せば良いと思います。

データはこんな感じ。

json

1{ 2 "強時間":[ 3 ["現在","設置している"], 4 ["(現在","設置している"], 5 ["現在は","使わず"] 6 ] 7}

あとは例えば「現在」「設置している」が両方とも見つかった場合に何かするといったように修正すればよい気がします。

投稿2018/10/20 17:16

編集2018/10/21 04:37
mrkmyki

総合スコア325

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

syen2501

2018/10/20 18:18

console.log()での出力結果を増やして見てみたところ、decorateWord関数内にあるfor文内の let rangeWordまでは期待通りの出力結果でした。 よって、正規表現に変換する部分がおそらく間違っているだろうと思うのですが、 色々調べて、\b文字列\bで完全一致が出来るというのがあったので使用しているのですが 間違っているのでしょうか? URL:https://code.i-harness.com/ja/q/601bc6
mrkmyki

2018/10/20 18:40

\bというのは単語境界を表すメタ文字です。「\b文字列\bで完全一致が出来る」というのは、理解が違っているように思います。 完全一致とは、何と何を完全一致させたいのでしょうか。 textとrangeWordが同じかどうかを調べるのならif( text === rangeWord)でいいですよね。
syen2501

2018/10/21 03:16

私はrangeWordと取得してきた文章を比較し、その文章内にrangeWordと同じ単語があれば その単語の位置を返すようにしたいです。 ここでのtextは文章が入ります。ですので、if( text === rangeWord)を試したのですが 一致しませんでした。 ですので正規表現を用いて判定しようと考えています。
mrkmyki

2018/10/21 03:44

> の文章内にrangeWordと同じ単語があれば その単語の位置を返すようにしたいです 単純に単語が含まれるかをチェックするのであれば、正規表現を使う必要はありません。 `indexOf()`で良いと思います。 そして「現在はあるものを使わず」に「現在」「設置している」等が含まれるかをチェックするのであれば、 parent_dict.jsonの中身は `{"強時間":["現在","設置している","(現在","設置している","現在は",""使わず"]}` のようにする必要がありそうです。
syen2501

2018/10/21 04:19

回答ありがとうございます。 実は「現在=>設置している」としている理由は、「現在」と「設置している」をそれぞれペアとして 別々の色で表示させようと考えています。 最初はindexOf()で作成し、結果として「(現在=>設置している」と「現在は=>使わず」は ハイライトさせることに成功しました。 しかし、「現在=>設置している」の「現在」をindexOfで検索するときに、最初の行の「現在は」の 部分にマッチしていまい本来ハイライトしてほしい語がハイライトされないというバグが起こっています。 従って、正規表現で判定した方が良いと思い解決法が思いつかず質問しました。 長々と申し訳ありません。
mrkmyki

2018/10/21 04:38

回答に追記しました。
syen2501

2018/10/21 06:17

回答ありがとうございます。何度も申し訳ございません。 追記して頂いた回答でjsonファイルを読み込んだ時に、 判定する条件として、下記のように行っているのですが、 indexOf()だと単語を含んでいると処理してしまうので、「現在」という単語を判定する際、 文章に「現在は」の「現在」で反応してしまいます。完全一致で検索する方法はないですか? if (text.indexOf(strengthTimeWordList[i][0]) !== -1 && text.indexOf(strengthTimeWordList[i][1], text.indexOf(strengthTimeWordList[i][0])) !== -1) ※例) strengthTimeWordList[0] = ["現在"], strengthTimeWordList[1] = ["設置している"]
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問