質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.03%

javascriptで独自のスクリプトを解釈できるパーサーを作りたい。(Peg.jsを使用?)

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,281

clubman

score 52

前提・実現したいこと

Peg.jsを使って四則演算や独自のif文、関数が解釈できるパーサーを作成したいです。

HTMLとjavascriptでWebアプリケーションを作成しています。
その機能の一つとして、テキストエリアやコンボボックスに対して独自の構文スクリプトを設定しそのスクリプトを実行させたいです。
例えば、テキストエリアA・テキストエリアBがあり、テキストエリアAに「if(#[テキストエリアB] = "", MyValue(), #[テキストエリアB])」という構文が設定されているとします。この構文の意味は「テキストエリアBが空白の場合はテキストエリアAの値を設定し、そうでなければテキストエリアBの値を設定する」という意味です。
質問内容としては、javascriptで構文解析をしたいのですが自力でゼロから作るのは難しいと思っています。
そこで調査したところ、Peg.jsなるものを見つけました。
そのPeg.jsで不明点がいくつかあります。

発生している問題・エラーメッセージ

まずhttp://pegjs.org/onlineにサンプルがあるのでこれから勉強しようと思っているのですがサンプルの構文に分からないところがあります。

1.一番下に「_」をスペースとして定義している箇所があります。スペースは「 \t\n\r」の繰り返しからなっている。ということは分かるのですが、「"whitespace" 」は何のための記述かわかりません。
2.Integerの定義に「text()」という関数が呼ばれていますが何ものでしょうか。
3.Termの定義に関してはお手上げ状態です。tailという変数が突然出てきますし添え字の意味も不明です。
4.このサンプルでは四則演算ができ、「2 * (3 + 4)」と与えれば3 + 4を先に評価していますがどこの定義で優先での指定をしているのでしょう。

質問も漠として申し訳ありませんがご回答いただければ幸いです。どうぞよろしくお願いいたします。
※Peg.jsにこだわるつもりはなく他にも実現方法などがあればぜひご教示ください。

該当のソースコード

Expression
  = head:Term tail:(_ ("+" / "-") _ Term)* {
      var result = head, i;

      for (i = 0; i < tail.length; i++) {
        if (tail[i][1] === "+") { result += tail[i][3]; }
        if (tail[i][1] === "-") { result -= tail[i][3]; }
      }

      return result;
    }

Term
  = head:Factor tail:(_ ("*" / "/") _ Factor)* {
      var result = head, i;

      for (i = 0; i < tail.length; i++) {
        if (tail[i][1] === "*") { result *= tail[i][3]; }
        if (tail[i][1] === "/") { result /= tail[i][3]; }
      }

      return result;
    }

Factor
  = "(" _ expr:Expression _ ")" { return expr; }
  / Integer

Integer "integer"
  = [0-9]+ { return parseInt(text(), 10); }

_ "whitespace"
  = [ \t\n\r]*

補足情報(言語/FW/ツール等のバージョンなど)

このアプリケーションはWindowsのアプリとしてあるのですがそれをHTML版に作り替えることになっています。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • kei344

    2016/09/02 23:37

    コードはコードブロックで囲んでいただけませんか? ```(バッククオート3つ)で囲み、前後に改行をいれるか、コードを選択して「<code>」ボタンを押すとコードブロックになります。また、質問文をコードブロックに囲うと読みにくいので、そこは外してください。

    キャンセル

回答 1

+1

どうやら「PEG」という考え方のJavaScript実装のようですね。
なんとなくですが、XSLTに似ているな、と感じました。

理解したとは言えませんが、私なりにドキュメントを読んでみて分かる範囲でお答えします。

 1. 一番下に「_」をスペースとして定義している箇所があります。スペースは「 \t\n\r」の繰り返しからなっている。ということは分かるのですが、「"whitespace" 」は何のための記述かわかりません。

A rule can also contain human-readable name that is used in error messages (in our example, only the integer rule has a human-readable name).

とありました。
与えられた文字列のパースエラーが発生したときのエラーメッセージに名前付けする為のもののようです。
要するにラベルですね。

 2. Integerの定義に「text()」という関数が呼ばれていますが何ものでしょうか。

The code inside the action can also access the text matched by the expression using the text function.

という記述があります。
正規表現における$0のようなものだと理解しました。

 3. Termの定義に関してはお手上げ状態です。tailという変数が突然出てきますし添え字の意味も不明です。

サンプルコードを読んでいる限り、構文は

[規則名] = [パラメータ名]:[規則型/マッチング文字列] { [JavaScript式] }

となっているように感じました。
パラメータが複数あるときは半角スペース区切りっぽいですね。
というわけで別に「tailという変数が突然出て」くるわけではなく、ちゃんと宣言されています。
添字はtailのマッチング文字列を半角スペース区切りで取っているだけだと思います。

 4. このサンプルでは四則演算ができ、「2 * (3 + 4)」と与えれば3 + 4を先に評価していますがどこの定義で優先での指定をしているのでしょう。

もうこれはPEGの仕様をがっつり読んだほうがいいですよ、としか言えないですね。
Factorの定義で「パーレンに囲まれた式がなければIntegerのマッチングに移行する」とされており、これが優先順位として結果に出ているのだと思います。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/09/03 21:54

    ご丁寧なご回答ありがとうございます。
    1、2に関しては理解できました。
    3に関しては「半角スペース区切りで取っているだけ」とはその通りのようですね。alert文を入れてみて確認してみました。ですがなぜ二次元配列になりtailという変数に値が入ってくるのかがピンときません。。
    4に関しては頑張るしかないのですね。ご察しだとは思いますが当方英語がダメなものでドキュメントを読めれば解決する質問もあったことは申し訳なく思っております。
    PEGに関しては情報が少なく日本語の解説書などあればよいのですがそれもなく苦戦していますが地道に理解できるよう努力いたします。

    キャンセル

  • 2016/09/03 22:52 編集

    確かに日本語の情報は少ないみたいですね。
    とはいえ全くない訳でもなく、 Qiita.com なんかを見ていると言及もちらほらあるようです。
    http://qiita.com/tags/pegjs

    かく言う私も彼らの記事を拝見して知識を補完した上で上記コメントをさせていただいた次第です。

    > なぜ二次元配列になりtailという変数に値が入ってくるのかがピンときません。
    推測ですが、tailで表現されたマッチングパターンに一致する文字列群が配列となって代入されているのではないでしょうか。
    正規表現も、例えばJavaScriptであれば、
    "abc".match(/\w/g); // => ["a", "b", "c"]
    のように配列が返りますよね。
    これと似たイメージでいいと思います。

    キャンセル

  • 2016/09/04 15:57

    リンクのサイトは質問の前に目を通していたのですが、みなさんPEGを理解したうえで書いているようで私のような本当の基礎の部分に触れられているページが見当たらなかったので質問させていただきました。
    tailに関しては今のところはそんなものだという認識で納得しておくことにします^^
    ありがとうございました。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.03%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる