質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.04%

Lemon ParserでCSSパーサーっぽいものが作れない

受付中

回答 0

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 1,078

score 716

PHP_ParserGeneratorを使用し、CSSに似た構文構造のファイルを解析するパーサーを作ろうとしています。
(なお、PHP_ParserGeneratorはLemon ParserをPHPに実装したもののため、Lemon Parserのドキュメントの日本語訳を読みながら作成しています。)
サンプルとして、以下の様なファイルを解析することを想定しています。

Selector {
    start-tag '<div>'
    raw-content "example"
    end-tag '</div>'
}

/*
こめんと
*/

Selector {
    element '<div>
    \"exa\\mple\'
</div>'
    /* ここで使えるか? */



    a 'a'
    b 'a'
    c 'a'
    d 'a'
    e 'a'
    f 'a'
    g 'a'


}

CSSと同じような構造のファイルです。

SelectorSelectors Level 3(CSS3セレクタ)に対応する予定ですが、今のところはSelectorの固定文字列で動作させています。
Selectorの後には、CSSと同じく{}で囲まれた宣言ブロック内に、プロパティと値が記述されています。
CSSとの相違点として、プロパティと値の区切りに:ではなくスペースを使用している点と、宣言(プロパティと値を組み合わせたもの)の区切りに;ではなく改行を使用してる点が挙げられます。

これを解析するため、実際に書いた.yファイルは以下になります。

%name MyParser
%declare_class { class MyParser }

/**
 * エラー時の処理
 * スタックの内容をecho文で出力した後、例外を発生させる
 */
%syntax_error {
    echo 'Syntax Error';
    if (isset($this->lex)) {
        echo ' on line ', $this->lex->line, ": token '", $this->lex->value, "'";
    }

    echo ' while parsing rule:', "\n\n";
    $rules = array();
    foreach ($this->yystack as $entry) {
        $major = $this->tokenName($entry->major);
        ob_start();
        var_dump($entry->minor);
        $minor = preg_replace(
            '/^/m',
            '  ',
            trim(ob_get_clean(), "\r\n")
        );
        $rules[] = $major.":\n".$minor;
    }
    echo implode("\n\n", $rules);

    foreach ($this->yy_get_expected_tokens($yymajor) as $token) {
        $expect[] = self::$yyTokenName[$token];
    }
    throw new Exception(
        'Unexpected ' . $this->tokenName($yymajor) . '(' . $TOKEN . '), expected one of: ' . implode(',', $expect)
    );
}
%include_class {
    private $ast;

    function getAst()
    {
        return $this->ast;
    }
}

/* ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** */

/**
 * Note: 字句解析器で定義しているトークンの正規表現です
 */
// SELECTOR = /Selector/
// IDENT = /-?[_a-zA-Z][_a-zA-Z0-9-]*/
// COMMENT = @//[^\r\n\f]*|/\*[^*]*\*+(?:[^/*][^*]*\*+)*/@
// APOS_STRING = /'(?:[^'\\]|\\[^']|\\['\\])*'/
// QUOT_STRING = /"(?:[^"\\]|\\[^"]|\\["\\])*"/
// INLINE_SPACE = /[ \t]+/
// NL = /\r\n|\r|\n|\f/
// L_CURLY_BRACKET = "{"
// R_CURLY_BRACKET = "}"

/* ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** */

template ::= statementList(A). {
    $this->ast = A;
}


/**
 * 宣言
 *
 * statementList: statement+
 * statement: ruleset | COMMENT | s
 */
statementList(A) ::= statement(B). { A = B; }
statementList(A) ::= statementList(B) statement(C). {
    A = array_merge((array)A, (array)B, (array)C);
}

statement(A) ::= ruleset(B). { A = array(B); }
statement ::= COMMENT.
statement ::= s.


/**
 * ruleset: selector s? declarationBlock
 */
ruleset(A) ::= selector(B) s_zo declarationBlock(C). {
    A = array(
        'selector' => B,
        'declarations' => C,
    );
}


/**
 * セレクタ
 * Selectors Level 3対応
 *
 * selector: SELECTOR
 */
selector(A) ::= SELECTOR(B). { A = B; }


/**
 * 宣言
 *
 * declarationBlock: "{" s? declarationList s? "}"
 * declarationList: declaration [ s? NL s? declaration ]*
 * declaration: property INLINE_SPACE value | COMMENT
 */
declarationBlock(A) ::= L_CURLY_BRACKET s_zo declarationList(B) s_zo R_CURLY_BRACKET. { A = B; }

// 宣言同士は改行で区切ります
declarationList(A) ::= declaration(B). { A = B; }
declarationList(A) ::= declarationList(B) inline_space_zo NL s_zo declaration(C). {
    A = array_merge((array)A, (array)B, (array)C);
}

// プロパティと値はスペースで区切ります
declaration(A) ::= property(B) INLINE_SPACE value(C). {
    A = array(
        B => C,
    );
}
// コメントも宣言の一種とみなします
declaration ::= COMMENT.


/**
 * プロパティ
 *
 * property: IDENT
 */
property(A) ::= IDENT(B). { A = B; }


/**
 * 値
 *
 * value: APOS_STRING | QUOT_STRING
 */
/* アポストロフィー(シングルクォート)で囲まれた文字列 */
value(A) ::= APOS_STRING(B). {
    A = array(
        'string',
        strtr(substr(B, 1, -1), array("\\'" => "'", '\\\\' => '\\')),
    );
}
/* クォーテーションマーク(ダブルクォート)で囲まれた文字列 */
value(A) ::= QUOT_STRING(B). {
    A = array(
        'string',
        strtr(substr(B, 1, -1), array('\\"' => '"', '\\\\' => '\\')),
    );
}


/**
 * 空白文字と改行
 *
 * s: space_chars+
 * space_chars: INLINE_SPACE | NL
 */
s ::= space_chars.
s ::= s space_chars.

space_chars ::= INLINE_SPACE.
space_chars ::= NL.


/**
 * s?
 */
s_zo ::= .
s_zo ::= s.


/**
 * INLINE_SPACE?
 */
inline_space_zo ::= INLINE_SPACE.
inline_space_zo ::= .

以上を作成し実際に実行してみたのですが、エラーとなります。

ブラウザ上には、%syntax_error内で定義している通りに動作した結果以下の文字列が出力され

Syntax Error while parsing rule:

End of Input:
  NULL

selector:
  string(8) "Selector"

s_zo:
  NULL

L_CURLY_BRACKET:
  string(1) "{"

s_zo:
  NULL

declarationList:
  array(1) {
    ["start-tag"]=>
    array(2) {
      [0]=>
      string(6) "string"
      [1]=>
      string(5) "<div>"
    }
  }

s_zo:
  NULL

例外のメッセージには以下の様な文面が出力されています。

Unexpected IDENT(raw-content), expected one of: R_CURLY_BRACKET

ここから予想できるのは、{}で囲まれた範囲内のdeclarationListを解釈する場合に、start-tag '<div>'を解釈した時点でdeclarationListが終了したものと謝って解釈しているためと考えられます。
本来、declarationListdeclarationを改行文字(と、その間にある空白文字)で区切った構造体であり、まだraw-content "example"end-tag '</div>'が残っています。
にも関わらず、すでに終了したと誤って解釈されており、start-tag '<div>'raw-content "example"の間の改行(+空白文字)がs_zoと解釈され、結果、直後にはdeclarationBlockを閉じるはずのR_CURLY_BRACKET(すなわち})が存在せず、パースエラーが発生しています。

この問題を解決するには、declarationList内の改行を優先的に識別させなければなりません。
このための記述として、Lemon Parserには%left,%right,%nonassocが定義されており、NLを指定すればいいように思えます。
しかし、0文字以上の空白文字を示すs_zo内でもNLを使用しているため、結局解決しません。
事実、%left NL.の記述を追加しても動作しませんでした。

余分な空白文字を無視しないことが問題をややこしくしていますが、スペースも改行も宣言やプロパティと値の区切りに使用しており、無視できるものではありません。

これはどう解決すれば良いのでしょうか?
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.04%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る