質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

Q&A

0回答

1485閲覧

Lemon ParserでCSSパーサーっぽいものが作れない

sounisi5011

総合スコア697

PHP

PHPは、Webサイト構築に特化して開発されたプログラミング言語です。大きな特徴のひとつは、HTMLに直接プログラムを埋め込むことができるという点です。PHPを用いることで、HTMLを動的コンテンツとして出力できます。HTMLがそのままブラウザに表示されるのに対し、PHPプログラムはサーバ側で実行された結果がブラウザに表示されるため、PHPスクリプトは「サーバサイドスクリプト」と呼ばれています。

0グッド

0クリップ

投稿2015/06/13 22:12

編集2015/11/29 09:33

PHP_ParserGeneratorを使用し、CSSに似た構文構造のファイルを解析するパーサーを作ろうとしています。
(なお、PHP_ParserGeneratorはLemon ParserをPHPに実装したもののため、Lemon Parserのドキュメントの日本語訳を読みながら作成しています。)
サンプルとして、以下の様なファイルを解析することを想定しています。

Selector { start-tag '<div>' raw-content "example" end-tag '</div>' } /* こめんと */ Selector { element '<div> \"exa\\mple\' </div>' /* ここで使えるか? */ a 'a' b 'a' c 'a' d 'a' e 'a' f 'a' g 'a' }

CSSと同じような構造のファイルです。

SelectorSelectors Level 3(CSS3セレクタ)に対応する予定ですが、今のところはSelectorの固定文字列で動作させています。
Selectorの後には、CSSと同じく{}で囲まれた宣言ブロック内に、プロパティと値が記述されています。
CSSとの相違点として、プロパティと値の区切りに:ではなくスペースを使用している点と、宣言(プロパティと値を組み合わせたもの)の区切りに;ではなく改行を使用してる点が挙げられます。

これを解析するため、実際に書いた.yファイルは以下になります。

%name MyParser %declare_class { class MyParser } /** * エラー時の処理 * スタックの内容をecho文で出力した後、例外を発生させる */ %syntax_error { echo 'Syntax Error'; if (isset($this->lex)) { echo ' on line ', $this->lex->line, ": token '", $this->lex->value, "'"; } echo ' while parsing rule:', "\n\n"; $rules = array(); foreach ($this->yystack as $entry) { $major = $this->tokenName($entry->major); ob_start(); var_dump($entry->minor); $minor = preg_replace( '/^/m', ' ', trim(ob_get_clean(), "\r\n") ); $rules[] = $major.":\n".$minor; } echo implode("\n\n", $rules); foreach ($this->yy_get_expected_tokens($yymajor) as $token) { $expect[] = self::$yyTokenName[$token]; } throw new Exception( 'Unexpected ' . $this->tokenName($yymajor) . '(' . $TOKEN . '), expected one of: ' . implode(',', $expect) ); } %include_class { private $ast; function getAst() { return $this->ast; } } /* ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** */ /** * Note: 字句解析器で定義しているトークンの正規表現です */ // SELECTOR = /Selector/ // IDENT = /-?[_a-zA-Z][_a-zA-Z0-9-]*/ // COMMENT = @//[^\r\n\f]*|/\*[^*]*\*+(?:[^/*][^*]*\*+)*/@ // APOS_STRING = /'(?:[^'\\]|\\[^']|\\['\\])*'/ // QUOT_STRING = /"(?:[^"\\]|\\[^"]|\\["\\])*"/ // INLINE_SPACE = /[ \t]+/ // NL = /\r\n|\r|\n|\f/ // L_CURLY_BRACKET = "{" // R_CURLY_BRACKET = "}" /* ***** ***** ***** ***** ***** ***** ***** ***** ***** ***** */ template ::= statementList(A). { $this->ast = A; } /** * 宣言 * * statementList: statement+ * statement: ruleset | COMMENT | s */ statementList(A) ::= statement(B). { A = B; } statementList(A) ::= statementList(B) statement(C). { A = array_merge((array)A, (array)B, (array)C); } statement(A) ::= ruleset(B). { A = array(B); } statement ::= COMMENT. statement ::= s. /** * ruleset: selector s? declarationBlock */ ruleset(A) ::= selector(B) s_zo declarationBlock(C). { A = array( 'selector' => B, 'declarations' => C, ); } /** * セレクタ * Selectors Level 3対応 * * selector: SELECTOR */ selector(A) ::= SELECTOR(B). { A = B; } /** * 宣言 * * declarationBlock: "{" s? declarationList s? "}" * declarationList: declaration [ s? NL s? declaration ]* * declaration: property INLINE_SPACE value | COMMENT */ declarationBlock(A) ::= L_CURLY_BRACKET s_zo declarationList(B) s_zo R_CURLY_BRACKET. { A = B; } // 宣言同士は改行で区切ります declarationList(A) ::= declaration(B). { A = B; } declarationList(A) ::= declarationList(B) inline_space_zo NL s_zo declaration(C). { A = array_merge((array)A, (array)B, (array)C); } // プロパティと値はスペースで区切ります declaration(A) ::= property(B) INLINE_SPACE value(C). { A = array( B => C, ); } // コメントも宣言の一種とみなします declaration ::= COMMENT. /** * プロパティ * * property: IDENT */ property(A) ::= IDENT(B). { A = B; } /** * 値 * * value: APOS_STRING | QUOT_STRING */ /* アポストロフィー(シングルクォート)で囲まれた文字列 */ value(A) ::= APOS_STRING(B). { A = array( 'string', strtr(substr(B, 1, -1), array("\\'" => "'", '\\\\' => '\\')), ); } /* クォーテーションマーク(ダブルクォート)で囲まれた文字列 */ value(A) ::= QUOT_STRING(B). { A = array( 'string', strtr(substr(B, 1, -1), array('\\"' => '"', '\\\\' => '\\')), ); } /** * 空白文字と改行 * * s: space_chars+ * space_chars: INLINE_SPACE | NL */ s ::= space_chars. s ::= s space_chars. space_chars ::= INLINE_SPACE. space_chars ::= NL. /** * s? */ s_zo ::= . s_zo ::= s. /** * INLINE_SPACE? */ inline_space_zo ::= INLINE_SPACE. inline_space_zo ::= .

以上を作成し実際に実行してみたのですが、エラーとなります。

ブラウザ上には、%syntax_error内で定義している通りに動作した結果以下の文字列が出力され

Syntax Error while parsing rule: End of Input: NULL selector: string(8) "Selector" s_zo: NULL L_CURLY_BRACKET: string(1) "{" s_zo: NULL declarationList: array(1) { ["start-tag"]=> array(2) { [0]=> string(6) "string" [1]=> string(5) "<div>" } } s_zo: NULL

例外のメッセージには以下の様な文面が出力されています。

Unexpected IDENT(raw-content), expected one of: R_CURLY_BRACKET

ここから予想できるのは、{}で囲まれた範囲内のdeclarationListを解釈する場合に、start-tag '<div>'を解釈した時点でdeclarationListが終了したものと謝って解釈しているためと考えられます。
本来、declarationListdeclarationを改行文字(と、その間にある空白文字)で区切った構造体であり、まだraw-content "example"end-tag '</div>'が残っています。
にも関わらず、すでに終了したと誤って解釈されており、start-tag '<div>'raw-content "example"の間の改行(+空白文字)がs_zoと解釈され、結果、直後にはdeclarationBlockを閉じるはずのR_CURLY_BRACKET(すなわち})が存在せず、パースエラーが発生しています。

この問題を解決するには、declarationList内の改行を優先的に識別させなければなりません。
このための記述として、Lemon Parserには%left,%right,%nonassocが定義されており、NLを指定すればいいように思えます。
しかし、0文字以上の空白文字を示すs_zo内でもNLを使用しているため、結局解決しません。
事実、%left NL.の記述を追加しても動作しませんでした。

余分な空白文字を無視しないことが問題をややこしくしていますが、スペースも改行も宣言やプロパティと値の区切りに使用しており、無視できるものではありません。

これはどう解決すれば良いのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問