質問編集履歴

誤字の修正

2021/04/23 07:59

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -116,7 +116,7 @@
 よろしくお願い申し上げます。
 ### 加筆
-yambejp様からのコメントも参考にdomを使用して、ホワイトリスト外のものをreplace使用というアプローチを考えました。
+yambejp様からのコメントも参考にdomを使用して、ホワイトリスト外のものをreplaceしてみるというアプローチを考えました。
 例えば以下のような`replaceChild()` を使用したとしても、ノードはツリー構造を持っている（と推察）ため単純に含めたくないnodeNameやtagNameの要素をreplaceすることができません。。
 やはり手詰まりです。

試したことを、追記いたしました。

2021/04/23 07:59

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -113,4 +113,32 @@
 例えば、`strip_tags()`や`Domdocument / SimplXML`なども検討したのですが、前者は基本的に使用すべきではないという記事を読んだり、後者は、調べても例えば、存在する要素ノード`<p>`を存在しない`*^[]p^*`　などに置換する術を見つけることができませんでした。
 この状況で、元のhtml構造に復帰させる術について、アドバイスを頂ければ幸いでございます。
-よろしくお願い申し上げます。
+よろしくお願い申し上げます。
+### 加筆
+yambejp様からのコメントも参考にdomを使用して、ホワイトリスト外のものをreplace使用というアプローチを考えました。
+例えば以下のような`replaceChild()` を使用したとしても、ノードはツリー構造を持っている（と推察）ため単純に含めたくないnodeNameやtagNameの要素をreplaceすることができません。。
+やはり手詰まりです。
+```php
+$str = '<p>aaaa<span class="">bbb<table><tbody><td>a</td><tbody></table></span>a</p><img><script>alert(danger)</script>';
+$dom = new DOMDocument();
+$dom->loadHtml($str);
+$all_tag = $dom->getElementsByTagName('*');
+$white_tag_list = ['p','span','strong','em','u','s','blockquote','ol','ul','li','sub','sup','a','iframe','img'];
+$replace_node =$dom->createElement('span');
+foreach ($all_tag as $key) {
+  if (!in_array($key->nodeName,$white_tag_list,true)) {
+    // $key->tagName = "span";
+    // $key->nodeName = "span";
+    $key->parentNode->replaceChild($replace_node, $key);
+    var_dump($key);
+  }
+}
+echo $dom->saveHTML();
+```
+新たに試したこととして追記いたします。

再度修正

2021/04/23 07:58

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,7 +1,7 @@
 いつもお世話になっております。
 ### 前提とやりたいこと
-ユーザーからhtml構造のデータをformで受け取り、出力させたいのですが、出力する際にタグやその属性を含む情報であるため、`htmlspecialchars`を単純に利用できないという状況にございます。そこで、
+ユーザーからhtml構造のデータをformで受け取る予定なのですが、html構造として出力させたいため、`htmlspecialchars`を単純に利用できないという状況にございます。そこで、
 0. `src`や`href`といった不正なJSを埋め込まれる可能性がある属性については、Domを利用してチェック
 0. タグについては、ホワイトリストを作成して限定して無害なものに置換→出力する際に一旦`htmlspecialchars`して、ホワイトリスト対象の物だけ、戻すというアプローチ
 で以下のコードを作成いたしました。

誤字や表現を一部修正しました。

2021/04/23 02:24

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,7 +1,7 @@
 いつもお世話になっております。
 ### 前提とやりたいこと
-ユーザーからhtml構造を受け取るため、出力する際に`htmlspecialchars`を単純に利用できないという状況にございます。そこで、
+ユーザーからhtml構造のデータをformで受け取り、出力させたいのですが、出力する際にタグやその属性を含む情報であるため、`htmlspecialchars`を単純に利用できないという状況にございます。そこで、
 0. `src`や`href`といった不正なJSを埋め込まれる可能性がある属性については、Domを利用してチェック
 0. タグについては、ホワイトリストを作成して限定して無害なものに置換→出力する際に一旦`htmlspecialchars`して、ホワイトリスト対象の物だけ、戻すというアプローチ
 で以下のコードを作成いたしました。
@@ -109,7 +109,7 @@
 ### ご質問
-最終的には元の`$get_html = '<p>this is a test <a href="dammy">link</a><img src="dammy"></p>';`の構造に復帰させて出力した上で、特定の属性値やホワイトリスト以外のタグを除去して出力させたいのですが、ここで行き詰まってしまいました。
+最終的には元の`$get_html = '<p>this is a test <a href="dammy">link</a><img src="dammy"></p>';`の構造に復帰させて、特定の属性値やホワイトリスト以外のタグを除去して出力させたいのですが、ここで行き詰まってしまいました。
 例えば、`strip_tags()`や`Domdocument / SimplXML`なども検討したのですが、前者は基本的に使用すべきではないという記事を読んだり、後者は、調べても例えば、存在する要素ノード`<p>`を存在しない`*^[]p^*`　などに置換する術を見つけることができませんでした。
 この状況で、元のhtml構造に復帰させる術について、アドバイスを頂ければ幸いでございます。