質問編集履歴

加筆しました。

2021/05/12 16:25

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -38,7 +38,7 @@
 ### 問題点
 ここに来て、いくつか解決すべき問題点に2つに気がつきました。
-1. 実際にHTMLの構造は深いものもあり、上記の自前で用意したHTMLではどこまでchildNodesを追跡すれば良いのか全貌がわかっているので対応できるのですが、HTML構造を事前に知らない場合など、DOMを利用してどのような方法で**再帰的に走査**することが一般的なのでしょうか？
+1. 実際にHTMLの構造は深いものもあり、上記の自前で用意したHTMLではどこまでchildNodesを追跡すれば良いのか全貌がわかっているので対応できるのですが、HTML構造を事前に知らない場合など、DOMを利用してどのような方法で**再帰的に走査**することが一般的なのでしょうか？ DomdocumentクラスのchildNodesプロパティで取得できる事は分かったのですが、NULLになるまで繰り返すようなやり方はしないと思うので、アドバイスをいただきたいです。
 2. また、構造に関連して`var_dump($key->textContent);//aabbaaa`について、テキストノードの中に要素ノードが混ざる場合でも、どの位置に要素ノードが入るかが示されず、textContentではaabbaaaを返してきます。このようなケースではDOMを利用して**どのようにテキストと要素ノードの順番**を解釈すれば良いのでしょうか？特にこの問題があるため↓#3のHTMLの再構築が非常に困難と感じています。

4 1603

コードを修正しました。

2021/05/12 16:25

投稿

pegy

スコア245

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -21,10 +21,15 @@
       var_dump($key->textContent);//aabbaaa
       echo "<br>";
       var_dump($key->tagName);
-       if($key->tagName==="script"){//無害化}
+       if($key->tagName==="script"){
+　　　　//無害化
+　　　　}
       echo "<br>";
       var_dump($key->attributes);
-　　　　if($key->tagName==="img" &&  substr($key->getAttribute('src'),0,4)==="java"){//無害化}
+　　　　if($key->tagName==="img" &&  substr($key->getAttribute('src'),0,4)==="java")
+　　　　{
+　　　　//無害化
+　　　　}
       echo "<br>";
       //再帰的な処理をして繰り返す
       var_dump($key->childNodes);

4 1603