タグを除外するXpathの書き方について

Question

### 前提・実現したいこと

上記の構造のhtmlからDOMxpathを用いて

タグを抜いた状態のタグを抽出したいのですが、xpathの書き方がわからず困っています。 $body = $xpath->query('//body')->item(0)->nodeValue; でタグの抽出には成功しています。 ```ここに言語を入力 loadHTML( mb_convert_encoding($html, 'HTML-ENTITIES', 'ASCII,JIS,UTF-8,eucJP-win,SJIS-win'), LIBXML_HTML_NOIMPLIED | LIBXML_HTML_NODEFDTD ); $xpath = new DOMXPath($dom); $body_text = $xpath->query('//body/*[not(self::header)]')->item(0)->nodeValue; //$body_text = $xpath->query('//body')->item(0)->nodeValue; echo $body_text; ``` ### 試したこと $body = $xpath->query('//body/*[not(self::header)]->item(0)->nodeValue; でやってみたのですが、

タグが消えてませんでした。 ### 補足情報（FW/ツールのバージョンなど） ubuntu18.04 Apache/2.4.29 PHP 7.2.5

Accepted Answer

XPathでは無理では？
`header`ノードを`removeChild`するのでしょうね。

#追記
> headerタグを抜いた状態のbodyタグを抽出したい

ではなく、
> bodyタグの子要素のうちheaderタグ以外のタグを抽出したい

ということで。

```PHP
        $all = $xpath->query('//body/*');
        $not_header = $xpath->query('//body/*[not(self::header)]');

	var_dump($all);
	var_dump($not_header);
```
で、
```Plain
object(DOMNodeList)#28 (1) {
  ["length"]=>
  int(25)
}
object(DOMNodeList)#29 (1) {
  ["length"]=>
  int(24)
}
```
になるので、ちゃんと1件除外されて、24件抽出できているようです。
#追記2
`item(0)`の`nodeValue`は空で正常でしょう。
`item(0)->nodeValue`から`item(23)->nodeValue`までを繋ぎます。

```PHP
$body = $xpath->query('//body/*[not(self::header)]');
$nodevalue="";
for($i=0; $i<$body->length; $i++){
        $nodevalue .= $body->item($i)->nodeValue;
}
echo($nodevalue);
```
`script`タグの内容がじゃまな気がします。

Answer

これでいかがでしょうか。

`//body/*[not(self::header)]`で確かにheaderタグはスキップしているのをChromeで確認できたので、あとはぐるぐる回して文字列を連結していけばいいです。


```PHP
$body_text = "";
foreach ($xpath->query('//body/*[not(self::header)]') as $row) {
  $body_text .= $row->nodeValue;
}

print($body_text);
```

前提・実現したいこと

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問