今回やりたいことが、サイトにある文章を<hr>
ごとに文章を分割して保存したいです。そこで、スクレイピングで<hr>
も含めて取得して、<hr>
をフラグとして分割しようかと考えています。
ただ、現在のコードではタグは全て削除されてしまいます。タグも削除されたないようにするにはどうしたら良いでしょうか。
また、このやり方以外にもっといい方法がありましたら、教えてください。
現在作成したコードが以下です。
R
1コード 2data <- read_html("https://path/test.html") 3x_n <-html_nodes(data,"blockquote") %>% 4 html_text()
サイトは以下のようになっています。
HTML
1コード 2<blockquote> 3文章.文章.文章.文章. 4文章.文章.文章.文章. 5 6<hr> 7文章.文章.文章.文章. 8文章.文章.文章.文章. 9 10<hr> 11文章.文章.文章.文章. 12文章.文章.文章.文章. 13 14</blockquote> 15
今作成したコードだと取得結果はタグが全て消えてしまいます。
取得結果 文章.文章.文章.文章. 文章.文章.文章.文章. 文章.文章.文章.文章. 文章.文章.文章.文章. 文章.文章.文章.文章. 文章.文章.文章.文章.
回答2件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2022/01/10 15:25