nokogiriで画像を抽出したところ、headの画像を中心に取り出してきてしまいます。
そこで、extractcontent.rbで画像を取り出そうと考えたのですが、imgタグを取り出せずに苦しんでいます。slackのようにURLを入力し、本文の画像を取り出すにはどのようにしたらよろしいでしょうか。
どなたか、詳しい方いらっしゃいましたら、よろしくお願いします。
extractcontent.rbを学ぶための良い教材を知っている方がいらっしゃいましたら、そちらでも結構です。どうぞよろしくお願いします。
追記
こちらのサイトの本文画像を取り出そうと考えています。
以下、不完全ですが、私が考えたコードです。
url = "サイト" charset = nil html = crawling(url) doc = Nokogiri::HTML.parse(html, nil, charset) image_url = doc.search('img')[数字].attribute('src').value #相対パスへの対応 url_split = url.split("/") image_url = "#{url_split[0]}/#{image_url}" unless url_split[0].match(/http.*/)
よろしくお願いします!!