teratail header banner
teratail header banner
質問するログイン新規登録

質問編集履歴

3

追記

2020/05/16 04:27

投稿

jack_kanzaki
jack_kanzaki

スコア106

title CHANGED
File without changes
body CHANGED
@@ -16,6 +16,7 @@
16
16
  doc = Nokogiri::HTML.parse(html, nil, charset)
17
17
  image_url = doc.search('img')[数字].attribute('src').value
18
18
 
19
+ #相対パスへの対応
19
20
  url_split = url.split("/")
20
21
  image_url = "#{url_split[0]}/#{image_url}" unless url_split[0].match(/http.*/)
21
22
  ```

2

追記

2020/05/16 04:27

投稿

jack_kanzaki
jack_kanzaki

スコア106

title CHANGED
File without changes
body CHANGED
@@ -2,4 +2,21 @@
2
2
  そこで、extractcontent.rbで画像を取り出そうと考えたのですが、imgタグを取り出せずに苦しんでいます。slackのようにURLを入力し、本文の画像を取り出すにはどのようにしたらよろしいでしょうか。
3
3
  どなたか、詳しい方いらっしゃいましたら、よろしくお願いします。
4
4
 
5
- extractcontent.rbを学ぶための良い教材を知っている方がいらっしゃいましたら、そちらでも結構です。どうぞよろしくお願いします。
5
+ extractcontent.rbを学ぶための良い教材を知っている方がいらっしゃいましたら、そちらでも結構です。どうぞよろしくお願いします。
6
+
7
+
8
+ ### 追記
9
+ [こちら](https://wired.jp/2020/05/12/how-to-see-the-worlds-reflection-from-a-bag-of-chips/)のサイトの本文画像を取り出そうと考えています。
10
+
11
+ 以下、不完全ですが、私が考えたコードです。
12
+ ```
13
+ url = "サイト"
14
+ charset = nil
15
+ html = crawling(url)
16
+ doc = Nokogiri::HTML.parse(html, nil, charset)
17
+ image_url = doc.search('img')[数字].attribute('src').value
18
+
19
+ url_split = url.split("/")
20
+ image_url = "#{url_split[0]}/#{image_url}" unless url_split[0].match(/http.*/)
21
+ ```
22
+ よろしくお願いします!!

1

編集

2020/05/16 04:22

投稿

jack_kanzaki
jack_kanzaki

スコア106

title CHANGED
File without changes
body CHANGED
@@ -1,3 +1,5 @@
1
1
  nokogiriで画像を抽出したところ、headの画像を中心に取り出してきてしまいます。
2
2
  そこで、extractcontent.rbで画像を取り出そうと考えたのですが、imgタグを取り出せずに苦しんでいます。slackのようにURLを入力し、本文の画像を取り出すにはどのようにしたらよろしいでしょうか。
3
- どなたか、詳しい方いらっしゃいましたら、よろしくお願いします。
3
+ どなたか、詳しい方いらっしゃいましたら、よろしくお願いします。
4
+
5
+ extractcontent.rbを学ぶための良い教材を知っている方がいらっしゃいましたら、そちらでも結構です。どうぞよろしくお願いします。