ruby
1require 'bundler/setup' 2require 'open-uri' 3require 'nokogiri' 4require 'csv' 5 6def nokogiri_binary(url) 7 begin 8 html = open(url, "r:binary").read 9 Nokogiri::HTML(html.toutf8, nil, 'utf-8') 10 rescue => e 11 return false 12 end 13end 14 15def get_parsed_html(url) 16 html = open(url) do |f| 17 charset = f.charset 18 f.read 19 end 20 p url 21end 22 23path = './lib/ygowikinewpack.csv' 24url_array = [] 25CSV.foreach(path) do |row| 26 url_array << row[0] 27end 28 29url_array.each do |url| 30 doc = get_parsed_html(url) 31 doc.css('#body > pre').each do |efc| 32 sleep(1) 33 effect = efc.text 34 p effect 35 end 36end 37 38
csv
1https://yugioh-wiki.net/index.php?%A1%D4%CB%E2%C6%BB%B5%B3%BB%CE%A5%AC%A5%A4%A5%A2%A1%D5 2https://yugioh-wiki.net/index.php?%A1%D4%BC%F6%A4%EF%A4%EC%A4%B7%CE%B5%A1%DD%A5%AB%A1%BC%A5%B9%A1%A6%A5%AA%A5%D6%A1%A6%A5%C9%A5%E9%A5%B4%A5%F3%A1%D5 3https://yugioh-wiki.net/index.php?%A1%D4%CB%A4%B7%E2%A4%CE%A5%AB%A5%BF%A5%D1%A5%EB%A5%C8%A1%A6%A5%BF%A1%BC%A5%C8%A5%EB%A1%D5 4
といった感じのコードなのですが、対象サイトがスクレイピングできません。
対象サイトはxmlで、encoding="EUC-JP"
・要約するとCSVに入ってるサイトから'#body > pre'要素を抜き取りたいです。
よろしければご教授頂きたいです。
よろしくお願い申し上げます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。