csv 形式に入れてある英単語から、Anemone を使って weblio へクローラーをまわし、翻訳データをもってきています。
しかし実行するたび配列の要素の順番が変わってしまって困っています。どのようにしたら一定にできるのでしょうか?
ruby
1require 'anemone' 2require 'nokogiri' 3require 'kconv' 4require 'csv' 5 6 7#csvの読み込み 8#csv 9csv_data = CSV.read('tmp.csv', headers: true) 10 11#url を入れる配列と翻訳データを入れる配列の用意 12urls = [] 13yakus = [] 14 15#weblio のリンクを取得する 16csv_data.each do |word| 17 url = "http://ejje.weblio.jp/content/#{word[0]}" 18 urls.push(url) 19end 20 21#翻訳データをもってくる 22Anemone.crawl(urls, :depth_limit => 0) do |anemone| 23 anemone.on_every_page do |page| 24 doc = Nokogiri::HTML.parse(page.body.toutf8) 25 yaku = doc.xpath("html/body/div[2]/div[1]/div/div[1]/div[4]/div[2]/table/tbody/tr/td[2]").text 26 first_yaku = yaku.split("、")[0] 27 yakus.push(first_yaku) 28 end 29end 30 31p yakus
このコードを実行したら
ruby
1~/workspace $ ruby sample.rb 2["小滝", "ジャワ", "(演劇・映画・ラジオ放送などの)台本"] 3~/workspace $ ruby sample.rb 4["ジャワ", "(演劇・映画・ラジオ放送などの)台本", "小滝"] 5~/workspace $ ruby sample.rb 6["ジャワ", "小滝", "(演劇・映画・ラジオ放送などの)台 7コード
こんな感じで実行するたびに順番が変わってしまいます。
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。