質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
87.20%
Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

解決済

mechanizeでHTMLframeのsrc属性のファイルをダウンロードしたい

dlrowolleh
dlrowolleh

総合スコア120

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

1回答

-1評価

0クリップ

2244閲覧

投稿2016/11/15 09:10

編集2017/01/21 07:05

###前提・実現したいこと→ファイルを取得して保存したい。
あるウェブサイトからファイルを取得したいと考えています。
ファイルは一時間ごとに更新されるため、ファイル名も年月日時間で変化します。
Rubyでファイルをダウンロードし、指定したディレクトリに保存させたいです。

mechanize.rb

をcronに登録し、時間になると実行して、ダウンロードさせたいと思っています。

###試したこと

ruby

#download.rb # URLにアクセスするためのライブラリの読み込み require 'open-uri' # スクレイピング先のURL url = 'http://example.com/DataList.php?MstCode=01234567' # user_agentの設定 user_agent = 'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/28.0.1500.63 Safari/537.36' charset = nil html = open(url, "User-Agent" => user_agent) do |f| charset = f.charset # 文字種別を取得 f.read end # 取得したhtmlを全て表示する puts html

を実行しました。

<html> <head> <META http-equiv="Content-Type" content="text/html; charset=EUC-JP"> <title>文字化けしている</title> </head> <frameset rows="180,*" cols="*" frameBorder="0"> <frame name="Titke" src="DataListTitle.php?MstCode=01234567&Time=yyyymmddhhの形式" scrolling="no"> <frame name="Hyou" src="DataListHyou.php?MstCode=01234567&Time=yyyymmddhhの形式" scrolling="yes"> </frameset> <noframes></noframes> </html>

と表示されました。
保存したいファイルは、

DataListHyou.php?MstCode=01234567&Time=yyyymmddhhの形式

です。
保存したい場所は、

/home/(ユーザ名)/Desktop/ファイル

です。

また、文字化けにも対応したいです。
プログラムをどのように修正すればいいでしょうか。
何卒よろしくお願いします。

###補足情報(言語/FW/ツール等のバージョンなど)
Ubuntu15.10
Ruby2.2.4です。

#追記
ファイル名はそのままで保存したいです。
保存したい場所は

home/(ユーザ名)/Desktop/ファイル

です
Mechanize::File - Seesaa Wiki(ウィキ)を参考にしたのですが、うまくいきませんでした。

require "mechanize" agent = Mechanize.new agent.user_agent_alias = "Windows Chrome" url = "http://soramame.taiki.go.jp/DataList.php?MstCode=34204520" page = agent.get(url) page.root.xpath("//frame").each do |frame| if frame["name"] == "Hyou" frame_url = frame["src"] frame_page = agent.get(frame_url) "frame_page.body を 目的のファイルに書き込み" path = "/home/ユーザ名/Desktop/file " filename = path save_as(filename) end end puts page.body.force_encoding(page.encoding).encode("utf-8")

$ ruby mechanize.rb

と実行したところ

mechanize.rb.rb:15:in `block in <main>': undefined method `save_as' for main:Object (NoMethodError) from /home/(ユーザ名)/.rbenv/versions/2.2.4/lib/ruby/gems/2.2.0/gems/nokogiri-1.6.8.1/lib/nokogiri/xml/node_set.rb:187:in `block in each' from /home/(ユーザ名)/.rbenv/versions/2.2.4/lib/ruby/gems/2.2.0/gems/nokogiri-1.6.8.1/lib/nokogiri/xml/node_set.rb:186:in `upto' from /home/(ユーザ名)/.rbenv/versions/2.2.4/lib/ruby/gems/2.2.0/gems/nokogiri-1.6.8.1/lib/nokogiri/xml/node_set.rb:186:in `each' from mechanize.rb:8:in `<main>'

と表示されました。

また、

ruby

require "mechanize" agent = Mechanize.new agent.user_agent_alias = "Windows Chrome" url = "http://example.com/DataList.php?MstCode=01234567" page = agent.get(url) page.root.xpath("//frame").each do |frame| if frame["name"] == "Hyou" frame_url = frame["src"] frame_page = agent.get(frame_url) "frame_page.body を 目的のファイルに書き込み" end p frame_page puts frame_page end

では、

$ ruby mechanize.rb

nil #<Mechanize::Page {url #<URI::HTTP http://example.com/DataList.php?MstCode=01234567>} {meta_refresh} {title "ホームページ"} {iframes} {frames} {links} {forms #<Mechanize::Form {name "Form1"} {method "GET"} {action ""} {fields [hidden:0x2ab59e31d368 type: hidden name: Err value: ]} {radiobuttons} {checkboxes} {file_uploads} {buttons}>}> #<Mechanize::Page:0x00556b3c27c700>

となります。

やりたいこと、させたい動作はイメージできますが、やり方等知識が圧倒的に不足しています。
知恵をお貸しいただけないでしょうか。
よろしくお願いしたします。

良い質問の評価を上げる

以下のような質問は評価を上げましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

  • プログラミングに関係のない質問
  • やってほしいことだけを記載した丸投げの質問
  • 問題・課題が含まれていない質問
  • 意図的に内容が抹消された質問
  • 過去に投稿した質問と同じ内容の質問
  • 広告と受け取られるような投稿

評価を下げると、トップページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

まだ回答がついていません

会員登録して回答してみよう

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
87.20%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

正規表現

正規表現とは特定の文字列によるパターンマッチングを行う際に用いられる宣言型プログラミングです。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。