質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.61%

  • Ruby

    7366questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Mechanizeを使ったスクレイピングでformがない

受付中

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 1,013

yamada3

score 8

  • 環境
    os:osx(最終的にはherokuで運用したいと考えていますが,開発環境はmacです)
    ruby -v 2.2.4

  • 質問内容
    http://www.jukedeck.comに対して操作を行いmp3をダウンロードしたいのですが,そのためにはログインする必要があります.

しかし以下のようにtopにログイン用のformが見当たりませんでした.(モーダルウィンドウでログイン入力表示されるのでコードはあるがformに引っかからない)

require 'mechanize'
REQUEST_URL = "https://www.jukedeck.com"
agent = Mechanize.new
login = agent.get(REQUEST_URL)
#実行結果(linkなどが多くてややこしいのでform以外は消しています)
{forms
  #<Mechanize::Form {name nil} {method "GET"} {action "https://www.jukedeck.com/"} {fields} {radiobuttons} {checkboxes} {file_uploads} {buttons [button:0x3fe049a2fdb4 type:  name:  value: ]}>
  #<Mechanize::Form {name nil} {method "GET"} {action "https://www.jukedeck.com/"} {fields} {radiobuttons} {checkboxes} {file_uploads} {buttons [button:0x3fe049a91140 type:  name:  value: ]}>
  #<Mechanize::Form {name nil} {method "GET"} {action "https://www.jukedeck.com/"} {fields} {radiobuttons} {checkboxes} {file_uploads} {buttons [button:0x3fe049a2ab34 type:  name:  value: ]}>


そこでpostでログイン出来ないか試した所,以下のコードであっさりログインはすることができました.
しかしget通信ではないのでhtmlがかえってきていないためにどの様にこの状態から操作すればよいかわからず詰まってしまいました.
このアクセストークンを旨く使えば良いのだろうとは思うのですがどうのように使えば良いのかさっぱりわかりません.

require 'yaml'
require 'fileutils'
require 'mechanize'

REQUEST_URL = "https://www.jukedeck.com/api/user/login"

# yamlからmailとpassを取得
nic = YAML.load_file("yml/user.yml")
# 変数設定
mail = nic["mail"]  
password = nic["pass"]
agent = Mechanize.new
login = agent.post(REQUEST_URL, {
    #current_form:"login",
    client_id: "P20ev5wveZ60kZ2J9KHkBis6r",
    client_secret: "z5PjRToRbRuVkEJxpBTF5lRKsQDgRd4OY1r36zO5OuPGXmxQLc",
    username:mail, 
    password:password,
  })
実行結果
#<Mechanize::File:0x007f8582e48158
 @body="{\"message\":\"User logged in\",\"accessToken\":\"hogehogehogehogehoge\"}",
 @code="200",
 @filename="login.html",
 @full_path=false,
 @response=
  {"content-type"=>"application/json; charset=utf-8",
   "date"=>"Sun, 13 Mar 2016 19:23:16 GMT",
   "etag"=>"W/\"hogehogehogehogehoge\"",
   "x-powered-by"=>"Express",
   "content-length"=>"89",
   "connection"=>"keep-alive"},
 @uri=#<URI::HTTPS https://www.jukedeck.com/api/user/login>>


そこでここからどの様にすればmp3をdlできるのか,またはrubyのスクレイピングでMechanize以外で何かいいものがありましたらご教授ください.
よろしくお願い致します.

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

0

http://www.jukedeck.comのユーザーでないため想像です。

  • ログイン後に取得したものがMechanize::PageではなくMechanize::Fileで,その内容がJSONのデータのよう。
  • http://www.jukedeck.comのソースを見ると<body>がない
    なので,このサイトはページをJSONのデータを取得しながらjavascriptで動的に作っているようです。

だとすると,mp3をdlするためにどのようなリクエストをしているのかは,JavaScriptを解読する必要がありそうです。それか,GET,POSTのHTTP通信をキャプチャして,それを見ながら試行錯誤してみるとか。
Webアクセスをモニタする

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/03/14 11:48

    >NCC1701さん
    お早い解答ありがとうございます

    通信を見たところmp3作成リクエスト(作成してからdlするので)を見てみた所以下のようなリクエストを送れば良いことがわかりました.
    ```
    #General
    Request URL:https://www.jukedeck.com/api/music/generateTrack
    Request Method:POST
    Status Code:200 OK

    #Request Headers
    Accept:*/*
    Accept-Encoding:gzip, deflate
    Accept-Language:ja,en-US;q=0.8,en;q=0.6
    Authorization:Bearer hogehogehogehogehogehogehogehoge=
    Connection:keep-alive
    Content-Length:374
    Content-Type:application/json
    Cookie: hogehogehogehogehogehogehogehoge
    Host:www.jukedeck.com
    Origin:https://www.jukedeck.com
    Referer:https://www.jukedeck.com/make/track-generator/essential
    User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.116 Safari/537.36
    #Request Payload
    view source
    {
    image: "https://s3-eu-west-1.amazonaws.com/jukedeck-static-content/genre-images/ambient/ambient_background_14.jpg"
    settings: {
    christmasify: false
    duration: 90
    filter: "minimalist"
    genre: "ambient"
    imageUrl: "https://s3-eu-west-1.amazonaws.com/jukedeck-static-content/genre-images/ambient/ambient_background_14.jpg"
    instruments: []
    mood: "sparse"
    tempo: "medium"
    }
    }
    ```
    ここに以下のソースでpostを送ってみました

    ```ruby
    require 'yaml'
    require 'fileutils'
    require 'json'
    require 'mechanize'

    REQUEST_URL = "https://www.jukedeck.com/api/user/login"

    nic = YAML.load_file("yml/user.yml")
    user = nic["mail"]
    password = nic["pass"]

    agent = Mechanize.new

    login = agent.post(REQUEST_URL, {
    client_id: "P20ev5wveZ60kZ2J9KHkBis6r",
    client_secret: "z5PjRToRbRuVkEJxpBTF5lRKsQDgRd4OY1r36zO5OuPGXmxQLc",
    username:user,
    password:password,
    })

    headers = JSON.parse(login.body)

    agent.request_headers["authorization"] = "Bearer " + headers["accessToken"]
    agent.request_headers["connection"] = "keep-alive"
    agent.request_headers["origin"] = "https://www.jukedeck.com"

    REQUEST_URL = "https://www.jukedeck.com/api/music/generateTrack"
    test = agent.post(REQUEST_URL,{
    image: "https://s3-eu-west-1.amazonaws.com/jukedeck-static-content/genre-images/electronic/electronic_background_7.jpg",
    settings: {
    christmasify: false,
    duration: 300,
    filter: "dnb",
    genre: "electronic",
    imageUrl: "https://s3-eu-west-1.amazonaws.com/jukedeck-static-content/genre-images/electronic/electronic_background_7.jpg",
    instruments: [],
    mood: "aggressive",
    tempo: "medium",
    },
    })
    ```
    ```
    #実行結果
    Mechanize::ResponseCodeError: 504 => Net::HTTPGatewayTimeOut for https://www.jukedeck.com/api/music/generateTrack -- unhandled response
    from /Users/kiitan/Dropbox/heroku/sinatratest/vendor/bundle/ruby/2.2.0/gems/mechanize-2.7.4/lib/mechanize/http/agent.rb:316:in `fetch'
    ```
    Net::HTTPGatewayTimeOutが帰ってきました.
    ここで予測ですがCookieを使わずに通信を行っているのが悪いのだろう思いました.
    同じCookieつけて最初の通信と後の通信をすれば良いのだろうと思いCookieがどの通信で取得できるか見てみたのですがレスポンスにCookieが帰ってきているものがなくどうやってCookieを取得すればよいがわかりません

    よろしくお願い致します.

    キャンセル

  • 2016/03/14 14:19

    http://www.bmoo.net/archives/2012/03/313309.html
    http://www.asahi-net.or.jp/~ax2s-kmtn/ref/status.html
    やHTTP 504で検索するとわかりますが、504のエラーはCookieの問題ではないはずです。
    begin rescueで例外処理を作ってretryしてみてください。

    なお、http://www.rubydoc.info/gems/mechanizeにドキュメントがありますので、Mechanize::CookieJarIMethodsあたりでcookieを確認してください。
    Mechanize::HTTP::Agentは原則として黙っててもcookieを保持しているはずです。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.61%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Ruby

    7366questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。