質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

Q&A

解決済

1回答

665閲覧

rubyのmechanizeを使用したYahooビジネスへのログインについて

majin

総合スコア11

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Linux

Linuxは、Unixをベースにして開発されたオペレーティングシステムです。日本では「リナックス」と呼ばれています。 主にWebサーバやDNSサーバ、イントラネットなどのサーバ用OSとして利用されています。 上位500のスーパーコンピュータの90%以上はLinuxを使用しています。 携帯端末用のプラットフォームAndroidは、Linuxカーネル上に構築されています。

Ubuntu

Ubuntuは、Debian GNU/Linuxを基盤としたフリーのオペレーティングシステムです。

0グッド

1クリップ

投稿2018/11/09 09:01

編集2018/11/09 09:08

前提・実現したいこと

最終的にやりたいこと→
Yahooプロモーション広告でリスティングを複数サイト運用しており、
サイトごとに前日にかかったコストをSlackに通知したい。
※Google広告も同時に運用しておりそちらはアクションスクリプトでスラックに通知実装完了済み
※さらに発展させ、コストレポートの内容をbigqueryに突っ込むっていう話もあるけど一旦お預け中。

現状とか→
本当はYahooのAPIを使用できるのが一番いいのは承知しているのですが、
YahooはGoogleと違って使用申請が必要かつ、おそらく運用費用に応じてAPI開放審査があるようで
問い合わせても全然開放してくれません。
さらに運用サイトが複数あるので、おそらく1つのAccountでAPIが使えるようになっても、他のAccountでは使えないことが想定されます。
なので、rubyのmechanizeを使用して、ログインし管理画面上(レポート画面?)の値をnokogiriでスクレイピングしたい。
・・・が現状スクレイピングどころかログインで詰まっている。

別にrubyやmechanizeにこだわっているわけではないので「この方法ならサクッとできるよ。」的なものがあれば代替え案は歓迎です。

発生している問題・エラーメッセージ

Yahooビジネスにログインできない。

補足:
ブラウザで見ているページとrubyでアクセスしたときのページが違う気がする。
ブラウザでログインページにアクセスするとタイトルが「ログイン - Yahoo! JAPAN」だが、おなじURL(https://login.bizmanager.yahoo.co.jp/login)にmechanizedでアクセスすると「Login - Yahoo! JAPAN」になっている。

該当のソースコード

ソースが汚いのは許して…

ruby

1# -*- coding: utf-8 -*- 2require 'nokogiri' 3require 'mechanize' 4 5#HTMLテキストをxpathに沿ってパース 6def parse_html( html_text , xpath ) 7 begin 8 #HTMLテキストをxpathでパースできる形に変換 9 content = Nokogiri::HTML( html_text ) 10 #パースした結果を返す 11 return content.xpath( xpath ) 12 rescue 13 #正しくパースできない場合はエラー値を返す。 14 return Nokogiri::HTML( "" ).xpath( "" ) 15 end 16end 17 18#Yahoo用のクラス 19class Yahoo 20 #初期化で諸々変数を設定 21 def initialize( user , pass ) 22 # 必要そうな項目。 23 @url = "https://login.bizmanager.yahoo.co.jp/login" 24 @report_url = "https://promotionalads.business.yahoo.co.jp/Advertiser/Dashboard" 25 @user = user 26 @pass = pass 27 @agent = Mechanize.new 28 @agent.user_agent_alias = 'Windows Mozilla' 29 #ログイン処理 30 @this_page = login() 31 32 ##### テスト用出力 ##### 33 34 #ログインページのURLとタイトルを表示 35 puts get_uri() 36 puts parse_html( get_content() , "//title" ).inner_text.to_s 37 38 #ダッシュボードページに移動、URLとタイトルを表示 39 @this_page = jump( @report_url ) 40 puts get_uri() 41 puts parse_html( get_content() , "//title" ).inner_text.to_s 42 43 ##### テスト用出力 ##### 44 45 end 46 47 #ログイン処理 48 def login() 49 @agent.get( @url ) do |page| 50 page.form_with(name:"login_form") do |form| 51 form.field_with(:name=>"user_name").value = @user 52 form.field_with(:name=>"password").value = @pass 53 end.submit 54 end 55 end 56 57 #ページ移動 58 def jump(url) 59 @this_page = @agent.get( url ) 60 end 61 62 #なんかデータとってきたいとき用。 63 def get_this_page() 64 @this_page 65 end 66 67 def get_uri() 68 @this_page.uri 69 end 70 71 def get_content() 72 @this_page.content.toutf8 73 end 74end 75 76#Yahooレポートを出力するクラスを準備。 77rep = Yahoo.new("[YahooビジネスID]","[パスワード]")

実行結果

terminal

1$ ruby get_report_yahoo.rb 2https://login.bizmanager.yahoo.co.jp/login 3Login - Yahoo! JAPAN 4https://login.bizmanager.yahoo.co.jp/login?url=https://promotionalads.business.yahoo.co.jp%2fAdvertiser%2fDashboard 5Login - Yahoo! JAPAN

正しくログインできていれば下の出力は下記になるはず。
「ダッシュボード - Yahoo!プロモーション広告 広告管理ツール」

@report_url の値をログインが不要でアクセスできるURLに変えるとちゃんと動いてるっぽいのでログインできていないのだと思う。

補足情報(FW/ツールのバージョンなど)

環境について
Ubuntu 16.04.5 LTS (Xenial Xerus)
ruby 2.3.1p112 (2016-04-26) [x86_64-linux-gnu]
mechanize (2.7.6)
Nokogiri (1.8.5)
※Windows Subsystem for Linuxにてubuntuを導入して開発中。最終的にはGCE上に環境を作る予定。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Yahoo! サイト側が、 ログインフォームへの直接遷移を許可していない ことが原因と思われます。

今回、処理の対象となっているフォームには、 .crumb という name の hidden field が存在するのですが、こちらの値が空欄の場合、フォームを送信してもエラーすら表示されず、同じフォームの再表示が行われるようです。また、 .crumb の valueは、一度関連する Yahoo! のページを閲覧するなどして Cookie を持っている場合は何らかの値が埋め込まれ、逆に Cookie を持っていないユーザでは空欄になるように見えます。

以上の事実と、また "crumb" という名前から見て、恐らく 何らかのルールで Yahoo! サイト上の遷移してきたページを記憶しており、そのページ遷移が想定外の場合、不正なログインと見做してフォームの再表示をしている 実装になっているのではないでしょうか。目的は CSRF 等の対策と思われます。

というわけで、ログインフォームを開く前にどこかの適切な Yahoo! サイト上ページを開いておけば良いことになりますが、一番単純なのは ログインフォームを二回開いて、二回目にフォーム値を埋めて POST する 方法でしょうか。つまり、login() メソッドの先頭に一行、 (見かけ上は無意義な) @agent.get(@url) を追加して適切な Cookie を受け取り、それから改めてログイン処理を行うという寸法です。

投稿2018/11/11 03:06

argparse

総合スコア1017

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

majin

2018/11/12 00:29

ありがとうございます。 こちらで解決できました!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問