###前提・実現したいこと
wgetコマンドでスクレイピングを行い、あるサイトの情報を収集しています。
###発生している問題・エラーメッセージ
先日、サイト内で本人認証確認のページが追加されたのですが、
この「本人認証確認ページ」自体がwgetコマンドで取得できません。
###該当のソースコード
ruby による wget 実行
###試したこと
普通にPCのブラウザでアクセスしてみて通信ログを確認してみると
まず302リダイレクトを返しており、リダイレクト先が「本人認証確認ページ」となっていました。
同様にwgetでも試してみたのですが、302が返ってくることはありませんでした。(420が返ってます)
###補足情報(言語/FW/ツール等のバージョンなど)
wgetの実行手順
1.ログイン画面表示
wget --no-check-certificate --save-cookies #{クッキーファイル} --user-agent #{ユーザエージェント} -q -O - 'ログイン画面'
2.ログイン情報送信
wget --no-check-certificate --keep-session-cookies --save-cookies #{クッキーファイル} --post-data 'ユ' --user-agent #{ユーザエージェント} -q -O - 'https://www.airbnb.jp/authenticate'
3.スクレイピング
wget --no-check-certificate --load-cookies #{クッキーファイル} --user-agent #{ユーザエージェント} -q 'スクレイピング対象画面'
あなたの回答
tips
プレビュー