質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.52%

  • HTML

    8970questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • スクレイピング

    330questions

  • Curl(プログラミング言語)

    14questions

    Curl(プログラミング言語)は、Webコンテンツ向けのプログラミング言語。HTMLのようなテキスト記述やレイアウトデザイン、JavaScript のようなオブジェクト指向プログラム言語、Java のような重量機能など複数の言語の特徴を一つのフレームワークに統合しています。

basic認証,Cookie認証をしているサイトのWebページのダウンロード

受付中

回答 0

投稿

  • 評価
  • クリップ 1
  • VIEW 254

shibawanko

score 0

 前提・実現したいこと

basic認証とCookie認証を使用しているサイトからWebページをダウンロードしようとしています。
データを取得するためのcurlコマンドをご教授いただけませんでしょうか。
(実機でテストをしたいのですが頻繁に触れない状況のため、確認不足等あるかもしれません)

 知りたい事

1.データ取得しようとしているWebサイトのログインページにはLoginボタンがあり、
ボタンをクリック後にbasic認証のダイアログが表示されます。
curlを使用する場合、basic認証する前に、ログインボタンをクリックした時postされる情報を
postする必要はあるのでしょうか?

2.データダウンロード手順は下記の通りで良いでしょうか
ログインページでLoginボタンを押したときと同じようにデータをPOSTする。
Basic認証でログインページにアクセスし、cookieを取得する
取得したいページをcookieを指定してダウンロードする。

3.下記のWebページの内容に対し送信するCurlのコードは正しいでしょうか?
HTMLのパラメータ等はクッキーがあれば不要でしょうか?
ブラウザでアクセスしたときは、ログインしていればパラメータなしのURLでアクセス出来ているように見えます。

 該当のソースコード

■ログインページ抜粋

<form method="post" action="#menu">
  <input type="hidden" name=APPLY" value="99">
  <h2>Login required to continue</h2>
  <input type="submit" name="P99" value="Login">
</form>

curl -F "nameP99" -F "value=Longin" http;//XXXXXXX/login
curl -c cookie.txt -u user:password http;//XXXXXXX/login

■取得したいページへのリンクメニュー抜粋

<form method="post" action="#menu">
 <a name="menu"></a><input type="hidden" name="hms" value"33 />  ←親メニュー
 <a class="sub" href="42?ms=33&amp;lang=0&amp;sid=xxxxxx">system status</a> ←子メニュー(取得したいページ)
</form>

 curl -b cookie.txt -O "http://XXXXXXX/42" -o html.txt

 試したこと

取得したいページに対しPowerShellでWebclientを使用してダウンロードを試みたのですが
取得できたのはログインページのHTMLでした。httpのエラーは発生しませんでした。
スクレイピング初心者のため、まずはCurlで手順を確認したいと考えています。

 補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正の依頼

  • mts10806

    2018/07/20 08:16

    スクレイピングの際の注意点については確認の上ですよね? https://qiita.com/nezuq/items/c5e827e1827e7cb29011

    キャンセル

  • otn

    2018/07/20 09:10 編集

    ↑スクレイピングに限らない物も混じってますね。まあ、守ってりゃいいのか。やや狭い気もしますが。

    キャンセル

  • ryochin

    2018/07/20 14:37

    複数のページにまたがるスクレイピングを行いたいのであれば、素直にプログラミング言語を使用したほうがよいでしょう。

    キャンセル

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.52%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    PHP間でのファイル送信について

    クライアントとサーバ間でzipファイルをやり取りしたいと考えています。 クライアント側で独自SDK(javaScript)を使用しなくてはいけない為、PHPの使用を考えています。

  • 解決済

    ブラウザ間で違う動きになってしまう…

    簡単なログイン画面を作成しようと思ったのですが、ブラウザ間での見え方の差異で困っています。 初心者のような質問で申し訳ないですが、分かる方がいましたらご教授お願いします。

  • 解決済

    WP-Membersのログインページの編集について

    前提・実現したいこと WP-Membersを使用し、会員制の投稿サイトを作成しております。 会員用のマイページには下記のショートコードを追加しました。 [wp-members

  • 解決済

    ログイン情報をクッキー平文で保持させないようにするには

    ログイン情報をクッキーで保持させるように実装しています。 現状では下記のようなコードなのですが、これだとクッキーに平文でE-mailとパスワードが見えてしまいます。 こういう場

  • 解決済

    Springセキュリティにあるログイン機能の動きについて

    いつもお世話になっております。 Springセキュリティにあるログイン機能を使用した際の動きについて 分からない事があります。 ご存知の方がいらっしゃれば教えて頂けますでしょう

  • 解決済

    サーブレットのURL指定の書き方

     前提・実現したいこと DBに登録されているIDとパスを入力するとログインされ、 「○○さんこんにちは」と表示される簡単なWebアプリケーションを作成しています。 jspファイル、

  • 解決済

    2つのform から得られたPHPの変数を同時に保持したい

     前提・実現したいこと 2つのform から得られたPHPの変数を同時に保持したい  発生している問題・エラーメッセージ 片方を実行すると、もう片方の変数がリセットされてしまう

  • 解決済

    php ログインできなくなる

     前提・実現したいこと phpでログインシステムを実装中に以下のエラーが発生しました。  発生している問題・エラーメッセージ Warning: session_start():

同じタグがついた質問を見る

  • HTML

    8970questions

    HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

  • スクレイピング

    330questions

  • Curl(プログラミング言語)

    14questions

    Curl(プログラミング言語)は、Webコンテンツ向けのプログラミング言語。HTMLのようなテキスト記述やレイアウトデザイン、JavaScript のようなオブジェクト指向プログラム言語、Java のような重量機能など複数の言語の特徴を一つのフレームワークに統合しています。