Scrapy

Scrapyは、Pythonで開発されたオープンソースソフトウェアです。スクレイピングという、Webサービスから必要な情報を取り出したり自動操作をしたりする技術を使うものです。

RSS
  • 受付中

    回答
    2

    scrapyでtextを読み取れない

    前提・実現したいこと クローラーを作る練習として、様々な銀行の住宅ローンの金利情報を並べるクローラーを設計しようと思っています。 ■質問内容 ソニー銀行の住宅ローンページにて(http://moneykit.net/visitor/rate/hl.html) scrapy shell を使い、xpathの特定をしているのですが、金利情報が何度やっても結

    • 0評価
    • 94PV
    Yuki-Sakuraba Yuki-Sakuraba 3時間前に 回答
  • 受付中

    回答
    2

    <pre>タグ内の一行だけスクレイピングしたい

    <pre>タグ内の一行だけスクレイピングしたい Python3, requests, BeautifulSoup4でWebスクレイピングをしています。 発生している問題・エラーメッセージ html<pre>内全体の整形された文字列は取得できるのですが、その中の一行のみ取り出したいです。 該当のソースコード import requests fro

    • 0評価
    • 70PV
    Yuki-Sakuraba Yuki-Sakuraba 3時間前に 回答
  • 解決済

    回答
    1

    scrapyd deploy を行おうとするとWinError 10061

    windows 10 python 3.6.4 scrapy 1.5.1 scrapyd 1.2.0 クローラーをデーモンとして動かす ― Scrapyd こちらの記事を参考にscrapyのデーモン化に取り組んいるのですが、 scrapyd deployの段階でエラーがでてしまいます。 ファイアーフォールなども切ってみたのですがダメでした。 Winerr

    • 0評価
    • 20PV
    grilled_python grilled_python 14時間前に 回答
  • 解決済

    回答
    1

    scrapy + splashフレームワーク+dockerを使ってURLをメソッド間で引き渡すことが...

    scrapy + splashフレームワーク+dockerを使ってURLをメソッド間で引き渡すことがうまくいかないできません。 URをメソッド間でうまく引き渡す方法をご教授いただければ幸いです。 お忙しいところ恐縮ですが、よろしくお願いいたします。 引き渡しが上手くいかない原因の箇所(コードが不適切な箇所)は、こちらと思われます。 yield Spl

    • 0評価
    • 101PV
    gkz gkz 3週間前に 回答
  • 受付中

    回答
    1

    AWSサーバーを使ってScrapyで定期的に自動スクレイピングをさせる方法

    Django作ったアプリと、スクレイピングした商品情報を組み合わせて、ユーザーがレビューするようなサイト(価格ドットコムみたいなの)を作ろうとしています。 Scrapyで定期的に自動スクレイピングをして、その情報を更新していきたいです。 サーバーはAWSを考えているのですが、Scrapyの自動スクレイピングをするときに、どのようなサーバーを使えばいい

    • 0評価
    • 228PV
    fao fao 4週間前に 回答
  • 解決済

    回答
    1

    python、ページ遷移時にurlが変わらないwebページのスクレイピング

    ページ遷移した際にurlが変わらないwebページを、スクレイピングしてみたいと考えています。 例えばhttp://www.wam.go.jp/shofukupub/ApplicationServletの、下記コードの場合、 <button type="submit">次の15件</button> 今までは上記部分に次ページへのurlが記載されており、それ

    • 0評価
    • 145PV
    ynj ynj 1ヶ月前に ベストアンサー
  • 解決済

    回答
    2

    PythonのScrapyで画像URLのみを取得する方法が知りたい

    ガリガリ君のHPにある画像のsrc属性(絶対URL)を取得するために、以下のコードを書いています。 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor # ガリガリ君 class Akagi

    • 0評価
    • 89PV
    quiqui quiqui 1ヶ月前に 回答を編集
  • 解決済

    回答
    1

    タグ内の文字列(商品名)に含まれるメタ文字を取り除く正規表現を知りたい

    PythonのScrapyを使って、HTMLから文字列を取り出しています。 ガリガリ君の商品名を抜き出すために、以下のコードを書きました。 from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor # ガリガリ君 cla

    • 0評価
    • 98PV
    mbase mbase 1ヶ月前に コメント
  • 受付中

    回答
    0

    slackのcustom絵文字を作った人を取得したい

    前提・実現したいこと slackで各custom絵文字を誰が作ったのかをしたいと思っています。 apiではemojiのリストを取得することができますが、誰が作ったのかを取得できません。 そこで、https://team.slack.com/customize/emoji をスクレイピングして取得したく思っています。(NameとAddedBy) python

    • 0評価
    • 91PV
    teratailが1ヶ月前に アップデート
  • 受付中

    回答
    1

    Scrapyでのcallback処理がされない

    scrapyによるスクレイピングを試しています. 初めにxxx/yyy/archiveにアクセスし,archiveの情報を取得,callbackによりarchive以下の情報を取得したいです. # -*- coding: utf-8 -*- import scrapy from scrapy.spiders import CrawlSpider, Rul

    • 0評価
    • 88PV
    quiqui quiqui 2ヶ月前に 回答
  • 受付中

    回答
    1

    スクレイピングで目的のものが取得できない

    前提・実現したいこと スクレイピングで目的のものが取得できないです。 {'title': '厚焼き卵の作り方'} {'title': '白Tについて'} {'title': 'ポニーテール'} という風にタイトルを取得したいです。 発生している問題・エラーメッセージ {'title': None} と出て取得したいものが取得できない。

    • 0評価
    • 164PV
    kobabit kobabit 2ヶ月前に 回答
  • 解決済

    回答
    1

    [Yahooニュースのリスト] PythonのScrapyで二つ目のcallbackを呼ぶ方法

    前提・実現したいこと Yahooニュースの主要リストタブの1件目の情報を取得しようとしています。 ※主要リストタブの1件目が動画ありのものだと失敗しますが、対象は動画なしのものです。 取得したいのは下記の5つ、 ①タイトル 「title」、 ②カテゴリ 「category」、 ③タイトルのURL 「url」、 ④③のURL先の(リンク付きの)見出し文 

    • 0評価
    • 121PV
    LIATARET LIATARET 2ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    Pythonのscrapyによるクローリング、スクレイピング

    わからないこと scrapyでクローリング.スクレイピングしてもJSONファイルになにも書き込まれない 実現したいこと 正常に動作させたい 趣味のスロットのライターの来店予定なんかを収集しようと思っています。 http://www.bash-tv.com/wp/schedule このページをスクレイピングしたいのですが、うまくいきません。 エラーなど

    • 0評価
    • 180PV
    RarigoB RarigoB 2ヶ月前に ベストアンサー
  • 受付中

    回答
    0

    Pythonの別の関数の値渡し

    Pythonである関数で取得した文字列を別の関数で解析したいのですがPythonの関数の関数での値渡しの方法がいまいちわかっていないのでご教授していただけると助かります。 環境 python3.5.2 import scrapy import re from myproject.items import SceduleItem class Tes

    • 0評価
    • 136PV
    teratailが2ヶ月前に アップデート
  • 受付中

    回答
    0

    scrapyでhtml5の要素を取得し、次のページへ遷移させたい

    scrapyでボケてのページの画像を取得するコードを書いています。 その際に次のページに遷移したいので、html5の role="button"の要素を指定したいのですが 取得方法が不明なため、Filtered offsite request となります。 Googleで検索しても対処法が表示されませんので、どなたかご教授いただければと存じます。 ペ

    • 0評価
    • 115PV
    abab7200 abab7200 2ヶ月前に 質問を編集
  • 解決済

    回答
    1

    Scrapyでうまくリンクが辿れない

    scrapyでクローリングしたいときに RuleとLinkExtractorを使用し、ページを辿りたいのですが、 表示されているページャーの番号のリンクを辿ってしまいます。 次へのリンクをたどるにはどうすればいいでしょうか?

    • 0評価
    • 162PV
    RarigoB RarigoB 2ヶ月前に 回答
  • 解決済

    回答
    1

    scrapyでURL取得してから再度parseさせる方法

    scrapyで start_urls = ['http://xx/'] def parse(self, response): for sel in response.css("div.title-card"): list = Item() list['url'] = sel.css('div.uri').extr

    • 0評価
    • 464PV
    tanakamaruki tanakamaruki 2ヶ月前に ベストアンサー
  • 解決済

    回答
    1

    scrapyで次のページへ遷移しスクレイピングしたいが、Filtered offsite reque...

    scrapyの勉強の為、ぼけての特定URLの画像をスクレイピングしようと考えました。 その際に下記2点が対応できず、解決策をご教授いただければと存じます。 1:次のページに遷移しようとした際にログ上で、許可されていないドメインとして出力されます。 再帰的に次のページへ遷移させたいのですが、このログで停止します。 robots.textでもクローラー回

    • 0評価
    • 251PV
    abab7200 abab7200 2ヶ月前に ベストアンサー
  • 受付中

    回答
    1

    scrapyによる要素の取得方法 Yahooニュース記事タイトル

    前提・実現したいこと scrapyの練習としてhttps://www.yahoo.co.jp/からYahooニュース記事タイトルをスクレイピングしようとしています。 方法はscrapyのsehllからコマンドを入力し、逐一結果を確認しています。 コマンド入力としては scrapy shell https://www.yahoo.co.jp/ を入力後、 r

    • 0評価
    • 206PV
    chapin chapin 3ヶ月前に コメント
  • 解決済

    回答
    1

    scrapyで上手くjsonファイルに保存できない問題について

    scrapyで食べログないのデータを取得しようとして以下のようにItemとspiderを作成し、 scrapy crawl tabelog -o retaurants.jl をコマンド実行しました。一応、retaurants.jlファイルは作成されるのですが、抽出内容が記述されずに、ファイルのみ作成されます。 何か問題があるのでしょうか?ご教授お願い

    • 0評価
    • 206PV
    trafalbad trafalbad 3ヶ月前に ベストアンサー
1

タグ情報

  • あなたの順位

    -

  • タグ登録者数

    42

  • 総質問数

    65

  • 今週の質問数

    2

関連するタグ

Scrapyタグのよく見られている質問

思考するエンジニアのためのQ&Aサイト「teratail」について詳しく知る