質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1558閲覧

【python】scheduleでスクレイピングを定期実行したい

Yuta25jp

総合スコア13

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2020/09/22 11:59

現在、pythonを用いてwebスクレイピングに取り組んでいます。
scheduleモジュールを用いて、10分毎にjobを実行するプログラムを作っています。

しかし、下記エラーが弾き出されます。

error

1File "autotask.py", line 17 2 args = sys.argv #コマンドの引数 3 ^ 4IndentationError: expected an indented block

色々とインデントエラーをしらみ潰しに探したのですが、
エラーから抜け出せなくなり、ご質問させていただきました。

コードは下記になります。

python3

1#!/usr/bin/env python 2# -*- coding: utf-8 -*- 3 4# 必要なライブラリのインポート 5from selenium import webdriver 6from selenium.webdriver.common.keys import Keys 7import random 8import urllib.parse 9import time 10import datetime 11import sys 12import traceback 13import chromedriver_binary 14import schedule 15 16def main(): 17args = sys.argv #コマンドの引数 18####################設定#################### 19 20#Chromeを起動 21driver = webdriver.Chrome() 22 23#yahoo URL 24open_url = "https://www.yahoo.co.jp/" 25 26#yahooのサイトを開く 27driver.get(open_url) 28 29#ブラウザを閉じる 30#driver.quit() 31 32# PYTHONIOENCODING=utf-8 python3 33 34if __name__ == '__main__': 35 # 10分毎にjobを実行 36 schedule.every(10).minutes.do(main) 37 38 while True: 39 schedule.run_pending() 40 time.sleep(1) 41 42

お助けいただけますと幸いです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

16行目のdef main():は必要ありません。:は次の行からコードブロックになる合図ですので、少なくとも次の行はインデントが必須となります。しかしインデントされていないので、エラーが発生しています。

投稿2020/09/22 12:09

toast-uz

総合スコア3266

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Yuta25jp

2020/09/22 12:16

ありがとうございます。 def main() を削除すると、 schedule.every(10).minutes.do(main) の部分でエラー出ます。 このscheduleモジュールの記載自体も変更しないといけないでしょうか?
toast-uz

2020/09/22 12:31

driver.get(open_url)の前にdef main():を移動させて、driver.get(open_url)の行をインデントしてください。
Yuta25jp

2020/09/22 12:57

ありがとうございます。 ご指摘の通り def main(): driver.get(open_url) でやってみたのですが、 次は、chromeドライバー起動後にyahooのURLが開かなくなりました。 これはdefの書き方、位置に問題がございますでしょうか?
toast-uz

2020/09/22 13:07

何も問題はありません。schedule.everyは、指定した時間経過した後に初回実行をします。この場合10分待ってください。今回の質問「scheduleでスクレイピングを定期実行したい」は解決しています。 最初にすぐに実行したいのであれば、それは別の質問です。ただし、簡単なので、安易に質問せずに、いろいろ調べて考えてみるとよいでしょう。これが自力で分かるくらいでないと、Pythonでの開発は捗らないと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問