質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

Q&A

1回答

1107閲覧

Python3 Selenium スクレイピング Gmail API メール本文の参照方法

masa0924

総合スコア10

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Anaconda

Anacondaは、Python本体とPythonで利用されるライブラリを一括でインストールできるパッケージです。環境構築が容易になるため、Python開発者間ではよく利用されており、商用目的としても利用できます。

Python 3.x

Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

API

APIはApplication Programming Interfaceの略です。APIはプログラムにリクエストされるサービスがどのように動作するかを、デベロッパーが定めたものです。

0グッド

0クリップ

投稿2018/06/30 02:42

前提・実現したいこと

Anacondaをインストールし、
spyderでwindows上にPython環境を作り、Seleniumで
スクレイピングのソースコードがあります。
※プログラムに関しては全くの初心者です。
スクレイピングでGmail APIを利用していて、
10秒毎にGmailアカウントを閲覧し、メールの件名に、
60秒以内に指定した文字列のメール受信があった場合は、
プログラムを起動させるものです。

今回はメールの件名「FW: AAAAAAAA」に加え、さらにメールの本文に「ABCD」という
特定の文字が含まれている場合と、
メール件名は見ずに、メール本文のみ参照しにいくように修正したいです。

有識者の方、ご教授いただければと存じます。

該当のソースコード

import time from datetime import datetime from datetime import date from httplib2 import Http from googleapiclient import sample_tools from apiclient import discovery from apiclient.discovery import build from oauth2client import client from oauth2client import tools from oauth2client import file from oauth2client.file import Storage from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import Select import dateutil.parser as parser SCOPES = 'https://www.googleapis.com/auth/gmail.readonly' store = file.Storage('C:\Users\masa\Documents\credentials-gmail.json') creds = store.get() if not creds or creds.invalid: flow = client.flow_from_clientsecrets('client_secret.json', SCOPES) creds = tools.run_flow(flow, store) service = build('gmail', 'v1', http=creds.authorize(Http())) def fetch_inbox(): output=[] results = service.users().messages().list(userId='me', labelIds='INBOX', maxResults=10).execute() for msg in results['messages']: topid = msg['id'] msg = service.users().messages().get(userId='me', id=topid).execute() payld = msg['payload'] headr = payld['headers'] for k in headr: if k['name']=='Date': temp_date=(parser.parse(k['value'])).strftime("%Y-%m-%d %H:%M:%S") for j in headr: if j['name']=='From': temp_from=j['value'] for i in headr: if i['name']=='Subject': temp_subject=i['value'] output.append((temp_date, temp_from, temp_subject, msg['snippet'])) # print(msg['snippet']) return(output) judge=False while judge==False: info=fetch_inbox() for i in range(len(info)): dt1=datetime.today() dt2=datetime.strptime(info[i][0],"%Y/%m/%d %H:%M:%S") delta=dt1-dt2 if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"指定のメールを受信しました") judge=True if judge==False: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"waiting...") time.sleep(10) if judge==True: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"これよりプログラムを起動します")

試したこと

if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60:

恐らくここの部分を修正するのだと思うのですが、どのように修正すればいいのかが、
わかりません。ご教授いただければと存じます。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

output.appendpayld['body']を加えて、if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60:and '探したい文字' in info[i][加えたbodyのインデクス]を足す。

投稿2018/06/30 13:20

papinianus

総合スコア12705

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

masa0924

2018/06/30 13:41

ご回答ありがとうございます。 ``` output.append((temp_date, temp_from, temp_subject, msg['snippet'], payld['body'])) ``` ↑この部分はこうですかね(^^; ``` if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60: ``` この部分は実際にどのような配列になるのでしょうか(-_-;)...
papinianus

2018/06/30 13:46 編集

配列ですか?ifの条件なので配列ではないと思いますが? outputをそのようになさったなら、ifの行で、 `and '探したい文字' in info[i][4]`を末尾に足せばよいと思いますが。
masa0924

2018/06/30 13:51

if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60 and '探したい文字' in info[i][4]: こういう事でしょうか?
masa0924

2018/06/30 14:07

if info[i][2]=='FW: AAAAAAAA' and delta.total_seconds()<60 and '探したい文字' in info[i][4]: このようにして、実行してみたのですが、うまく起動しません。
papinianus

2018/07/01 14:31

うまく起動しない、というのは全く送信されなくなったのか探したい文字の有無にかかわらず依然として送信するのかエラーなのか、どういう状況でしょうか? そのifの前の行でprint(info[i][4])や、print( '探したい文字' in info[i][4])とすると本文や探すべき文字の判断が行われているか検証できると思います
masa0924

2018/07/03 09:34

ご連絡遅くなり申し訳ありません。 エラーは出ないのですが、実際に探したい文字を含めて実験しましたが、 何も反応がなく、プログラムは動いている状態です。 質問が少し変わってしまいますが、件名は全く見にいかずに、 本文だけを参照しにいくようにする場合だと、どのようにすればよいのでしょうか? 本文の完全一致ではなくて、「BBB」という文字が含まれている場合で フィルターできますでしょうか? ``` if info[i][4]=='BBB' and delta.total_seconds()<60: ``` このようにしてみましたが、うまくいきません。
papinianus

2018/07/03 09:44

「何も反応がなく、プログラムは動いている状態」とは、andを追加したのに、探したい文字がなくても実行されるということでしょうか?奇妙ですね。 そのパターンだと`if 'BBB' in info[i][4] and delta.total_seconds()<60:`でしょう。==だと本文が'BBB'そのものでないと動作しません。
masa0924

2018/07/03 09:48

ありがとうございます。なるほど==だと完全一致になるのですね。 ちょっと if 'BBB' in info[i][4] and delta.total_seconds()<60: これで試してみます!!
masa0924

2018/07/03 09:49

output.append((temp_date, temp_from, temp_subject, msg['snippet'], payld['body'])) ここの部分は、payld['body']はこの位置へ追加でも問題ありませんでしょうか?
masa0924

2018/07/03 09:55

output.append((temp_date, temp_from, temp_subject, msg['snippet'], payld['body'])) if 'BBB' in info[i][4] and delta.total_seconds()<60: これで実行してみたのですが、エラーなどは出ませんが、 BBBを含むメールを送信してみてもシステムが反応しません。
masa0924

2018/07/03 09:58

import time from datetime import datetime from datetime import date from httplib2 import Http from googleapiclient import sample_tools from apiclient import discovery from apiclient.discovery import build from oauth2client import client from oauth2client import tools from oauth2client import file from oauth2client.file import Storage from selenium import webdriver from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import Select import dateutil.parser as parser SCOPES = 'https://www.googleapis.com/auth/gmail.readonly' store = file.Storage('C:\Users\masa\Documents\credentials-gmail.json') creds = store.get() if not creds or creds.invalid: flow = client.flow_from_clientsecrets('client_secret.json', SCOPES) creds = tools.run_flow(flow, store) service = build('gmail', 'v1', http=creds.authorize(Http())) def fetch_inbox(): output=[] results = service.users().messages().list(userId='me', labelIds='INBOX', maxResults=10).execute() for msg in results['messages']: topid = msg['id'] msg = service.users().messages().get(userId='me', id=topid).execute() payld = msg['payload'] headr = payld['headers'] for k in headr: if k['name']=='Date': temp_date=(parser.parse(k['value'])).strftime("%Y/%m/%d %H:%M:%S") for j in headr: if j['name']=='From': temp_from=j['value'] for i in headr: if i['name']=='Subject': temp_subject=i['value'] output.append((temp_date, temp_from, temp_subject, msg['snippet'], payld['body'])) # print(msg['snippet']) return(output) print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"システムを起動しました") judge=False while judge==False: info=fetch_inbox() for i in range(len(info)): dt1=datetime.today() dt2=datetime.strptime(info[i][0],"%Y/%m/%d %H:%M:%S") delta=dt1-dt2 if 'JP225Cash M15' in info[i][4] and delta.total_seconds()<60: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"ただ今、指定した文字列が本文に含まれているメールを受信しました") judge=True if judge==False: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"waiting...Exit") time.sleep(10) if judge==True: print(datetime.today().strftime("%Y/%m/%d %H:%M:%S"),"これよりシステムの処理を開始します")
masa0924

2018/07/03 09:58

どこか、おかしな箇所があれば、ご指摘いただきますと幸いです。。。
papinianus

2018/07/03 10:11

はい。特に個数の制約はないです(以前に書いたprintもいれていただけると条件判定がうまくいっているかの参考となるはずです) 一般論として、もはやtemp_subjectは不要になったかと思うので、場合によってはそこを削るとかはあるかなと思います(消すと番地がずれて、動かなくなったときに手に負えるか、という話もありますので無理せず)。
masa0924

2018/07/03 10:18

質問の趣旨が変わってきてしまいましたので別板で再度質問してみます。 ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問