質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.59%

python3 スクレイピング 構文エラー

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 468

yujin5296

score 16

前提・実現したいこと

【LINE Bot x AI】顔認識を利用したAI Bot「スケベ博士」をPythonとGoogle Apps Scriptで作ろう
上記のリンクで紹介している機能を実装しようとしています

pythonのpandasというライブラリを使用して
AV女優一覧のページで公開しているAV女優のサムネイルと名前のデータを
スクレイピングし、csv形式で取得を試みています。

構文エラーについて検索しても、特に問題が見つけられなかったため
知見を持っている方に下記のソースコードに間違いがあるのか
それとも環境に問題がありそうなのかを判断していただければと
思っています。

発生している問題・エラーメッセージ

○○○$ python3 DMM_AVactor.py 
  File "DMM_AVactor.py", line 40
    except Exception as e:
         ^
SyntaxError: invalid syntax

該当のソースコード

from selenium import webdriver
import pandas

"""***************************************
もろもろの設定
***************************************"""
browser = '/usr/local/bin/chromedriver'
df = pandas.read_csv('default.csv', index_col=0) #女優名・女優の画像URLが列に入っている
url = "http://wav.tv/actresses/" #エロサイトの女優リストのページ

"""******************************
CSS SELECTORの設定
******************************"""

PAGER_NEXT = "a.m-pagination--next.is-last.step" #次へボタン
POSTS = "div.m-actress-wrap"
ACTRESS_NAME = ".m-actress--title" #女優名
IMAGE = ".m-actress--thumbnail-img img" #サムネイル画像のURL、srcで画像ファイルを取得できる

"""***************************************
実行部分
***************************************"""

browser.get(url)

while True: #continue until getting the last page
    #5-1
    if len(browser.find_elements_by_css_selector(PAGER_NEXT)) > 0:
        print("Starting to get posts...")
        posts = browser.find_elements_by_css_selector(POSTS) #ページ内のタイトル複数
        print (len(posts))
        for post in posts:
            try:
                name = post.find_element_by_css_selector(ACTRESS_NAME).text
                print(name)
                thumnailURL = post.find_element_by_css_selector(IMAGE).get_attribute("src")
                print(thumnailURL)
                se = pandas.Series([name,thumnailURL],["name", "image"])    
                df = df.append(se, ignore_index=True)
            except Exception as e:
                print(e)
                btn = browser.find_element_by_css_selector(PAGER_NEXT).get_attribute("href")
                print("next url:{}".format(btn))
                browser.get(btn)
                print("Moving to next page......")
            else:
                print("no pager exist anymore")
                break
                #6
                print("Finished Scraping. Writing CSV.......")
                df.to_csv("output.csv")
                print("DONE")

試したこと

selenium、webdriver、pandas等は一通りインストール済みです

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

全角スペースが入ってりするとたまにそういうのあるので、前後の行を削除して、手動で打ってみて挙動を確認してみては如何でしょうか。
パッとみた限り、その行に関して間違いはなさそうです

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2019/07/20 18:37

    回答ありがとうございます

    インデントや改行を修正した結果、
    上記のエラーは出なくなりましたが
    下記のようなエラーが発生しました。

    検索など調査はしましたがいまいちわからずじまいです

    ```
    Traceback (most recent call last):
    File "DMM_AVactor.py", line 24, in <module>
    browser.get(url)
    AttributeError: 'str' object has no attribute 'get'
    ```

    エラーメッセージの意図もつかめておりません
    ご教示いただければ幸いです

    キャンセル

  • 2019/07/20 19:01

    エラーの内容ですが、文字列にはgetという属性は持っていないというエラー内容で、要はURLの文字列だと.getは使えませんということです。
    このような表記をする必要があると思います(サイトにも記載されています)。
    # Chromeのドライバーを起動
    webdriver.Chrome('/usr/local/bin/chromedriver')

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.59%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る