質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

Q&A

解決済

2回答

1737閲覧

PythonのSeleniumを使ってのスクレイピング方法について

sakanaku

総合スコア17

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

selenium

Selenium(セレニウム)は、ブラウザをプログラムで作動させるフレームワークです。この原理を使うことにより、ブラウザのユーザーテストなどを自動化にすることができます。

0グッド

0クリップ

投稿2020/08/06 04:28

前提・実現したいこと

こんにちわ。初めて質問するPythonの初心者です。Pythonのseleniumを使ってwebサイトのリンクのURLを取得したいのですが、下記のような文字化け?のような文字が出てきてしまいます。どのようなコードを加えるとURLを取得できるようになるでしょうか?
すいませんがご教授願いたいです。

発生している問題・エラーメッセージ

<selenium.webdriver.remote.webelement.WebElement (session="73034013d9c56bfd983a01a3cc0a4865", element="4e13a875-e0e5-4de9-a128-1ad21a2562f7")>

該当のソースコード

from selenium import webdriver
import chromedriver_binary
from selenium.webdriver.common.keys import Keys
import bs4
from selenium.webdriver.chrome.options import Options

options = Options()
options.headless = True
options.add_argument('--headless')

driver = webdriver.Chrome(options=options)
html = driver.page_source.encode('utf-8')

soup = bs4.BeautifulSoup(html, "html.parser")
driver.get("https://www.facebook.com/~指定したwebページのURL")

selector = 'link'

element = driver.find_elements_by_css_selector(selector)
for a in element:
a.text
print(a)

ソースコード

試したこと

関係あるか分かりませんがlist = []を作ってやったりしてみましたが特に空で何も取得できていなくエラ〜メッセージも出ないような状態でした。
list = []
for a in element:
list.append(a.text)

のようなことをしました。

補足情報(FW/ツールのバージョンなど)

Python3.7

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

文字化けとは何の事かわかりませんが、

<selenium.webdriver.remote.webelement.WebElement (session="73034013d9c56bfd983a01a3cc0a4865", element="4e13a875-e0e5-4de9-a128-1ad21a2562f7")>

を見る限り、ちゃんと取得できているようです。あとは必要な属性を取り出せば良い。

投稿2020/08/06 05:43

otn

総合スコア84555

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sakanaku

2020/08/06 05:57

コメントありがとうございます。 すいません、必要な属性というのは例えばどのようなものになりますでしょうか? 例のコードとかご教授いただけないでしょうか? 初心者で根本的な事を、、聞いていると思います。 すいません、よろしくお願いします。
otn

2020/08/06 06:04

a.textとか。
sakanaku

2020/08/06 13:44

ありがとうございます。精度が低く望んでもいないものも取れていますが、日本語での取得ができました。 ご教授ありがとうございました。
guest

0

FACEBOOKはスクレイピングを禁止しているため、取得不可です。

投稿2020/08/06 04:56

sfdust

総合スコア1135

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

sakanaku

2020/08/06 13:45

いろいろ規定があるのですね。これにてやめとこうと思います。 ご指摘ありがとうございます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問