Python初心者です。
PythonでWebスクレイピングを行っておりまして、ハッシュタグのテキストを取得したいのですが、認識されないのか、うまくいきません。
例えばこのブログ(https://ameblo.jp/naoofjapan/)なのですが、
プロフィール欄(右の欄です)のハッシュタグに、
「#猫の多頭飼い」「#猫の病気」「#保護猫」とあり、これらの#をとったテキストを取得したいのです。
HTMLを見てみると、
(前略)
<span class="hashtag-module__item">
<a href="https://blogger.ameba.jp/hashtags/猫の多頭飼い?genre=cat">
<span class="hashtag-module__item__text">#猫の多頭飼い</span>
</a>
</span>
とあるので、
url = BeautifulSoup(requests.get(対象のURL, "lxml")
for value1 in url.find_all("span", class_="hashtag-module__item"):
for value2 in value1.find_all("a"):
for value3 in value2.find_all("hashtag-module__item__text"):
print(value3.get_text())
上記のようにPythonのコードを書いてみましたが、結果は何も表示されません。
試しに、find_all関数の引数を"span"のみにし、class名を指定せずにしたところ、大量のspanタグの要素が出力されますが、「#猫の多頭飼い」「#猫の病気」「#保護猫」に関する情報は出てきません。
ハッシュタグの中身を取得するには、別の方法を実施する必要があるのでしょうか。
どなたか詳しい方、ご教示をお願いいたします。
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
2019/06/11 14:47
2019/06/11 14:55
2019/06/13 12:07