質問編集履歴

ソースコードの掲載など

2019/06/11 14:36

投稿

umai29

スコア19

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,5 +1,59 @@
+Python初心者です。
 PythonでWebスクレイピングを行っておりまして、ハッシュタグのテキストを取得したいのですが、認識されないのか、うまくいきません。
+例えばこのブログ（https://ameblo.jp/naoofjapan/）なのですが、
+プロフィール欄（右の欄です）のハッシュタグに、
+「#猫の多頭飼い」「#猫の病気」「#保護猫」とあり、これらの#をとったテキストを取得したいのです。
+HTMLを見てみると、
+（前略）
+<span class="hashtag-module__item">
+<a href="https://blogger.ameba.jp/hashtags/猫の多頭飼い?genre=cat">
+<span class="hashtag-module__item__text">#猫の多頭飼い</span>
+</a>
+</span>
+とあるので、
+url = BeautifulSoup(requests.get(対象のURL, "lxml")
+for value1 in url.find_all("span", class_="hashtag-module__item"):
+    for value2 in value1.find_all("a"):
+        for value3 in value2.find_all("hashtag-module__item__text"):
+            print(value3.get_text())
+上記のようにPythonのコードを書いてみましたが、結果は何も表示されません。
+試しに、find_all関数の引数を"span"のみにし、class名を指定せずにしたところ、大量のspanタグの要素が出力されますが、「#猫の多頭飼い」「#猫の病気」「#保護猫」に関する情報は出てきません。
+ハッシュタグの中身を取得するには、別の方法を実施する必要があるのでしょうか。
-どなたか詳しい方教えていただけないでしょうか。
+どなたか詳しい方、ご教示をお願いいたします。