質問編集履歴

1

ソースコードの掲載など

2019/06/11 14:36

投稿

umai29
umai29

スコア19

test CHANGED
File without changes
test CHANGED
@@ -1,5 +1,59 @@
1
+ Python初心者です。
2
+
3
+
4
+
1
5
  PythonでWebスクレイピングを行っておりまして、ハッシュタグのテキストを取得したいのですが、認識されないのか、うまくいきません。
2
6
 
3
7
 
4
8
 
9
+ 例えばこのブログ(https://ameblo.jp/naoofjapan/)なのですが、
10
+
11
+ プロフィール欄(右の欄です)のハッシュタグに、
12
+
13
+ 「#猫の多頭飼い」「#猫の病気」「#保護猫」とあり、これらの#をとったテキストを取得したいのです。
14
+
15
+
16
+
17
+ HTMLを見てみると、
18
+
19
+
20
+
21
+ (前略)
22
+
23
+ <span class="hashtag-module__item">
24
+
25
+ <a href="https://blogger.ameba.jp/hashtags/猫の多頭飼い?genre=cat">
26
+
27
+ <span class="hashtag-module__item__text">#猫の多頭飼い</span>
28
+
29
+ </a>
30
+
31
+ </span>
32
+
33
+
34
+
35
+ とあるので、
36
+
37
+
38
+
39
+ url = BeautifulSoup(requests.get(対象のURL, "lxml")
40
+
41
+ for value1 in url.find_all("span", class_="hashtag-module__item"):
42
+
43
+ for value2 in value1.find_all("a"):
44
+
45
+ for value3 in value2.find_all("hashtag-module__item__text"):
46
+
47
+ print(value3.get_text())
48
+
49
+
50
+
51
+ 上記のようにPythonのコードを書いてみましたが、結果は何も表示されません。
52
+
53
+ 試しに、find_all関数の引数を"span"のみにし、class名を指定せずにしたところ、大量のspanタグの要素が出力されますが、「#猫の多頭飼い」「#猫の病気」「#保護猫」に関する情報は出てきません。
54
+
55
+
56
+
57
+ ハッシュタグの中身を取得するには、別の方法を実施する必要があるのでしょうか。
58
+
5
- どなたか詳しい方教えていただけないでょうか
59
+ どなたか詳しい方、ご示をお願たします