回答率: 85.29%

質問するログイン新規登録

トップ 7に関する質問複数ページをスクレイピングしてClass名抽出

編集履歴

質問編集履歴

1

現在のソースコード追加。希望結果修正いたしました。

2020/06/16 03:02

投稿

スコア0

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,21 +1,46 @@
 ### 前提・実現したいこと
 Python等を使用して複数ページのサイトに使用されているClass名を一覧化したい。
-可能であれば特定ID（Class）名のInnerHTMLのClass名のみ
 ### サンプルコード
 ```
+import requests
+import csv
+from bs4 import BeautifulSoup
+# パース対象のHTML
+r = requests.get("###URL###")
+# BeautifulSoupのインスタンスを生成
+soup = BeautifulSoup(r.content, "html.parser")
+# 大枠を指定
+target = soup.find(class_="###CLASS###")
+## 配列を作成
+tags = [elem.get('class') for elem in target.find_all()]
+print(tags)
-<div class="AAA">
+f = open("output.csv", "w")
-  <div class="BBB"></div>
-  <div class="BBB CCC"></div>
+writecsv = csv.writer(f, lineterminator='\n')
-</div>
+writecsv.writerow(tags)
+f.close()
 ```
+### 今のアウトプット結果
+```
+['AAA', 'BBB']",['CCC'],,,,,['DDD']
+```
-### 希望抽出結果
+### 希望アウトプット結果
-```ここに言語名を入力
+```
+AAA
 BBB
 CCC
+DDD
 ```
+pythonを触り始めて数時間、、、
+まだ単ページの抽出（さらに希望の抽出結果になっていない）状態で悩んでいます。
-無償であればスクレイピングツール等でも大丈夫です。
+文字列の変換すらママならない初心者プログラマですが、
-スクレイピングを行ったことがないのでご教示いただけますと。
+希望アウトプットスタイルにするにはどのようにしたら良いのでしょうか。。