編集履歴

質問編集履歴

codeを正しました。

2020/07/08 10:30

投稿

kawaxxx

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -36,27 +36,11 @@
-'''
-html = requests.get(url).text
-soup = BeautifulSoup(html,"html.parser") #AttributeError: 'Response' object has no attribute 'contents'
-'''
-#どちらの書き方でも可能らしい
 html = requests.get(url)
 soup = BeautifulSoup(html.content,"html.parser") #AttributeError: 'Response' object has no attribute 'contents'
-#print(soup("script"))
 for script in soup(["script", "style"]):#スクリプトやスタイルを含む要素を取り除く
@@ -70,11 +54,7 @@
 lines= [line.strip() for line in text.splitlines()]
 text="\n".join(line for line in lines if line)
 print(text)#空白、タグなし

改定後の全文をのせました。

2020/07/08 10:30

投稿

kawaxxx

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -70,25 +70,11 @@
 lines= [line.strip() for line in text.splitlines()]
-'''
-<=
-.strip()では引数に指定したものを文字列の文頭文末から削除することができます。 今回のように引数に何も指定しなければ空白（改行等中身のないもの）を全削除
-.splitlines()は改行ごとに要素をリストに入れます。
-'''
 text="\n".join(line for line in lines if line)
-'''
-<=.joinはリストを文字列に変換します。
-ここで、それぞれのリストの中身ごとに改行して文字列に戻していきます。このとき注意点は、「''」のような中身が何もないlineは無視することです。そのためにif lineが必要です。
-'''
 print(text)#空白、タグなし

改定後の全文をのせました。

2020/07/08 10:22

投稿

kawaxxx

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -19,3 +19,83 @@
 このようにURL内の数字を変えながらスクレイピングしていきたいです。可能なのでしょうか。
 １つのwebサイトからurlを取得してきてスクレイピングする作業ができ、ループで同じように複数のurlから取得したいです。urlは末だけ異なるものです。ヒントをください。
+```ここに言語を入力
+import requests
+from bs4 import BeautifulSoup
+# Webページを取得して解析する
+for i in range(3):
+    url = "https://portal.kyoto-wu.ac.jp/Syllabus/syllabusView?syllabusYear=2020&syllabusNo=K1-{153 + i}&kougicd=' + f'{4553 + i}'"
+'''
+html = requests.get(url).text
+soup = BeautifulSoup(html,"html.parser") #AttributeError: 'Response' object has no attribute 'contents'
+'''
+#どちらの書き方でも可能らしい
+html = requests.get(url)
+soup = BeautifulSoup(html.content,"html.parser") #AttributeError: 'Response' object has no attribute 'contents'
+#print(soup("script"))
+for script in soup(["script", "style"]):#スクリプトやスタイルを含む要素を取り除く
+    script.decompose() #.decompose()は、削除のメソッド
+#print(soup)
+text=soup.get_text()#テキストのみ=タグ取り
+#print(text) #タグなし、空白あり
+lines= [line.strip() for line in text.splitlines()]
+'''
+<=
+.strip()では引数に指定したものを文字列の文頭文末から削除することができます。 今回のように引数に何も指定しなければ空白（改行等中身のないもの）を全削除
+.splitlines()は改行ごとに要素をリストに入れます。
+'''
+text="\n".join(line for line in lines if line)
+'''
+<=.joinはリストを文字列に変換します。
+ここで、それぞれのリストの中身ごとに改行して文字列に戻していきます。このとき注意点は、「''」のような中身が何もないlineは無視することです。そのためにif lineが必要です。
+'''
+print(text)#空白、タグなし
+```
+思うような結果がでませんでした。どうなっているのでしょうか。

わかりやすく書きました

2020/07/08 10:21

投稿

kawaxxx

スコア3

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1 +1,21 @@
+```ここに言語を入力
+https://syllabusView?syllabusYear=2020&syllabusNo=K1-152&kougicd=0004552&request_locale=ja
+```
+K1-153&kougicd=0004553
+K1-154&kougicd=0004554
+K1-155&kougicd=0004555
+.....
+K1-164&kougicd=0004564
+.....
+このようにURL内の数字を変えながらスクレイピングしていきたいです。可能なのでしょうか。
 １つのwebサイトからurlを取得してきてスクレイピングする作業ができ、ループで同じように複数のurlから取得したいです。urlは末だけ異なるものです。ヒントをください。