teratail header banner
teratail header banner
質問するログイン新規登録

回答編集履歴

3

補足

2018/08/10 22:41

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -5,7 +5,8 @@
5
5
 
6
6
  2,何も出力されない件について(※)
7
7
  ```
8
+ ※取得できない原因
8
- ※取得できない原因はprint(html)をすると分かるのです、JavaScriptになっています。
9
+ print(html)をすると分かるのです、コンテンツがJavaScriptになっています。
9
10
  BeautifulSoupはJavaScriptを実行せずに、静的なHTMLタグを解析するため要素の取得ができません。
10
11
  ```
11
12
 

2

追記

2018/08/10 22:41

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -4,12 +4,14 @@
4
4
  [macOS用公式インストーラーのPython 3.6でCERTIFICATE_VERIFY_FAILEDとなる問題](https://qiita.com/orangain/items/0a641d980019fd7e0c52)
5
5
 
6
6
  2,何も出力されない件について(※)
7
- ## 大前提
7
+ ```
8
+ ※取得できない原因はprint(html)をすると分かるのです、JavaScriptになっています。
8
- google[機械的なAccess規約より禁止](https://support.google.com/webmasters/answer/66357)していますスクレイピングするならば他サイト良いしょう
9
+ BeautifulSoupJavaScript実行せずに、静的なHTMLタを解析するため要素取得ができません
10
+ ```
9
11
 
12
+ あとgoogleは[機械的なAccessを規約により禁止](https://support.google.com/webmasters/answer/66357)しています、スクレイピングするならば他のサイトが良いでしょう。
13
+ URLをyahooに変更するとスクレイピングできるのでは。
14
+
10
15
  ```Python
11
16
  Scraper('https://www.yahoo.co.jp').scrape()
12
- ```
17
+ ```
13
-
14
- ※取得できない原因はprint(html)をすると分かるのです、JavaScriptになっています。
15
- BeautifulSoupは静的なHTMLタグを解析するため、要素の取得ができないのです。

1

追記

2018/08/10 22:40

投稿

umyu
umyu

スコア5846

answer CHANGED
@@ -6,12 +6,10 @@
6
6
  2,何も出力されない件について(※)
7
7
  ## 大前提
8
8
  googleは[機械的なAccessを規約により禁止](https://support.google.com/webmasters/answer/66357)しています、スクレイピングするならば他のサイトが良いでしょう。
9
+
9
10
  ```Python
10
11
  Scraper('https://www.yahoo.co.jp').scrape()
11
12
  ```
12
13
 
13
14
  ※取得できない原因はprint(html)をすると分かるのです、JavaScriptになっています。
14
- BeautifulSoupは静的なHTMLタグを解析するため、要素の取得ができないのです。
15
+ BeautifulSoupは静的なHTMLタグを解析するため、要素の取得ができないのです。
15
-
16
- ■参考情報として
17
- [以前スクレイピングの可否について纏めましたシートがあるので](https://docs.google.com/spreadsheets/d/1qIeVB2UKXIVhOukYfaB9h6cNJFyqcRN63EctUAqwA5M/edit?usp=sharing)