質問するログイン新規登録

質問編集履歴

2

説明の追加

2021/06/30 01:58

投稿

question01
question01

スコア11

title CHANGED
File without changes
body CHANGED
@@ -1,3 +1,8 @@
1
+ ◎試したいこと
2
+ 既にアップロードされているHTMLの本文情報を取得したい
3
+
4
+
5
+ ◎起きている問題
1
6
  Htmlの本文(テキスト)内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。
2
7
 
3
8
 

1

HTMLのコードを見やすく編集しました

2021/06/30 01:58

投稿

question01
question01

スコア11

title CHANGED
File without changes
body CHANGED
@@ -1,12 +1,17 @@
1
1
  Htmlの本文(テキスト)内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。
2
2
 
3
+
4
+ ```ここに言語を入力
3
5
  [HTMLコード]
4
6
  <title>hogehoge(> <)</title>
7
+ ```
5
8
 
9
+
6
10
  このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できません。
7
11
 
12
+
13
+ ```ここに言語を入力
8
14
  [pythonコード]
9
- ```ここに言語を入力
10
15
  r = requests.get(url)
11
16
  soup = BeautifulSoup(r.content , "html.parser")
12
17
  print(soup.find("title").string)