質問編集履歴
2
説明の追加
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,3 +1,8 @@
|
|
1
|
+
◎試したいこと
|
2
|
+
既にアップロードされているHTMLの本文情報を取得したい
|
3
|
+
|
4
|
+
|
5
|
+
◎起きている問題
|
1
6
|
Htmlの本文(テキスト)内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。
|
2
7
|
|
3
8
|
|
1
HTMLのコードを見やすく編集しました
title
CHANGED
File without changes
|
body
CHANGED
@@ -1,12 +1,17 @@
|
|
1
1
|
Htmlの本文(テキスト)内に顔文字として[(> <)]や[(>_<)]が含まれているとそこの本文がうまく取得できずにエラーを起こすことがあります。
|
2
2
|
|
3
|
+
|
4
|
+
```ここに言語を入力
|
3
5
|
[HTMLコード]
|
4
6
|
<title>hogehoge(> <)</title>
|
7
|
+
```
|
5
8
|
|
9
|
+
|
6
10
|
このような文字列があると[(> <)]をタグの記号だと誤認して以下のデータ取得でうまく<title>のデータを取得できません。
|
7
11
|
|
12
|
+
|
13
|
+
```ここに言語を入力
|
8
14
|
[pythonコード]
|
9
|
-
```ここに言語を入力
|
10
15
|
r = requests.get(url)
|
11
16
|
soup = BeautifulSoup(r.content , "html.parser")
|
12
17
|
print(soup.find("title").string)
|