質問編集履歴

1

追加事項を書きました。

2017/09/10 10:24

投稿

SoraSue
SoraSue

スコア30

test CHANGED
File without changes
test CHANGED
@@ -1,12 +1,20 @@
1
1
  ###前提・実現したいこと
2
2
 
3
3
  現在、chrome拡張機能を作っています。ユーザーが見たページのURLをサーバー側に送って、そのURL先のページの本文を抽出しそれをmecabで形態素分析したいです。
4
+
5
+
6
+
7
+ ###追加事項
8
+
9
+ (2017/09/10 19:22追加)
10
+
11
+ 本文抽出したデータをデータベースに送ってみると、きちんとstr型として保存されていました。そのため、本質的に問題は以下の⑵だけになります。
4
12
 
5
13
  ###発生している問題・エラーメッセージ
6
14
 
7
15
  問題点は2つあります。
8
16
 
9
- ⑴str型で本文抽出ができない。
17
+ ⑴str型で本文抽出ができない。←解決しました!
10
18
 
11
19
  [<Python, readability, html2text, urllib> HTMLから本文抽出。](http://nekoyukimmm.hatenablog.com/entry/2015/12/24/113719)を参考に、pythonのcgiで本文を抽出しようとしました。しかし、取得したデータをjavascriptに送ってコンソールに表示させると、bytes型として出てきます。デコードしても直りませんでした。
12
20