回答率: 85.48%

質問するログイン新規登録

トップに関する質問本文を抽出してmecabで形態素分析したい！

編集履歴

質問編集履歴

1

追加事項を書きました。

2017/09/10 10:24

投稿

スコア30

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -1,12 +1,20 @@
 ###前提・実現したいこと
  現在、chrome拡張機能を作っています。ユーザーが見たページのURLをサーバー側に送って、そのURL先のページの本文を抽出しそれをmecabで形態素分析したいです。
+###追加事項
+（2017/09/10 19:22追加）
+本文抽出したデータをデータベースに送ってみると、きちんとstr型として保存されていました。そのため、本質的に問題は以下の⑵だけになります。
 ###発生している問題・エラーメッセージ
 問題点は2つあります。
-⑴str型で本文抽出ができない。
+⑴str型で本文抽出ができない。←解決しました！
  [<Python, readability, html2text, urllib> HTMLから本文抽出。](http://nekoyukimmm.hatenablog.com/entry/2015/12/24/113719)を参考に、pythonのcgiで本文を抽出しようとしました。しかし、取得したデータをjavascriptに送ってコンソールに表示させると、bytes型として出てきます。デコードしても直りませんでした。