質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.31%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Android

Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

Q&A

解決済

2回答

347閲覧

AndroidでWikipediaからプレーンテキストを抽出したい

k126578ta

総合スコア16

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

Android

Androidは、Google社が開発したスマートフォンやタブレットなど携帯端末向けのプラットフォームです。 カーネル・ミドルウェア・ユーザーインターフェイス・ウェブブラウザ・電話帳などのアプリケーションやソフトウェアをひとつにまとめて構成。 カーネル・ライブラリ・ランタイムはほとんどがC言語/C++、アプリケーションなどはJavaSEのサブセットとAndroid環境で書かれています。

0グッド

0クリップ

投稿2020/01/17 20:38

前提・実現したいこと

Android Studioでウェブページのテキストを抽出したいです。今回は、Wikipediaの1つの記事について全文をプレーンテキストとして取得したいと考えています。記事の内容をhtmlで取得することはできたのですが、プレーンテキストの形では取得できないのでしょうか。自分なりに調べたのですが、方法が思いつかなかったので、質問させていただきました。

補足情報(FW/ツールのバージョンなど)

Android 3.1.4
Windows10
Android Nexus5X

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

回答2

0

ベストアンサー

記事の内容をhtmlで取得することはできたのですが、プレーンテキストの形では取得できないのでしょうか。

そのことを、Webスクレイピングと呼びます。Java スクレイピングで調べると。8 Most Popular Java Web Crawling & Scraping Libraries

Androidの利用で日本語情報が多いのは、jsoup でしょう。全文を取り出す例があるか調べてみてください。

投稿2020/01/19 12:18

xebme

総合スコア1109

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

Wikipedia の記事はマークアップ言語で書かれていると思いますので, 完全なプレーンテキストは無いと思います.
何にしても変換する必要があるのではないでしょうか.

投稿2020/01/18 13:33

jimbe

総合スコア13318

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2020/01/18 13:40

編集は ウィキペディア記法だけど、ブラウザで出力されるのはHTMLのはずだったはず
jimbe

2020/01/18 16:55

使ったことが無いので詳細は知らないのですが, データベースダンプから取り出せるのは編集時の XML とは違うのでしょうか.
退会済みユーザー

退会済みユーザー

2020/01/19 02:29

逐次更新だと負荷が高くなるのであらかじめHTMLを作成してる。 編集用のデータファイル(データベース?)とは別にね
jimbe

2020/01/19 02:49

ご質問はプレーンテキストを得るということですので, wikipedia の html の生成タイミングはともかく, 記事のオリジナル自体がマークアップで書かれていれば, wikipedia としては「プレーンテキストとして保存」もしくは「プレーンテキストに変換」する機能を持っている可能性(必要性)は低いと思いました(少し検索しましたが非公式?の変換ツールしか"らしい"モノは見つかりませんでした)ので, 「変換する必要があるのでは」と回答致しました.
k126578ta

2020/01/20 00:55

回答ありがとうございます。 htmlから必要な部分を抽出してみようと思います。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問