質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

Q&A

2回答

5255閲覧

wp2txtでwiki全文データをテキストデータにしたい

merico

総合スコア12

CentOS

CentOSは、主にRed Hat Enterprise Linux(RHEL)をベースにした、フリーのソフトウェアオペレーティングシステムです。

自然言語処理

自然言語処理は、日常的に使用される自然言語をコンピューターに処理させる技術やソフトウェアの総称です。

0グッド

0クリップ

投稿2018/11/22 13:13

やりたいこと

wikipedia全文データ(jawiki-latest-pages-articles.xml)をテキストデータに変換したい

環境

  • macOS(vagrant/centOS7)

やったこと

bundle, wp2txtのインストール。

$ gem install bundle $ mkdir ~/ruby_bundle $ cd ~/ruby_bundle $ bundle init Writing new Gemfile to /file_to_path/ruby_bundle/Gemfile $ echo 'gem "wp2txt"' >> Gemfile $ bundle install

としたところで、wiki全文データをテキストに変換しようとしたところ、次のようなエラーが出現。

$ wp2txt --input-file jawiki-latest-pages-articles.xml [DEPRECATION] This gem has been renamed to optimist and will no longer be supported. Please switch to optimist as soon as possible. /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/lib/wp2txt.rb:37:in `initialize': uninitialized constant Wp2txt::Runner::Etc (NameError) from /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/bin/wp2txt:62:in `new' from /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/bin/wp2txt:62:in `<top (required)>' from /usr/local/bin/wp2txt:23:in `load' from /usr/local/bin/wp2txt:23:in `<main>'

どうすれば、txtに変換できるでしょうか、ご教授よろしくお願いいたします。

参考

wp2txtでwikipediaのコーパスを作るまでの道のり
wikipedia全文データからWord2Vecで類義語を抽出してみる

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

wp2txt.rbの37行目はプロセッサ数を初期化しているので、2とか4とか入れてやると動きます。

投稿2022/03/31 07:53

dinosauria123

総合スコア25

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

私はWindows10にUbuntuを入れて同じことをやってみましたが、同じ警告が出ました。
DEPRECATION(廃止)ですのであきらめて検索していると、
WikiExtractor.py 2.55
というのを見つけました。python2でないと動かないようです。これで処理できました。
お答えになってませんよね…。

投稿2019/10/20 05:29

motk

総合スコア6

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問