やりたいこと
wikipedia全文データ(jawiki-latest-pages-articles.xml)をテキストデータに変換したい
環境
- macOS(vagrant/centOS7)
やったこと
bundle, wp2txtのインストール。
$ gem install bundle $ mkdir ~/ruby_bundle $ cd ~/ruby_bundle $ bundle init Writing new Gemfile to /file_to_path/ruby_bundle/Gemfile $ echo 'gem "wp2txt"' >> Gemfile $ bundle install
としたところで、wiki全文データをテキストに変換しようとしたところ、次のようなエラーが出現。
$ wp2txt --input-file jawiki-latest-pages-articles.xml [DEPRECATION] This gem has been renamed to optimist and will no longer be supported. Please switch to optimist as soon as possible. /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/lib/wp2txt.rb:37:in `initialize': uninitialized constant Wp2txt::Runner::Etc (NameError) from /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/bin/wp2txt:62:in `new' from /home/vagrant/.gem/ruby/gems/wp2txt-0.9.1/bin/wp2txt:62:in `<top (required)>' from /usr/local/bin/wp2txt:23:in `load' from /usr/local/bin/wp2txt:23:in `<main>'
どうすれば、txtに変換できるでしょうか、ご教授よろしくお願いいたします。
参考
wp2txtでwikipediaのコーパスを作るまでの道のり
wikipedia全文データからWord2Vecで類義語を抽出してみる
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。