WikiExtractor.pyのエラーについて

前提・実現したいこと

python初学者です。
word2vecと機械学習に関心を持ち、wikipediaの日本語ページの単語を学習させたいと考えているのですが、Wikiextractorがうまく動かなくて悩んでいます。
原因や改善案等ご教授いただけたら幸いです。

下記のwebページを参考にしています。
https://qiita.com/hoppiece_/items/72753b7ac08f0bd4993f
https://qiita.com/kenta1984/items/93b64768494f971edf86

発生している問題・エラーメッセージ

以下のようなエラーが発生しています。

> python WikiExtractor.py jawiki-latest-pages-articles.xml.bz2
INFO: Preprocessing 'jawiki-latest-pages-articles.xml.bz2' to collect template definitions: this may take some time.
INFO: Preprocessed 100000 pages
INFO: Preprocessed 200000 pages
・・・
INFO: Preprocessed 2600000 pages
INFO: Loaded 90758 templates in 512.5s
INFO: Starting page extraction from jawiki-latest-pages-articles.xml.bz2.
Traceback (most recent call last):
  File "WikiExtractor.py", line 641, in <module>
    main()
    process_dump(input_file, args.templates, output_path, file_size,
  File "WikiExtractor.py", line 364, in process_dump
    reduce.start()
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\process.py", line 121, in start
    self._popen = self._Popen(self)
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\context.py", line 224, in _Popen
    return _default_context.get_context().Process._Popen(process_obj)
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\context.py", line 327, in _Popen
    return Popen(process_obj)
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\popen_spawn_win32.py", line 93, in __init__
    reduction.dump(process_obj, to_child)
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\reduction.py", line 60, in dump
    ForkingPickler(file, protocol).dump(obj)
TypeError: cannot pickle '_io.TextIOWrapper' object
Traceback (most recent call last):
  File "<string>", line 1, in <module>
  File "C:\ProgramData\Anaconda3\lib\multiprocessing\spawn.py", line 102, in spawn_main
    source_process = _winapi.OpenProcess(
OSError: [WinError 87] パラメーターが間違っています。

補足情報（FW/ツールのバージョンなど）

OSはWindows10
Python3.8.5を使っています。

terminal
1python setup.py install

は叩いてます。よろしくお願い致します。

行動規範の内容に同意します

回答2件

ベストアンサー

親切な人が修正のプルリクを送っているので、~~オリジナルをアンインストールしてから~~（setup.pyで入れたなら上書きインストールの方が早いです）こちらを再度導入してみるべきかもしれません。

Open output files after forking by prokotg · Pull Request #238 · attardi/wikiextractor · GitHub
GitHub - prokotg/wikiextractor: A tool for extracting plain text from Wikipedia dumps

pip install --ignore-installed git+https://github.com/prokotg/wikiextractor
python -m wikiextractor.WikiExtractor jawiki-latest-pages-articles.xml.bz2

投稿2021/04/15 12:39

編集2021/04/15 12:40