質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.62%

  • Python 2.7

    1236questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • Atom (テキストエディタ)

    499questions

pythonのgensimによるインデックス化

受付中

回答 0

投稿

  • 評価
  • クリップ 1
  • VIEW 120

ShunUsami

score 2

pythonでLDAを用いてwikipedia全体のモデル化を行おうとしています。その過程でwikipediaのダンプファイルをダウンロードし、その後にgensimのツールを用いてインデックス化を行うところでエラーが出て詰まっています。
ダウンロードは問題なく完了しています。

実行したコード

python -m gensim.scripts.make_wiki enwiki-latest-pages-articles.xml.bz2 ./wiki_en_output

出力結果とエラーコード

2018-04-30 15:20:26,954 : INFO : running /Users/name/.pyenv/versions/2.7.14/lib/python2.7/site-packages/gensim/scripts/make_wiki
.py enwiki-latest-pages-articles.xml.bz2 ./wiki_en_output
2018-04-30 15:20:27,132 : INFO : adding document #0 to Dictionary(0 unique tokens: [])
2018-04-30 15:22:35,859 : INFO : adding document #10000 to Dictionary(447242 unique tokens: [u'biennials', u'tripolitan', u'oblocutor
', u'woode', u'maderista']...)
2018-04-30 15:24:27,662 : INFO : adding document #20000 to Dictionary(642569 unique tokens: [u'biennials', u'tripolitan', u'oblocutor
', u'shatzky', u'woode']...)
2018-04-30 15:26:03,007 : INFO : adding document #30000 to Dictionary(780666 unique tokens: [u'tripolitan', u'oblocutor', u'shatzky',
 u'dulcitone', u'olivierre']...)
2018-04-30 15:27:30,952 : INFO : adding document #40000 to Dictionary(904219 unique tokens: [u'tripolitan', u'oblocutor', u'shatzky',
 u'dulcitone', u'olivierre']...)

2018-04-30 15:28:41,562 : INFO : adding document #50000 to Dictionary(983870 unique tokens: [u'tripolitan', u'oblocutor', u'shatzky',
 u'dulcitone', u'sowela']...)
2018-04-30 15:29:29,234 : INFO : adding document #60000 to Dictionary(1002071 unique tokens: [u'tripolitan', u'oblocutor', u'shatzky'
, u'dulcitone', u'sowela']...)
2018-04-30 15:30:09,223 : INFO : adding document #70000 to Dictionary(1019922 unique tokens: [u'tripolitan', u'oblocutor', u'shatzky'
, u'dulcitone', u'sowela']...)
2018-04-30 15:30:47,480 : INFO : adding document #80000 to Dictionary(1035324 unique tokens: [u'tripolitan', u'verplank', u'oblocutor
', u'shatzky', u'dulcitone']...)
2018-04-30 15:32:04,644 : INFO : adding document #90000 to Dictionary(1116628 unique tokens: [u'tripolitan', u'verplank', u'oblocutor
', u'shatzky', u'dulcitone']...)
2018-04-30 15:33:25,415 : INFO : adding document #100000 to Dictionary(1217672 unique tokens: [u'tripolitan', u'verplank', u'oblocuto
r', u'shatzky', u'dulcitone']...)
2018-04-30 15:34:46,219 : INFO : adding document #110000 to Dictionary(1307698 unique tokens: [u'tripolitan', u'verplank', u'oblocuto
r', u'shatzky', u'dulcitone']...)
2018-04-30 15:36:05,965 : INFO : adding document #120000 to Dictionary(1386742 unique tokens: [u'tripolitan', u'verplank', u'oblocuto
r', u'shatzky', u'dulcitone']...)
2018-04-30 15:37:19,276 : INFO : adding document #130000 to Dictionary(1456578 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:38:44,642 : INFO : adding document #140000 to Dictionary(1533950 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:39:55,162 : INFO : adding document #150000 to Dictionary(1622835 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:41:11,824 : INFO : adding document #160000 to Dictionary(1700671 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:42:20,670 : INFO : adding document #170000 to Dictionary(1765584 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:43:28,009 : INFO : adding document #180000 to Dictionary(1818379 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:44:31,545 : INFO : adding document #190000 to Dictionary(1875981 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:45:35,444 : INFO : adding document #200000 to Dictionary(1934253 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:46:37,916 : INFO : adding document #210000 to Dictionary(1984357 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:47:49,936 : INFO : discarding 29412 tokens: [(u'mehranrud', 1), (u'mediveval', 1), (u'm\u0169hingo', 1), (u'\u738b\u570
b\u5fe0', 1), (u'tenbroeck', 1), (u'groeberidae', 1), (u'\u9b4f\u9d6c\u5c55', 1), (u'palladianum', 1), (u'nas\u01eb\u0161t\u012dnyi',
 1), (u'ijssportcentrum', 1)]...
2018-04-30 15:47:49,937 : INFO : keeping 2000000 tokens which were in no less than 0 and no more than 220000 (=100.0%) documents
2018-04-30 15:47:55,918 : INFO : resulting dictionary: Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'bi
llycorgan', u'olmsville']...)
2018-04-30 15:47:56,013 : INFO : adding document #220000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:49:04,428 : INFO : discarding 52313 tokens: [(u'ayyappilli', 1), (u'kovalevsk', 1), (u'dcalgol', 1), (u'lorang', 1), (u
'msff', 1), (u'borklund', 1), (u'novopokrovskii', 1), (u'kouznetsova', 1), (u'kressborn', 1), (u'psoraleifolia', 1)]...
2018-04-30 15:49:04,428 : INFO : keeping 2000000 tokens which were in no less than 0 and no more than 230000 (=100.0%) documents
2018-04-30 15:49:11,517 : INFO : resulting dictionary: Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'bi
llycorgan', u'olmsville']...)
2018-04-30 15:49:11,607 : INFO : adding document #230000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
2018-04-30 15:50:19,450 : INFO : discarding 52456 tokens: [(u'mogden', 1), (u'\uacbd\uc9c4', 1), (u'rhopalodinidae', 1), (u'manevi\u0
107', 1), (u'\u0432\u044b\u043a\u0438\u0434\u043d\u043e\u0439', 1), (u'\u0627\u0644\u0631\u0633\u0627\u0644\u0629', 1), (u'klipbok',
1), (u'muretii', 1), (u'milentije', 1), (u'oreolapathum', 1)]...
2018-04-30 15:50:19,450 : INFO : keeping 2000000 tokens which were in no less than 0 and no more than 240000 (=100.0%) documents
2018-04-30 15:50:26,358 : INFO : resulting dictionary: Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk', u'bi
llycorgan', u'olmsville']...)
2018-04-30 15:50:26,406 : INFO : adding document #240000 to Dictionary(2000000 unique tokens: [u'tripolitan', u'ftdna', u'soestdijk',
 u'billycorgan', u'olmsville']...)
Process InputQueue-4:
Traceback (most recent call last):
  File "/Users/name/.pyenv/versions/2.7.14/lib/python2.7/multiprocessing/process.py", line 267, in _bootstrap
    self.run()
  File "/Users/name/.pyenv/versions/2.7.14/lib/python2.7/site-packages/gensim/utils.py", line 1182, in run
    wrapped_chunk = [list(chunk)]
  File "/Users/name/.pyenv/versions/2.7.14/lib/python2.7/site-packages/gensim/corpora/wikicorpus.py", line 579, in <genexpr>
    ((text, self.lemmatize, title, pageid, tokenization_params)
  File "/Users/name/.pyenv/versions/2.7.14/lib/python2.7/site-packages/gensim/corpora/wikicorpus.py", line 364, in extract_pages
    for elem in elems:
  File "/Users/name/.pyenv/versions/2.7.14/lib/python2.7/site-packages/gensim/corpora/wikicorpus.py", line 349, in <genexpr>
    elems = (elem for _, elem in iterparse(f, events=("end",)))
  File "<string>", line 100, in next
IOError: invalid data stream


どなたか原因や修正点など、お分かりになる方がいればお力を貸していただきたいです。
どうぞよろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

まだ回答がついていません

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.62%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python 2.7

    1236questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

  • Atom (テキストエディタ)

    499questions