Google Colabで日本語WordNetを扱う際のエラーについて

実現したいこと

Google Colabで日本語WordNetを扱いたい

参考として以下の記事を実行しようとしています
https://qiita.com/tchih11/items/aef9505d26d1bf06a04c

前提

記事中の「日本語wordnetをDLして解凍→synset(概念ID)とlemma(単語)の組み合わせDataFrameの作成」がうまくいきません

該当のソースコード

python
1import gzip
2import shutil
3import sqlite3
4import pandas as pd
5import random
6from math import ceil
7
8# 日本語wordnetをDLして解凍
9! wget "http://compling.hss.ntu.edu.sg/wnja/data/1.1/wnjpn.db.gz"  # 1~2分
10
11with gzip.open('wnjpn.db.gz', 'rb') as f_in:
12    with open('wnjpn.db', 'wb') as f_out:
13        shutil.copyfileobj(f_in, f_out)
14
15# synset(概念ID)とlemma(単語)の組み合わせDataFrameの作成
16conn = sqlite3.connect("wnjpn.db")
17q = 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"'
18sense_word = pd.read_sql(q, conn)

試したこと

恐らくリンク切れだと思うので、wnjpn.db.gzは https://bond-lab.github.io/wnja/ こちらから直接ダウンロードし、colab上にアップロードしました
しかし以下のコードを実行すると、wnjpn.dbはできるのですがエラーが出ます

with gzip.open('wnjpn.db.gz', 'rb') as f_in:
    with open('wnjpn.db', 'wb') as f_out:
        shutil.copyfileobj(f_in, f_out)

error: Error -3 while decompressing data: invalid stored block lengths

その後、エラーを無視して以下のコードを実行すると、やはりエラーが出ます

conn = sqlite3.connect("wnjpn.db")
q = 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"'
sense_word = pd.read_sql(q, conn)

DatabaseError: Execution failed on sql 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"': database disk image is malformed

どのように解決できるでしょうか

行動規範の内容に同意します

回答1件

自己解決

ダウンロードし直し、再起動したところ動きました

投稿2023/10/09 18:33

HARU

総合スコア2

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.30%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

Google Colabで日本語WordNetを扱う際のエラーについて

実現したいこと

前提

該当のソースコード

試したこと

関連した質問