実現したいこと
Google Colabで日本語WordNetを扱いたい
参考として以下の記事を実行しようとしています
https://qiita.com/tchih11/items/aef9505d26d1bf06a04c
前提
記事中の「日本語wordnetをDLして解凍→synset(概念ID)とlemma(単語)の組み合わせDataFrameの作成」がうまくいきません
該当のソースコード
python
1import gzip 2import shutil 3import sqlite3 4import pandas as pd 5import random 6from math import ceil 7 8# 日本語wordnetをDLして解凍 9! wget "http://compling.hss.ntu.edu.sg/wnja/data/1.1/wnjpn.db.gz" # 1~2分 10 11with gzip.open('wnjpn.db.gz', 'rb') as f_in: 12 with open('wnjpn.db', 'wb') as f_out: 13 shutil.copyfileobj(f_in, f_out) 14 15# synset(概念ID)とlemma(単語)の組み合わせDataFrameの作成 16conn = sqlite3.connect("wnjpn.db") 17q = 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"' 18sense_word = pd.read_sql(q, conn)
試したこと
恐らくリンク切れだと思うので、wnjpn.db.gzは https://bond-lab.github.io/wnja/ こちらから直接ダウンロードし、colab上にアップロードしました
しかし以下のコードを実行すると、wnjpn.dbはできるのですがエラーが出ます
with gzip.open('wnjpn.db.gz', 'rb') as f_in: with open('wnjpn.db', 'wb') as f_out: shutil.copyfileobj(f_in, f_out)
error: Error -3 while decompressing data: invalid stored block lengths
その後、エラーを無視して以下のコードを実行すると、やはりエラーが出ます
conn = sqlite3.connect("wnjpn.db") q = 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"' sense_word = pd.read_sql(q, conn)
DatabaseError: Execution failed on sql 'SELECT synset,lemma FROM sense,word USING (wordid) WHERE sense.lang="jpn"': database disk image is malformed
どのように解決できるでしょうか

回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。