wikipediaの全文データから特定カテゴリに属する記事のテキストを抽出したいと考えています。
そのために、まずは以下の記事通りに
Sqliteでカテゴリー構造データ(jawiki-latest-categorylinks.sql.gz)をDBに移行しました⇩
https://qiita.com/YuukiMiyoshi/items/c345a357ac7025515694
しかし、移行後、DBに存在するはずのテーブルが確認できませんでした。(".tables"とコマンドを打ってもテーブルが表示されない)
ネットにはカテゴリー構造データ(jawiki-latest-categorylinks.sql.gz)は以下のカラムで構成されたテーブルがあると書かれています。
cl_from、cl_to varchar、cl_sortkey、cl_timestamp
(http://www.mwsoft.jp/programming/munou/wikipedia_data_list.html#categorylinks.sqlより引用)
そのテーブルを利用するにはどうすればいいのでしょうか。
ご教授いただけますと幸いです。
###試してみたこと###
①./mysql2sqlite jawiki-latest-categorylinks.sql | sqlite3 wikipedia.db でコマンド実行
②2時間ほどで処理が完了→「2011-07-01 01:11:20','こくさいてきなきようりよくのもとにきせいやくふつにかかるふせいこういをしよちようするこういとうのほうしをはかるためのまやくおよひこうせいしんやくとりしまりほうとうのとくれ','uppercase','page'),(24618,'日本における麻薬及び向精神薬取締','こ....」といった感じでリストが列挙され、「 input record number 66, file jawiki-latest-categorylinks.sql source line number 111」とターミナルに書かれてるため処理完了?
③いざデータベースを確認してみると、
・ファイルは0バイトとなっている
・sqliteを立ち上げて、「.tables」でテーブルを確認してもテーブルがない様子
###追記
指摘していただいたので確認いたしましたら、
towc: multibyte conversion failure on: '?'というマルチバイト変換?エラーが出ており、調べてみました。
ubuntuのようなLinux系OSではなく、macosをつかっているからエラーがでた模様...??
https://developer.apple.com/forums/thread/705559
上記の同じエラーが出ている記事を読んでみましたがよく理解できませんでした
あなたの回答
tips
プレビュー