ロシア語で書かれているdbfファイルを開きたいが文字化けする

Question

こんにちは! [Вавилонская башня](http://starling.rinet.ru/downl.php?lan=ru#dict)の`zaliznia.exe`のDBFファイルを開きたいです。
Windows7でDBFファイルを落として、LinuxのLibreOfficeで開くのですが、文字化けしています。

このDBFファイルにはロシア語の格変化を判定するためのデータが収められているはずなので、ロシア語の文字コードで開ければ良いはずなのですが`UTF-8`や`Cyrillicなんとか`の文字コードを選択しても文字化けがなおりません。

開ける前に文字コードを判定する方法はあるのでしょうか。またはPythonを使って中身を見たりデータにアクセスする方法はあるでしょうか。できればLibreOfficeで開いてファイル全体を見たいです。

よろしくお願いしますorz

# 文字化け画像など
こんな感じで文字化けします。ちなみに、提示されているすべての文字コードを試しましたが、まともに表示してくれたものはありませんでした。
![OpenWith](31b4814dd06e5a76348712d517c22583.png)

![Text Garbling](307f7b70e45af66de63d639bcc54b23b.png)

Accepted Answer

調べたことを書きます。 ## ファイルを調べるまず、zaliznia.dbfの中身を調べることにしました。これはどうやら[dBASE](https://ja.wikipedia.org/wiki/dBASE)のデータベースファイルらしいので、ファイルフォーマットの仕様を探して読みました。たとえば[ここ](https://www.loc.gov/preservation/digital/formats/fdd/fdd000325.shtml)にあります。 odを使ってファイルの中身をダンプして、仕様とくらべてみました。dBASE IIIの形式のようですが、ところどころ違っています。あと、一緒に配布されているzaliznia.varファイルについては、仕様のどこにも記述がありません。が、フィールドの定義とレコード長、最初のレコードが格納される位置は仕様に基づいて計算できたので、レコードを読んで出力するスクリプトを書いて実行してみました。 ```bash $ python3 zaliznia-2.py zaliznia.dbf '\x01\x00\x00\x00\x03\x00' ' \x00\x00\x00\x15\x00' ' ' '#\x00\x00\x00\x03\x00' '+\x00\x00\x00\x15\x00' ' ' 'E\x00\x00\x00\x05\x00' 'O\x00\x00\x00\x07\x00' ' ' '[\x00\x00\x00\x07\x00' 'g\x00\x00\x00\x15\x00' ' ' 'Б\x00\x00\x00\x02\x00' 'И\x00\x00\x00\x07\x00' ' ' 'Ф\x00\x00\x00\x05\x00' 'Ю\x00\x00\x00\x07\x00' ' ' 'к\x00\x00\x00\x03\x00' '▓\x00\x00\x00\x15\x00' ' ' '╠\x00\x00\x00\x01\x00' '╥\x00\x00\x00\x14\x00' 'ы\x00\x00\x00\x0e\x00' '■\x00\x00\x00\x01\x00' '\x04\x01\x00\x00\x07\x00' ' ' '\x10\x01\x00\x00\x01\x00' '\x16\x01\x00\x00\x07\x00' ' ' '"\x01\x00\x00\x01\x00' '(\x01\x00\x00\x1a\x00' ' ' 'G\x01\x00\x00\x07\x00' 'S\x01\x00\x00\x05\x00' ' ' ']\x01\x00\x00\x04\x00' 'f\x01\x00\x00\x1c\x00' ' ' 'З\x01\x00\x00\x03\x00' 'П\x01\x00\x00\x07\x00' ' ' 'Ы\x01\x00\x00\x06\x00' 'ж\x01\x00\x00\x06\x00' '▒\x01\x00\x00\x10\x00' '╞\x01\x00\x00 \x00' '╘\x01\x00\x00\x07\x00' ' ' (以下略) ``` 質問者さんとよく似た文字化けのしかたをしています。つまり、レコードを読めているのは間違いないですが、データを正しく変換できていないようです。しかし、フィールドの幅が6バイトでは、文法情報などを格納するには短かすぎます。そもそもテキスト型に`\x00`などがやたらと入っているのは変です。これはテキストデータではなく、数値のような固定長データだと思ったほうがよさそうです。そう思ってよく見ると、各フィールドは6バイトのうち、前の4バイトと後の2バイトに分けられるようです。なので、それぞれを整数として出力してみました (後に0x00が詰められることから、[リトルエンディアン](https://ja.wikipedia.org/wiki/%E3%82%A8%E3%83%B3%E3%83%87%E3%82%A3%E3%82%A2%E3%83%B3)で格納されていると仮定しました)。 ```bash $ python3 zaliznia-3.py zaliznia.dbf [1, 3] [9, 21] None [35, 3] [43, 21] None [69, 5] [79, 7] None [91, 7] [103, 21] None [129, 2] [136, 7] None [148, 5] [158, 7] None [170, 3] [178, 21] None [204, 1] [210, 20] [235, 14] [254, 1] [260, 7] None [272, 1] [278, 7] None [290, 1] [296, 26] None [327, 7] [339, 5] None [349, 4] [358, 28] None [391, 3] [399, 7] None [411, 6] [422, 6] [433, 16] [454, 9] [468, 7] None (以下略) ``` きれいな結果が出ました。それぞれのフィールドのうち前の値は、他のフィールドやレコードの値と重複がなく、はっきりした規則性をもって増加しています。フィールドごとの値は、まだ見ていないzaliznia.varファイルの中の位置と長さを表していると思われます。これを確認するために、たとえば、上の8番目のレコードの値に従って次を実行してみると、 ```bash $ dd bs=1 skip=204 count=1 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8 а $ dd bs=1 skip=210 count=20 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8 1 (_без удар._) союз $ dd bs=1 skip=235 count=14 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8 ah and butI eh ``` これは、[オンラインで提供されているデータベースの検索結果](http://starling.rinet.ru/cgi-bin/response.cgi?root=%2fusr%2flocal%2fshare%2fstarling%2fmorpho\&morpho=1\&basename=morpho\zaliznia\dict\&first=1)と一致します。 ## Starling databaseについてここまで調べたあとで、[サイトにあった解説](http://starling.rinet.ru/program.php?lan=ru)をみつけ、このサイトで使われているのはStarling Databaseというものだと知りました。dBASEを元に拡張されたファイル形式だそうです。名前が分かったので、[GitHubにある資料](https://github.com/rhaver/starling)も見つけることができました。Starlingファイル形式についての解説文書もあったので、ここまで試したことはほぼ間違いないことがわかりました (なお、文字コードはcp866に改変を加えた独自のものを使っているようです)。 ## Pythonでの方法上でzaliznia.dbfの内容を出力するために作ったスクリプトを貼っておきます。上の解説を読んで必要な処理を追加すれば、zaliznia.varから実データを読み出すこともできるようになるでしょう。 ```python #-*- python -*- import sys from struct import calcsize, unpack ''' 最初のレコードのオフセット。ファイルによって異なるはずだが、簡単のため決め打ちする。オフセットの求めかたはdBASE IIIかStarlingの仕様を参照。 ''' initial_offset = 0x82 ''' レコードの形式。先頭のフラグ1バイトのあとに、カラムの値がパックされて格納される。レコードの構成はファイルによって異なるはずだが、簡単のため決め打ちする。 ''' record_format = 'B 6s 6s 6s' def read_records (ioh): ''' IOからレコードを読んで返すジェネレータ関数。 ''' record_size = calcsize(record_format) ioh.seek(initial_offset) while 1: buf = ioh.read(record_size) if not buf or len(buf) < record_size: break flag, word, gram, tran = unpack(record_format, buf) if flag == 0x1A: # 終了 break if flag == 0x2a: # 削除されたレコードはとばす continue elif flag != 0x20: raise ValueError('Unknown flag %r' % flag) # yield word, gram, tran # yield word.decode('cp866'), gram.decode('cp866'), tran.decode('cp866') yield unpack_ref(word), unpack_ref(gram), unpack_ref(tran) def unpack_ref(col): ''' VARファイルへの参照値を [オフセット, 長さ] の形式にして返す。 Starling仕様参照。 ''' if col == b' ': return None else: return list(unpack('

文字化け画像など

ファイルを調べる

Starling databaseについて

Pythonでの方法

関連した質問