質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

87.95%

ロシア語で書かれているdbfファイルを開きたいが文字化けする

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 1,383

score 80

こんにちは! Вавилонская башняzaliznia.exeのDBFファイルを開きたいです。
Windows7でDBFファイルを落として、LinuxのLibreOfficeで開くのですが、文字化けしています。

このDBFファイルにはロシア語の格変化を判定するためのデータが収められているはずなので、ロシア語の文字コードで開ければ良いはずなのですがUTF-8Cyrillicなんとかの文字コードを選択しても文字化けがなおりません。

開ける前に文字コードを判定する方法はあるのでしょうか。またはPythonを使って中身を見たりデータにアクセスする方法はあるでしょうか。できればLibreOfficeで開いてファイル全体を見たいです。

よろしくお願いしますorz

 文字化け画像など

こんな感じで文字化けします。ちなみに、提示されているすべての文字コードを試しましたが、まともに表示してくれたものはありませんでした。
OpenWith

Text Garbling

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • ikedas

    2018/10/24 10:07

    「LinuxのLibreOfficeで開く」というのは具体的にどのような操作をしたのかをお書きください。また、「文字化けしています」とのことであれば、どのように文字化けしているのかスクリーンキャプチャなどで示していただけるとありがたいです。

    キャンセル

  • Yukiya025

    2018/10/24 12:49

    ikedas様、質問ありがとうございます(≧▽≦) >「LinuxのLibreOfficeで開く」 dbfファイルを右クリックして、"Open With LibreOffice Calc"で開きます。

    キャンセル

回答 1

checkベストアンサー

+2

調べたことを書きます。

 ファイルを調べる

まず、zaliznia.dbfの中身を調べることにしました。これはどうやらdBASEのデータベースファイルらしいので、ファイルフォーマットの仕様を探して読みました。たとえばここにあります。

odを使ってファイルの中身をダンプして、仕様とくらべてみました。dBASE IIIの形式のようですが、ところどころ違っています。あと、一緒に配布されているzaliznia.varファイルについては、仕様のどこにも記述がありません。

が、フィールドの定義とレコード長、最初のレコードが格納される位置は仕様に基づいて計算できたので、レコードを読んで出力するスクリプトを書いて実行してみました。

$ python3 zaliznia-2.py zaliznia.dbf
'\x01\x00\x00\x00\x03\x00'  '\t\x00\x00\x00\x15\x00'    '      '
'#\x00\x00\x00\x03\x00'     '+\x00\x00\x00\x15\x00'     '      '
'E\x00\x00\x00\x05\x00'     'O\x00\x00\x00\x07\x00'     '      '
'[\x00\x00\x00\x07\x00'     'g\x00\x00\x00\x15\x00'     '      '
'Б\x00\x00\x00\x02\x00'     'И\x00\x00\x00\x07\x00'     '      '
'Ф\x00\x00\x00\x05\x00'     'Ю\x00\x00\x00\x07\x00'     '      '
'к\x00\x00\x00\x03\x00'     '▓\x00\x00\x00\x15\x00'     '      '
'╠\x00\x00\x00\x01\x00'     '╥\x00\x00\x00\x14\x00'     'ы\x00\x00\x00\x0e\x00'
'■\x00\x00\x00\x01\x00'     '\x04\x01\x00\x00\x07\x00'  '      '
'\x10\x01\x00\x00\x01\x00'  '\x16\x01\x00\x00\x07\x00'  '      '
'"\x01\x00\x00\x01\x00'     '(\x01\x00\x00\x1a\x00'     '      '
'G\x01\x00\x00\x07\x00'     'S\x01\x00\x00\x05\x00'     '      '
']\x01\x00\x00\x04\x00'     'f\x01\x00\x00\x1c\x00'     '      '
'З\x01\x00\x00\x03\x00'     'П\x01\x00\x00\x07\x00'     '      '
'Ы\x01\x00\x00\x06\x00'     'ж\x01\x00\x00\x06\x00'     '▒\x01\x00\x00\x10\x00'
'╞\x01\x00\x00\t\x00'       '╘\x01\x00\x00\x07\x00'     '      '
(以下略)


質問者さんとよく似た文字化けのしかたをしています。つまり、レコードを読めているのは間違いないですが、データを正しく変換できていないようです。

しかし、フィールドの幅が6バイトでは、文法情報などを格納するには短かすぎます。そもそもテキスト型に\x00などがやたらと入っているのは変です。

これはテキストデータではなく、数値のような固定長データだと思ったほうがよさそうです。そう思ってよく見ると、各フィールドは6バイトのうち、前の4バイトと後の2バイトに分けられるようです。なので、それぞれを整数として出力してみました (後に0x00が詰められることから、リトルエンディアンで格納されていると仮定しました)。

$ python3 zaliznia-3.py zaliznia.dbf
[1, 3]           [9, 21]          None
[35, 3]          [43, 21]         None
[69, 5]          [79, 7]          None
[91, 7]          [103, 21]        None
[129, 2]         [136, 7]         None
[148, 5]         [158, 7]         None
[170, 3]         [178, 21]        None
[204, 1]         [210, 20]        [235, 14]
[254, 1]         [260, 7]         None
[272, 1]         [278, 7]         None
[290, 1]         [296, 26]        None
[327, 7]         [339, 5]         None
[349, 4]         [358, 28]        None
[391, 3]         [399, 7]         None
[411, 6]         [422, 6]         [433, 16]
[454, 9]         [468, 7]         None
(以下略)


きれいな結果が出ました。それぞれのフィールドのうち前の値は、他のフィールドやレコードの値と重複がなく、はっきりした規則性をもって増加しています。

フィールドごとの値は、まだ見ていないzaliznia.varファイルの中の位置と長さを表していると思われます。これを確認するために、たとえば、上の8番目のレコードの値に従って次を実行してみると、

$ dd bs=1 skip=204 count=1 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8
а

$ dd bs=1 skip=210 count=20 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8
1 (_без удар._) союз

$ dd bs=1 skip=235 count=14 if=zaliznia.var 2>/dev/null |iconv -fcp866 -tutf-8
ah and butI eh


これは、オンラインで提供されているデータベースの検索結果と一致します。

 Starling databaseについて

ここまで調べたあとで、サイトにあった解説をみつけ、このサイトで使われているのはStarling Databaseというものだと知りました。dBASEを元に拡張されたファイル形式だそうです。

名前が分かったので、GitHubにある資料も見つけることができました。Starlingファイル形式についての解説文書もあったので、ここまで試したことはほぼ間違いないことがわかりました (なお、文字コードはcp866に改変を加えた独自のものを使っているようです)。

 Pythonでの方法

上でzaliznia.dbfの内容を出力するために作ったスクリプトを貼っておきます。上の解説を読んで必要な処理を追加すれば、zaliznia.varから実データを読み出すこともできるようになるでしょう。

#-*- python -*-

import sys
from struct import calcsize, unpack

'''
最初のレコードのオフセット。
ファイルによって異なるはずだが、簡単のため決め打ちする。
オフセットの求めかたはdBASE IIIかStarlingの仕様を参照。
'''
initial_offset = 0x82
'''
レコードの形式。
先頭のフラグ1バイトのあとに、カラムの値がパックされて格納される。
レコードの構成はファイルによって異なるはずだが、簡単のため決め打ちする。
'''
record_format = 'B 6s 6s 6s'

def read_records (ioh):
    '''
    IOからレコードを読んで返すジェネレータ関数。
    '''
    record_size = calcsize(record_format)

    ioh.seek(initial_offset)
    while 1:
        buf = ioh.read(record_size)
        if not buf or len(buf) < record_size:
            break

        flag, word, gram, tran = unpack(record_format, buf)
        if flag == 0x1A:            # 終了
            break
        if flag == 0x2a:            # 削除されたレコードはとばす
            continue
        elif flag != 0x20:
            raise ValueError('Unknown flag %r' % flag)

        # yield word, gram, tran
        # yield word.decode('cp866'), gram.decode('cp866'), tran.decode('cp866')
        yield unpack_ref(word), unpack_ref(gram), unpack_ref(tran)

def unpack_ref(col):
    '''
    VARファイルへの参照値を [オフセット, 長さ] の形式にして返す。
    Starling仕様参照。
    '''
    if col == b'      ':
       return None
    else:
       return list(unpack('<LH', col))

def main():
    ioh = open(sys.argv[1], 'rb')
    for row in read_records(ioh):
        # print('%-27r %-27r %r' % row)
        print('%-16r %-16r %-16r' % row)

if __name__ == '__main__':
    main()

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/10/25 17:10

    ikedasさま、ありがとうございます(≧▽≦)
    > zaliznia.varから実データ
    な、なるほど(゚д゚) 実データが入っているのは.varの方なのですか。。。

    キャンセル

  • 2018/10/25 19:39

    > 必要な処理を追加すれば、zaliznia.varから実データを読み出すこともできる
    必要なヒントはすべて回答に入れましたから、よく読んで理解すればできますよ❤️

    キャンセル

  • 2018/11/02 10:45 編集

    手持ちのWin7PCを開き、紹介してくださったWindows用のソフト (GitHubにあったもの)で開けました! ありがとうございました❤

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 87.95%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る