質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.47%

  • UTF-8

    129questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。

全文検索構築中。中国漢字が?になってしまう。(HyperEstraier)

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 1,803

yasbon

score 3

全文検索のシステムを構築中です。
エンジンはHyperEstraier(Win版バイナリ)V1.4.10を採用。
サーバーはWindos2008R2 Server。
その他、IIS6.1,ActivePerl5.8.9

H.E.付属のestseek.cgiを利用して検索。

インデックス作成は下記コマンドを実行(パスは適当)
estcmd gather -ft -bc -lt -1 -sd -cm -um C:\temp\casket "c:\temp\test"

Q:英語,日本語,中国語を含むExcel,Wordファイルを対象とした場合、
・中国語を含むファイルのみ文字化けしてしまいインデックス作成できない。
Dirコマンドでファイル名を見ると文字化けしないが、estcmd実行時のログは化けている
・本文の中国語が全て”?”になってしまう。
もちろん、インデックスに存在しないので、検索できない。

※中国語・・・日本の漢字に存在しない?文字(产,份など)

対策をご存知の方がいらっしゃいましたら、ご教授御願いいたします。

■補足■
份.xls,份.txt を対象(testフォルダに保存)
estcmd gather -ft -bc -lt -1 -sd -cm -um C:\temp\casket "c:\temp\test" を実行

estcmd: INFO: reading list from the directory: c:\temp\test
estcmd: INFO: status: name=C:\temp\casket dnum=10 wnum=7926 fsiz=7090333 crnum=0 csiz=0 dknum=0
estcmd: ERROR: c:\temp\test\?.txt: could not open
estcmd: ERROR: c:\temp\test\?.xls: could not open
estcmd: INFO: closing: name=C:\temp\casket dnum=10 wnum=7926 fsiz=7090333 crnum=0 csiz=0 dknum=0
estcmd: INFO: finished successfully: elapsed time: 0h 0m 0s
となります。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

ユーザー側でこの問題を解決するのはちょっと絶望的です。
ソースファイルを見るとファイルを開くのをすべて fopen() 関数で行っています。
この関数はマルチバイトエンコーディング、つまり日本語版WindowsならSHIFT-JISで引数を受け取るようになっているので中国漢字は原理的に渡しようがありません。

Windows環境ではファイルパスをワイド文字で扱ってCreateFileW()もしくは_wfopen()関数でアクセスするように書いてあれば可能だったのですが、そうはなっていないので、中国語版Windowsで実行する以外に方法はなさそうです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/01/19 14:34

    回答有難う御座います。
    HyperEstraierのホームページを見ると、”Unicode(UCS2)の全ての文字を扱えるので、日本語や英語はもちろん、中国語、韓国語、ロシア語、フランス語、ドイツ語、スペイン語など、現在世界で使われているほぼ全ての言語の文書を検索対象にすることができます”という記載があります。
    この意味が、ユーザー側の環境どれでも使えます。という意味であれば、できないのかもしれませんね。
    サーバーも管理しているので、サーバーの設定変更で行けるものなのでしょうか。

    キャンセル

  • 2016/01/19 14:44

    ファイルの内容については多言語対応しているのかもしれませんが、ファイル名についてはソースファイルを読む限り多言語化されていないですね。

    キャンセル

  • 2016/01/19 15:13

    回答有難う御座います。

    なるほど・・・
    ファイル名に関しては他の対策を考える他ないということですね。

    本文内の中国語が"?"になってしまうのは、何とかなるということでしょうか。
    100万文書くらいあり、日本語と多言語が混在しているので、簡単な方法があると
    いいのですが・・・。

    キャンセル

  • 2016/01/19 16:47

    非常に悩みましたが、今回はソースファイルを読んでまでの回答ということ,
    ファイル名は出来ないという大きな進展がありましたので、yubaさんにベストアンサー
    させていただきます。(chcp のコマンド自体は知っていたということもありますので)

    キャンセル

  • 2016/01/19 16:55

    多言語化は重要なテーマですね。せっかく作ったツールでユーザーにこんな思いをさせないためにも。

    キャンセル

  • 2016/01/19 17:40

    CHCPコマンド、標準出力の制御だけだと思っていたのでAPI各関数のエンコーディングにまで及んでいるとはちょっと想像が及んでいませんでした。
    また、ソースを読んだっていっても症状からあたりを付けてfopen, CreateFileで全文検索をかけただけなので大したことはしていないです⋯

    キャンセル

  • 2016/01/21 10:54 編集

    調査結果を投稿します。

    ・パス(ファイル名,フォルダ名)に中国語が含まれていると、登録できません。
    ・Office文書にて、本文に中国語が入っている場合、"estxfilt.bat"を修正する必要がある。
    "xdoc2txt"のオプション"-s"を"-8"に変更する。
    ※HyperEstraierに同梱されているxdoc2txtはバージョンが古いので、最新版と置き換える必要がある。

    登録の仕方
    1.コマンドプロンプトを起動する
    2.chcp 65001 を実行し、UTF-8へ文字コードを変更する
    3.estcmd gather -kn 4096 -um -il ja -cl -fx .xls,.xlsx,.xlsm,.ppt,.pptx,.doc,.docx T@estxfilt -ic UTF-8 -pc CP932 -sd -cm -lf -1 -lt -1 -xh casket "文書フォルダ" を実行する
    ※パスに日本語が含まれている場合、"-pc CP932"が必要
    ※バッチファイル等で実行する場合、バッチファイルの文字コードをUTF-8にする必要があるかも。

    現在:中国語のパスをどうにかしたいと検討中

    キャンセル

+1

試しにコマンドプロンプトでchcp 65001を実行してコードページをUTF-8に変更してから実行してみてはどうでしょうか。
その状態ですと、ANSI文字をUTF-8として処理するので、もしかしたら中国語(非JISコード文字)を受け入れてくれるかもしれません。

ただし、コマンドプロンプト上は非ASCII文字が正しく表示できませんので、表示を確認する際はリダイレクトしてファイルに書く必要があります。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2016/01/19 16:22

    回答有難う御座います。

    テストデータを作り、行ってみた結果、無事に登録できました。
    日本語パスなどがあり、cp932で行わないと文字化けが発生してしまうため、
    chcp 932 で行っていました。
    ファイルによって処理を変えるなど検討することは多々ありそうですが、
    対策の方向性が見えてきました。
    有難う御座いました。

    キャンセル

  • 2016/01/19 16:35

    補足:
    バッチファイルで実行していたが、バッチファイルの文字コードがUTF-8でないと実効できない。

    キャンセル

  • 2016/01/19 16:48

    非常に悩みましたが、今回はソースファイルを読んでまでの回答ということ,
    ファイル名は出来ないという大きな進展がありましたので、yubaさんにベストアンサー
    させていただきます。(chcp のコマンド自体は知っていたということもありますので)

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.47%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

同じタグがついた質問を見る

  • UTF-8

    129questions

    UTF-8は8ビット符号単位の文字符号化形式及び文字符号化スキームです。データ交換方式、ファイル形式としては、一般的にUTF-8が使われる傾向があります。