質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.75%

  • .NET Framework

    425questions

    .NET Framework は、Microsoft Windowsのオペレーティングシステムのために開発されたソフトウェア開発環境/実行環境です。多くのプログラミング言語をサポートしています。

  • PowerShell

    314questions

    Windows PowerShellはコマンドラインインターフェースであり、システム管理を含むWindowsタスク自動化のためのスクリプト言語です。

.Net System.Text.Encoding.GetStringメソッドで文字の途中で切った場合の動作

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 398

mjxg

score 6

以下のPowerShellスクリプトでEncoding.GetStringメソッドを使ってcp932文字列から16byte切り出しました。

$enc=[System.text.encoding]::default
$bytes=$enc.getbytes("一二三四五 六七八")
$enc.getstring($bytes, 0, 16)
# 17bytes返される

以下の文字列が17byte返されました。
一二三四五 六七・

渡したい文字列はさまざまで1byte文字と2byte文字が混在していることもあります。
最後の文字の途中で切ることもありますが、
最後の「八」が中黒になっているのが不可解です。

最後の文字を空文字に変換して15byte返してくれると一番助かるのですが、
いずれにせよ16byteは超えないようにしたいです。

環境
Powershell 5.0.10586.117
.Net Framework 4.7
Windows 7 Professional Service Pack 1 x86

よろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

Power Shell は全く知らないのですか、.NET のライブラリを使っているはずなので・・・

$bytes=$enc.getbytes("一二三四五 六七八") の '五' と '六' の間に半角空白が入っていることに気が付いているでしょうか?

日本語 OS でしょうから $enc=[System.text.encoding]::default は Shift_JIS になると思いますが、そうすると "一二三四五 六七八" は 17 バイトになります。(全角漢数字 '一' ~ '八' はそれぞれ 2 バイトずつで 2 x 8 = 16 バイト、半角空白 ' ' は 1 バイト、16 + 1 =17 バイトです)

なので、$enc.getstring($bytes, 0, 16) が "一二三四五 六七・" になるのは当然の結果('八' は 2 バイトなのに 1 バイトしか出力されないので文字化け)だと思いますが。

一体何がしたいのでしょう?

【追記】

質問を読み直して ↓ こういうことではないかと思ったのですが?(大前提として、ホントに Shift_JIS を考えればよいのかという疑問がありますが、そこはちょっと置いといて・・・)

(1) Shift_JIS コードのバイト列がある。内容と長さは不定。Shift_JIS として不正なコードは入ってない。

(2) そのバイト列から最大 16 バイトを文字列に変換して出力したい。

(3) ただし、上記 (1) のバイト列が 16 バイトを超える場合で、かつ最後の 16 バイト目が Shift_JIS の 2 バイト文字(いわゆる全角文字)の第 1 バイトの場合は、バイト列の 15 バイトまでを文字列に変換して出力したい。

上記の理解が違う場合はどこがどう違うか指摘してください。

理解が合っていれば、PowerShell で書けるのかどうかわかりませんが、(3) ができるようなコードを書くということになります。

具体的には、2 バイト文字の第 1 バイトは 16 進数で 80 以上なので、(1) のバイト列を先頭からスキャンして行って、16 バイト目が 1 バイト文字(いわゆる半角)か 2 バイト文字の第 1 バイトなのかを調べて処置するということになります。

なお、16 バイト目だけ見たのではダメです。必ずバイト列の先頭からスキャンして調べていく必要があります。また、Shift_JIS として不正なコードは入ってないことが条件になります。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/11/19 11:00

    ありがとうございます。
    質問の内容は追記の通りです。
    ちなみにcp932が(おおむね)Shift_JISのことです。

    キャンセル

  • 2017/11/19 11:16

    > 質問の内容は追記の通りです。

    「追記」とはどこの部分でしょう? 質問は最初の投稿から変わってないように見えます。

    キャンセル

  • 2017/11/19 11:26 編集

    あ、分かりました、「追記」とは質問者さんの追記ではなく、私が私の回答欄に書いた追記のことですね?

    キャンセル

  • 2017/11/19 12:07

    そうです。すみません……

    キャンセル

  • 2017/11/19 12:15

    質問者さんのケースに限れば以下のようにしてできるはずです。

    $enc=[System.text.encoding]::default
    $bytes=$enc.getbytes("一二三四五 六七八")
    if($bytes[15] -gt 0x80){$index=15}else{$index=16}
    $enc.getstring($bytes, 0, $index)

    キャンセル

checkベストアンサー

0

要は、MS932で16バイト以内に収まるように文字を切り出したいのですよね?
PowerShellでどうやるのかはわかりませんが、C#ならばこんな感じでしょうか。

[TestMethod]
public void TestHoge() {
    var encoding = Encoding.GetEncoding("Shift_JIS");
    var encoder = encoding.GetEncoder();
    var buff = new byte[16];
    int charsUsed, bytesUsed;
    bool completed;

    var target = "一二三四五 六七八".ToCharArray();
    encoder.Convert(target, 0, target.Length, buff, 0, buff.Length,
            true, out charsUsed, out bytesUsed, out completed);

    Assert.AreEqual(15, bytesUsed);
    var result = encoding.GetString(buff, 0, bytesUsed);
    Assert.AreEqual("一二三四五 六七", result);
}

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2017/11/18 10:53

    Shift_JIS のバイト列の 16 バイト目が 1 バイト文字(いわゆる半角)か 2 バイト文字(いわゆる全角)の第 1 バイトなのかを調べて処置するということになると思いますが、それを上のコードで配慮されているでしょうか?

    キャンセル

  • 2017/11/18 11:52

    上記コードは正しく動作しますよ。
    マルチバイトの扱いがこの質問のキモなので配慮されているのは当然です。
    Assert.AreEqual(15, bytesUsed);
    って書いてあると思いますが?
    Shift_JISの1バイト目かどうかなんて判定は自分でやらないってだけです。

    キャンセル

  • 2017/11/18 22:49

    返答をありがとうございます。

    Encoder.Convert メソッドは文字単位でバイト列にバッファするというこということですね。

    キャンセル

  • 2017/11/19 12:06

    ありがとうございます。
    PowerShellだとこんな感じでできました。

    $encoding = [System.Text.Encoding]::GetEncoding("Shift_JIS");
    $encoder = $encoding.GetEncoder();
    [byte[]]$buff = @(0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0)
    [int]$charsUsed = 0
    [int]$bytesUsed = 0
    [bool]$completed = $FALSE
    $target = "一二三四五 六七八".ToCharArray();
    $encoder.Convert($target, 0, $target.Length, $buff, 0, $buff.Length, $TRUE, [ref]$charsUsed, [ref]$bytesUsed, [ref]$completed);
    $encoding.GetString($buff, 0, $bytesUsed);

    キャンセル

  • 2017/11/19 21:09

    PowerShell化できてよかったです。というか、PowerShellって便利ですねぇ。
    今さらながら補足ですが、

    1. 抽象的(Encoding、Encoder)で解決できるならば、具象的(MS932のバイト列)にプログラムを書かない
    2. DRY:あるもの(Encoder.Convert)を再開発しない。

    が肝要ではないかと思います。これらを守らなくても、問題は解決できますし、そうせざるを得ない場合もあるかとは思います。ただ、具象的プログラムの乱用はコピペ文化につながっていく例が多いように思います。抽象的な解決方法は、言語を超えて応用が利くのではないかと思います。たとえば、Javaのエンコーディングの構造もエンコーダとデコーダの組み合わせでできていて、同じように、有限のバッファに対してのバイト列への変換などの仕組みがあったりします。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.75%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • .NET Framework

    425questions

    .NET Framework は、Microsoft Windowsのオペレーティングシステムのために開発されたソフトウェア開発環境/実行環境です。多くのプログラミング言語をサポートしています。

  • PowerShell

    314questions

    Windows PowerShellはコマンドラインインターフェースであり、システム管理を含むWindowsタスク自動化のためのスクリプト言語です。