質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.47%

  • Ruby

    7923questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

rubyでUTF8で文字化けを検知して、文字列を強制的に別の文字列に変更したい

解決済

回答 1

投稿

  • 評価
  • クリップ 0
  • VIEW 267
  • 質問内容

rubyでUTF8で認識できていない文字列を検索して、
文字化けをしている文字列を強制的に「????」のように変換したい

  • 詳細

Linux上で稼動するあるプロセスから出力される文字列を入力文字として、
他のシステムに文字列を転送する処理をrubyで作成しています。

その文字列の中には、入力文字列を受け取った時点で既に文字化けしているものがあり、
そのまま処理を継続すると、後続の処理が止まってしまいます。

そこで、文字化けしている文字列を検索して強制的に「?」のような認識できる文字列に変えたいです。
どのようにしたら良いかお知恵拝借できないでしょうか。

よろしくお願いします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

0

ちょうどそれ専用の、String#scrubがあります(るりま)。デフォルトではUTF-8だとU+FFFD(�)に置き換えますが、もちろん自分で指定もできます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/01 16:35

    ご回答ありがとうございました。

    教えていただいた方法で問題解決かと思ったんですが、
    どうやら質問の内容が間違っていたようです。

    エラーとなる文字列は、例えば「黒のひし形に白字のクエスチョンマーク」のような文字列であり、
    調べると、その文字列は、Unicodeの特殊記号(FFFD:Replacement Character)でした。
    (参考:http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/ufff0.html)

    このような文字列を意図的に削除もしくは「?」にするような事を実装したいです。
    例えば、
     String#tr
    を使用して文字コードを指定して変換するようにするのでしょうか?
     from_chr = "\u{FFFD}"
     to_chr = "\u{nnnn}"
     str.tr!(from_chr, to_chr)
    他に良い方法がありましたら、教えていただきたく思います。

    よろしくお願い致します。

    このような文字列

    キャンセル

  • 2018/06/01 17:34

    すでにU+FFFDとなっているのであれば、単純に置換でいいでしょう(str.gsub("\uFFFD", '?'))。

    キャンセル

  • 2018/06/04 18:47

    ありがとうございました。
    無事解決することができました。

    キャンセル

関連した質問

  • 解決済

    Ruby UTF-8にする方法について

    いつも文字コード設定のため、 # coding: utf-8を使っているのですが、 # -*- coding: utf-8 -*-というのもみました。 上記の書き方でも、# co

  • 解決済

    【Ruby】 invalid multibyte char (UTF-8)

    Rubyによるクローラー開発技法の本を進めてますが、Rubyでテストサーバーを立ち上げて、以下ファイルを実行しようとするとエラーで前に進めません。検索で調べてもマジックコメントをつ

  • 解決済

    Rubyのエンコーディングがうまくできない

    こちらのようにして二次元配列の一部分をUTF-8にエンコードしているのですが,エラーが出てしまい困っています。 エラー文を調べてみたのですが,force_encodingメソッドが

  • 解決済

    rubyでHTML

    http://crawler.sbcr.jp/samplepage.html ここから情報を抽出したいと考えています。 # -*- coding: utf-8 -*- p

  • 解決済

    Ruby 日本語出力 文字コード?

    お久しぶりです。 Takkoです。 現在Rubyの学習ということで入門編を下記サイトを活用して学習中です。 http://www.rubylife.jp/ini

  • 受付中

    ASCII文字のみで文字列を連結する場合のエンコーディングについて

    該当のソースコード "aa".encode("UTF-8") + "bb".encode("EUC-JP") => "aabb" 「ASCII文字のみで構成された文字列ならば別エ

  • 解決済

    文字コードの設定について

    おはようございます。 いま、入門本を読んでrubyの勉強をしているところです。 日本語がコードに記述されたときはコマンドプロンプトでプログラムを実行する際、 < -Ku- > を打

  • 解決済

    『Ruby』atom runnnerの日本語文字化け

    ATOMを使ってRubyの勉強を始めたのですが、atom-runnerでpを使うと文字化けしてしまいます。   a = %w[あ い う え お] p a ["\u3042"

同じタグがついた質問を見る

  • Ruby

    7923questions

    Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。