質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

検索

検索は、あるデータの集まりの中から 目的のデータを見つけ出すことです。

Q&A

解決済

1回答

847閲覧

unicodeではないテキストファイルを検索または抽出する方法について

hoshidash

総合スコア21

bash

bash(Bourne-again-Shell)は sh(Bourne Shell)のインプリメンテーションに様々な機能が追加されたシェルです。LinuxやMac OS XではBashはデフォルトで導入されています。

MacOS(OSX)

MacOSとは、Appleの開発していたGUI(グラフィカルユーザーインターフェース)を採用したオペレーションシステム(OS)です。Macintoshと共に、市場に出てGUIの普及に大きく貢献しました。

文字コード

文字コードとは、文字や記号をコンピュータ上で使用するために用いられるバイト表現を指します。

検索

検索は、あるデータの集まりの中から 目的のデータを見つけ出すことです。

0グッド

1クリップ

投稿2020/03/09 06:10

やりたいこと

  • 古い文字コードで書かれたテキストファイルも対象に含めて検索したい

または、

  • 特定の文字コードで書かれたテキストファイルの一覧を抽出したい。

背景とやったこと

古いPCからコピーしたテキストファイルが大量にあって、写真や動画等と混在してHDのあっちこっちに分散しています。古い時代のものですのでjisやeucで書かれていて、ファイル名の付け方も時代によりまちまちです。

特定の語句を含むファイルをfindコマンドやspotlightなどで検索しようとしましたが、unicode以外のファイルは文字化け扱いなのか検索に引っ掛けることができません。

拡張子を頼りに探し出そうともしましたが、拡張子はtxtだけではなく、rdやhowm、org、texなどまちまちで、記憶にないような拡張子も多々あったため難しいです。

試しにfind . -type f -print0 | xargs -0 nkf --guess | sort -k2とやってみたら、少ないファイル数でなら文字コードごとのファイル一覧が作れましたが、ファイル数が多くなるとnkfのCPU使用率が100%近くなって、ハングしたようになってしまいます。
速いと噂のfdでfd -t f -0 | xargx -0 nkf --guess | sort -k2としても同様にハング風でした。
mdfindなら速くできそうな気がしましたが、同様の操作の書き方がわかりませんでした。

文字コードによらず全てのファイルを対象に一括検索できることが望みですが、
特定の文字コードで書かれたファイルを抽出することさえできれば、ゴリ押しで変換や検索などすることはできそうな気がします。

良いアイディアはございませんでしょうか。


環境:
macOS Catalina 10.15.3
bash 5.0.16
nkf 2.1.5
fd 7.4.0

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

ファイル数が多くなるとnkfのCPU使用率が100%近くなって、

それで正常だと思うので、終了を待てばいいのでは?

nkfが律速になっているのでfindを他のコマンドに変えても変わりません。
おそらくマルチコアCPUでしょうから、xargs-Pオプションを使って複数同時に動かせば1コアだけじゃなくて複数コアが100%になって、早く終わると思います。

投稿2020/03/09 06:36

otn

総合スコア84540

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

hoshidash

2020/03/09 06:57

待てど暮らせど反応がなく、ファンが唸り声をあげ続けるもので、本当にこれでいいのか不安でした。 また、xargsのPオプションは知りませんでした。良いことを教えていただきました。 ありがとうございました。 ところで、文字コード混在のままで検索する方法はご存知ないでしょうか。
otn

2020/03/09 07:05

放熱に注意しましょう。 > 文字コード混在のままで検索する方法はご存知ないでしょうか。 そういうツールを知らないかということであれば、知りません。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問