質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python

    11675questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    9770questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Path.glob()を使って検索したパスが一部小文字になる

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 2
  • VIEW 505

ark0214

score 51

 前提・実現したいこと

ファイル名が列挙されたテキストファイルを読み込み、
特定ディレクトリ以下を再帰的に検索してそのパスを出力するプログラムを作成しています。
下にあるプログラムで検索・出力するところまでは出来たのですが、
出力されるパスのファイル名部分が小文字になってしまいます。
検索文字列は大文字、実際に存在するファイルの名前も大文字です。
どうすれば正しいパスが取得できるでしょうか。

 該当のソースコード

import csv
from pathlib import Path, PurePath

/*
  search()を呼び出す過程で、下の変数には以下の値が入れられています。
  listFile: 検索したいファイルの名前を列挙したテキストファイル
  search_target_dir: 検索対象となるディレクトリ

 最終的に返したいのは、
  検索対象のファイル名,←のファイルが存在したディレクトリへのパス
 が列挙されたcsvファイル
*/
def search(listFile, search_target_dir):
  f = open(listFile, 'r', encoding="utf-8")
  reader = f.read().split('\n')

  # 検索対象のパス
  search_target_path = Path(search_target_dir)

  iDir = Path(listFile).parent.resolve()

  # 結果のcsvの出力先
  resultFile = filedialog.asksaveasfilename(\
    filetypes = [("テキストファイル","*.csv")],\
    initialdir = iDir,\
    initialfile = "result",\
    defaultextension = ".csv",\
    title = "結果ファイルの出力")

  w = open(resultFile, 'w')
  writer = csv.writer(w, lineterminator='\n')

  for line in reader:
    # print(line) ここで表示されるファイル名は大文字
    if list(search_target_path.glob("**/" + line)):
      [ writer.writerow([line, p]) for p in search_target_path.glob("**/" + line) ]
      # [ print(p) for p in search_target_path.glob("**/" + line) ]
      # ここで表示されるパス名は小文字
    else:
      writer.writerow([line, ""])

  f.close()
  w.close()

listFileとして呼ばれるテキストファイルの例

180903_A.jpg
111111_ZA.jpg
APPLE.jpg

上のファイルをE:\Users\XXX\画像 以下で検索した例

180903_A.jpg,E:\Users\XXX\画\tmp\180903_a.jpg
111111_ZA.jpg,E:\Users\XXX\画\111111_za.jpg
APPLE.jpg,E:\Users\XXX\画\image\color\apple_jpg

 補足情報(FW/ツールのバージョンなど)

Python 3.6.5

 追記(20180911)

上ののコードの一部書き換えで不具合の回避ができましたので、共有いたします。

- [ writer.writerow([line, p]) for p in search_target_path.glob("**/" + line) ]
+ [ writer.writerow([line, p.with_name(line)]) for p in search_target_path.glob("**/" + line) ]
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 1

checkベストアンサー

+2

◆実行環境
3.6.5 (v3.6.5:f59c0932b4, Mar 28 2018, 17:00:18) [MSC v.1900 64 bit (AMD64)]

「pathlib glob lowercase」でググるとWindows pathlib.Path.glob(pattern) fixed part of the pattern changed to lowercase whereas it should be unchanged.のPRがあり、宛先ブランチ間違いでRejectされています。
その後、PRが再送信された形跡がないので、現状の仕様(不具合)みたいですね。

_WindowsFlavour#casefold

    def casefold(self, s):
        return s.lower()

    def casefold_parts(self, parts):
        return [p.lower() for p in parts]


◆ミニマムコードで問題が再現できたので追記。
ファイルは大文字で作成し、コマンドプロンプトよりdirにて実際のファイル名を確認。

# -*- coding: utf-8 -*-
from pathlib import Path
search_target_dir = r"K:\BGM\ENE"
search_target_path = Path(search_target_dir)

line = "111111_ZA.txt"

for p in search_target_path.glob("**/" + line):
    print(p) # K:\BGM\ENE\111111_za.txt


◆発生条件

  1. OSがWindows
  2. Pathlib#globの引数に渡したファイル名がcase insensitiveで一致。 
    ※line = "111111_*.txt"なら再現しない。

この2つの条件を満たす時に質問文の問題が発生する。

◆原因
pathlib.py#globより引用

        pattern = self._flavour.casefold(pattern) # この行でglobで渡された引数を小文字に
        drv, root, pattern_parts = self._flavour.parse_parts((pattern,)) # pattern_partsに
        if drv or root:
            raise NotImplementedError("Non-relative patterns are unsupported")
        selector = _make_selector(tuple(pattern_parts)) # この行で作成しているselectorが原因
        for p in selector.select_from(self):
            yield p

_PreciseSelector#_select_from関数にブレイクポイントを設置して動作確認すると変数の値が分かりやすいかもです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/09/03 16:08

    ありがとうございました。
    small letterでずっと調べていたのですが、
    lowercaseで検索したら良かったんですね。
    勉強になりました。

    キャンセル

  • 2018/09/10 16:23

    遅くなりましたが、検証ありがとうございます。
    ディレクトリまでのパスとファイル名を結合する感じで解決しようと思います。

    キャンセル

同じタグがついた質問を見る

  • Python

    11675questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 3.x

    9770questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。