質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

1770閲覧

複数ファイルの中からキーワードを含むファイルを抽出したい

BuhKeil

総合スコア34

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/01/03 01:04

複数のファイルの中から特定のキーワードを含むファイルを抽出したい

環境

  • Windows10
  • WinPython (python v=3.8.3)

やりたいこと

 下記に示すように、dvという名前のフォルダがあり、その中に7001、7002、という感じで7045まで45のフォルダがあります。それぞれのフォルダの中には複数のAVIファイルが保存されています。ファイル名には必ず丸カッコがあり、その中に何らかのキーワードを含みます。下記の例では、"mino"、"tani、"panorama"、"日野橋"がキーワードです。この質問ではキーワードを"mino"に絞っていますが、複数のキーワードを指定できるようにするため、コードの中ではkeywordsというリストを準備し、その中にキーワードを登録しています。 やりたいことは、このようなフォルダ・ファイル構成の中から、"mino"というキーワードを含むファイル名だけを抽出し、ファイルに書き込むことです。

困っていること

下記に示すコードを実行しても、"mino"を含む全てのファイルは抽出されず、一部の"mino"を含むファイルが抽出されません。なぜそうなるのか分からないので質問しました。

フォルダ・ファイル構成

' dv-+
' +-7001
' | +-- dv7001A(mino).avi
' | +-- dv7001B(日野橋).avi
' |
' +-7002
' | +-- dv7002A(panorama).avi
' | +-- dv7002B(tani).avi
' | +-- dv7002C(mino).avi

コード

Python

1 2def mino(): 3 import os 4 import glob 5 6 os.chdir("d:\\video\dv") 7 8 # キーワードを登録するリスト 9 keywords = ["mino"] 10 11 # "mino"を含むファイルを記録するためのファイルを開く 12 f_is_mino = open("is_mino.txt", mode="wt", encoding="cp932") 13 14 # "mino"を含まないファイルを記録するためのファイルを開く 15 f_is_not_mino = open("is_not_mino.txt", mode="wt", encoding="cp932") 16 17 files = glob.glob("./*") 18 19 for file in files: 20 if not os.path.isfile(file): 21 os.chdir(os.getcwd() + "\" + file[2:]) 22 sub_folder_avi_files = glob.glob("*.avi") 23 24 for sub in sub_folder_avi_files: 25 for i in range(len(keywords)): 26 if keywords[i] in sub: 27 f_is_mino.write(sub + "\n") 28 break 29 30 f_is_not_mino.write(sub + "\n") 31 32 os.chdir("..\") 33 34 f_is_mino.close() 35 f_is_not_mino.close() 36 37 38mino()

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

TakaiY

2021/01/03 05:06

すでに回答出ているとおり、処理に問題はなさそうです。 「一部の"mino"を含むファイルが抽出されません」とありますが、その抽出されないものがどのようなものなのか示していただくと、ソースの問題点がわかるかもしれません。
BuhKeil

2021/01/03 05:50 編集

正直自分でもよく分かりません。 質問で記載したコードを実行すると、下記のファイル dv7001C(mino).avi dv7003M(mino).avi dv7005K(mino)ruvi.avi dv7007K(mino).avi dv7013J(510重連-mino).avi dv7014P(mino-3両続行).avi は"mino"を含まないとして判断されています。 日本語以外は全て半角数値、半角記号、半角アルファベットです。 一方、下記のようなファイル dv7001C(mino).avi dv7020A(860mino).avi dv7020P(mino野一色付近).avi dv7021U(mino交換@白金).avi は"mino"を含むとして判断されています。 こちらも日本語以外は全て半角数値、半角記号、半角アルファベットです。 ですが、otnさんのコードに変えると、全て"mino"を含むファイルとして振り分けできました。
TakaiY

2021/01/03 06:41

dv7001C(mino).avi が両方に入っているのが腑に落ちないところはおいといても、不思議ですね。 デバッグで対象ファイルがどのように扱われているか確認するのが早そうですね。
guest

回答1

0

minoという文字が含まれても含まれなくてもf_is_not_minoに書かれるということが、プログラム中のコメントと異なりますが、他は問題無さそうです。確認方法がおかしいのかも知れません。

無駄な処理が多いので、下記で確認し直してみて下さい。

Python

1 for file in glob.glob("*/*.avi"): 2 for k in keywords: 3 if k in file: 4 f_is_mino.write(file + "\n") 5 break 6 else: 7 f_is_not_mino.write(sub + "\n")

投稿2021/01/03 02:19

otn

総合スコア84505

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

BuhKeil

2021/01/03 02:41

コメントありがとうございます。 上記のコードで実行したら、確かに私が欲しい結果になりました。 続けての質問で恐縮ですが、コードの無駄が多いのは理解できたました。 コードで誤動作の元になっているのがどこなのでしょうか。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問