🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

1回答

1457閲覧

python csv形式のファイルの数値を比較して±5以内なら同じIDにするプログラムを組みたい

izm2192

総合スコア12

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

YOLO

YOLOとは、画像検出および認識用ニューラルネットワークです。CベースのDarknetというフレームワークを用いて、画像や動画からオブジェクトを検出。リアルタイムでそれが何になるのかを認識し、分類することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2020/12/13 15:26

前提・実現したいこと

以下のようなcsvファイルの数値だけを比較して±5以内なら同一IDに書き換えるということをしたい
下記でいうとID3を2にしたい

Frame #: 1,,,,, Frame_time:0.03,,,,, Frame #: 2,,,,, Frame_time:0.07,,,,, Frame #: 3,,,,, ID:1,KPHN,866,800,965,850 ID:2,KPHN,796,850,851,904 Frame_time:0.10,,,,, Frame #: 4,,,,, ID:1,KPHN,866,800,967,851 ID:3,KPHN,796,852,851,906 Frame_time:0.13,,,,, Frame #: 5,,,,, ID:1,KPHN,873,799,976,851 ID:3,KPHN,796,852,853,909 Frame_time:0.17,,,,, Frame #: 6,,,,, ID:1,KPHN,875,799,979,853 ID:3,KPHN,796,853,855,911

該当のソースコード

python

1import pandas as pd 2f = open('out.csv', 'r', encoding='UTF-8') 3i= open('inp.txt','w', encoding='UTF-8') 4a="ID:" 5for data in f: 6 if a in data: 7 i.write(data) 8 elif a not in data: 9 i.write(data) 10 11 12f.close

試したこと

Pandasを使うほうが簡単かもしれないのだがイマイチ理解できていないので上のようなのを書いてみました
とりあえず上のやつだとIDと行に入っているものと入っていないものを別々に記述できるようにはなりました。
あとはif a in dataのところでIDの行を変数に保持し各数値を比較したいのですがそのやり方が分からなくて困っています

補足情報(FW/ツールのバージョンなど)

pandasを使えばこんなにも簡単にできるよとかあれば色々教えていただきたいです

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

t_obara

2020/12/14 01:52

元のcsvを2、3行で良いので提示していただいた方がわかりやすいです。
meg_

2020/12/14 02:11

タグのYOLOはどう関係していますか?
izm2192

2020/12/14 02:32

YOLOv4を用いてdeepsortをしたのがこのCSVの結果になります
guest

回答1

0

なんか書いてたら原型がなくなってしまいましたが…
ファイルは標準ライブラリのcsvモジュールであけてます。
IDsリストに最初に出てきたID内容を保存して、renumber関数で保存内容と比較して必要なら書き換えてます。

※修正しました
renumberが「どれか一つでも差が5以内なら同ID」という処理になっていました。
diffというリストに差分を格納して、最大が5を超えていないか確認するよう修正したことで「どれか一つでも差が5以上なら異ID」になっていると思います。

python3

1import pandas as pd 2import csv 3 4def renumber(IDs, data): 5 for k in IDs: # IDsからkey(登録済みID)を一つずつ呼び出し 6 diff = [abs(int(v)-int(d)) for v, d in zip(IDs[k], data[2:])] # 登録済みのID内容と、判定対象のID内容の各数値の差分の絶対値をとってリストに格納 7 if max(diff) <= 5: # 差分の最大値が5以内であれば 8 return [k] + data[1:] # ID名を登録済みの番号に変えて値を返す 9 return data # 登録済みIDと重複がないと判定されたら、何も変更せずに返す 10 11IDs = dict() # 今までに出てきたIDをkey, それに付随する数値をvalueにして格納するため 12with open('out.csv', 'r', encoding='UTF-8') as f: 13 reader = csv.reader(f) # 読み込み用のインスタンス生成 14 with open('inp.txt','w', encoding='UTF-8', newline="") as i: 15 writer = csv.writer(i) # 書き込み用のインスタンス生成 16 for data in reader: # 一行ずつ読み込み(csvなので、カンマで区切られたリスト型) 17 if "ID:" in data[0]: # 一要素目がID番号なら 18 data = renumber(IDs, data) # renumber関数で±5以内の重複判定 19 IDs[data[0]] = data[2:] # IDsに登録(同じIDがあれば上書きしてしまうので、もしかしたら要件と違う挙動かもしれない) 20 writer.writerow(data)

投稿2020/12/14 07:39

編集2020/12/17 23:08
jeanbiego

総合スコア3966

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

izm2192

2020/12/15 13:05

ありがとうございます!! 無事に動かせたのですがこのように別物体なのに重複しちゃうのがあるのですがなぜこのようなことになるかわかりますか?? 同じような位置に別物体が来たからそれと同じID担ってしまったからなのではないのかなと思うのですが。 Frame #: 1625,,,,, ID:1,KPHN,669,914,770,957 ID:1,KPHN,1053,918,1214,978 Frame_time:54.11,,,,, Frame #: 1626,,,,, ID:1,KPHN,668,914,771,957 ID:1,KPHN,1052,917,1215,978 Frame_time:54.15,,,,, Frame #: 1627,,,,, ID:1,KPHN,667,914,771,957 ID:1,KPHN,1051,917,1214,978
jeanbiego

2020/12/15 23:45

すみません、ミスでした。修正したのでご確認ください。
izm2192

2020/12/16 14:21

いえいえ質問していて自分は全くわからなかったので逆にすいませんありがとうございます! このソースは差が5以上となっているのですが±5以上という解釈でよろしいですよね??
jeanbiego

2020/12/16 14:37

max(diff) <= 5 ここは、diff(各差分の絶対値)の最大値が5以内という条件です。要は各値がいずれも±5以内ということですね。
izm2192

2020/12/17 15:11

ありがとうございます! 一応自分なりに書いていただいたものを調べつつコメントアウトして理解を深めようとしてるのですがもしお時間があればでも構わないのでどのような処理をしているのかなどのコメントアウトとか答え合わせできるように書いてもらえるととても助かります!! 無理なら構わないので!!
jeanbiego

2020/12/17 23:09

コメントを書き込みました。わからないところがあればまた聞いてください。
izm2192

2020/12/21 05:34

ありがとうございます Frame #: 1085,,,,, ID:4,KPHN,1155,776,1304,873 ID:1,KPHN,980,913,1151,1008 Frame_time:36.13,,,,, Frame #: 1086,,,,, ID:1,KPHN,1155,775,1305,872 ID:1,KPHN,982,914,1151,1007 こういう感じで別物なのに座標が近いから同じものと判断される場合にはどのような条件分けをすればいいでしょうか。。
izm2192

2020/12/21 05:34

これは差の部分を50に変えています。
jeanbiego

2020/12/21 05:42 編集

ちょっとわからなかったので、下記お願いします ・具体的に、どの行が「別物なのに座標が近いから同じものと判断される場合」に該当しているのでしょうか。 ・これは書き換えの前後どちらですか ・どのような状態が理想ですか
izm2192

2020/12/21 06:42

検出結果のファイルが約17000行ほどあってこれをお見せしてお話したいのですがなにかいい方法はありますかね。 上で言うとID:4になっているのは4のままで出力してあげたいのですがID:1になってしまいます。 理想はID:1とID:4は別物で表記したいがID:壱のどこかの数値がID:4となっているのと近い数値の部分があるのでこのようなことになってしまっているのが原因なのではないのかと考えています
jeanbiego

2020/12/21 07:16

>ID:4になっているのは4のままで出力してあげたいのですがID:1になってしまいます ID:4,KPHN,1155,776,1304,873 この行のことですか? これが「書き換え前」で、プログラム通して「書き換え後」にはこの行が「ID1」になるということでしょうか。
izm2192

2020/12/22 05:35 編集

上の質問は自分の勘違いでした!すいません! 二つの物体を検出した際にどちらも四つの座標点が範囲内の場合はより近い方が出てくるという認識でいいですか??
izm2192

2021/01/06 02:14

こんにちは 年末など考えていたけどわからなかったので投げさせていただきます 上のソースをiou値での比較をする場合どのように書けばいいですかね。 一応このサイトに書いていることを参考に書いてみたのですがわからなくてよければご回答お願いいたします https://aipy2020.hatenablog.com/entry/IoU
jeanbiego

2021/01/06 10:30

すみませんが、ほとんど違う話題になりつつありますので、別途質問を立てていただいたほうがいいかと思います。
izm2192

2021/01/07 14:12

すいません、ありがとうございます!!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問