質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

2回答

904閲覧

Python3 リストの重複をなくしたい

person

総合スコア224

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

1クリップ

投稿2021/03/22 11:38

CSVのファイル名をリストで取得します。

Python

1li = [ 2 "a_20210322153045_user01.csv", 3 "bwq_20210322153046_user08.csv", 4 "cs9j_20210322153047_user03.csv", 5 "aa_20210322153048_user03.csv", 6 "az_20210322153049_user04.csv", 7 "ad_20210322153050_user07.csv", 8 "wa_20210322153051_user32.csv", 9 "eq_20210322153052_user01.csv", 10 "va_20210322153053_user01.csv", 11 "cs_20210322153054_user62.csv" 12]

アンダースコア区切りで、
1番目:特に意味はない文字列がランダムに割り当てられます。
2番目:日時
3番目:ユーザIDとcsv拡張子

これをユーザID重複なしのリストにしたいです。
ただし重複なしのルールとして、重複するデータは、2番目の日時が最新のものを残すとします。

これを実現しようと思って下記のように書いてみました。

方法としては最初にユーザIDのみを重複なしで用意して、それと最新日時を関連付けるようにしました。

一応これでやりたいことは実現できているのかなと思いますが、他にスマートな方法があったら教えてほしいです。

Python:

1import re 2 3li = [ 4 "a_20210322153045_user01.csv", 5 "bwq_20210322153046_user08.csv", 6 "cs9j_20210322153047_user03.csv", 7 "aa_20210322153048_user03.csv", 8 "az_20210322153049_user04.csv", 9 "ad_20210322153050_user07.csv", 10 "wa_20210322153051_user32.csv", 11 "eq_20210322153052_user01.csv", 12 "va_20210322153053_user01.csv", 13 "cs_20210322153054_user62.csv" 14] 15 16user_li = [] 17time_li = [] 18tmp_li = [] 19dst_li = [] 20 21for i in li: 22 user = i.split("_")[2] 23 if not user in user_li: 24 user_li.append(user) 25 26for i in range(len(user_li)): 27 for j in range(len(li)): 28 if user_li[i] == li[j].split("_")[2]: 29 time_li.append(li[j].split("_")[1]) 30 # str型にmax() 31 tmp_li.append([max(time_li), user_li[i]]) 32 time_li = [] 33 34#for i in tmp_li: 35# print(i) 36 37for i in tmp_li: 38 pattern = r".*_" + i[0] + r"_" + i[1] 39 dst_li.append([s for s in li if re.fullmatch(pattern, s)]) 40 41for i in dst_li: 42 print(i)

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

dictを使って、ユーザ毎の最新の日時のものだけを残すようにすれば、ループが1回でできます。

python

1li = [ 2 "a_20210322153045_user01.csv", 3 "bwq_20210322153046_user08.csv", 4 "cs9j_20210322153047_user03.csv", 5 "aa_20210322153048_user03.csv", 6 "az_20210322153049_user04.csv", 7 "ad_20210322153050_user07.csv", 8 "wa_20210322153051_user32.csv", 9 "eq_20210322153052_user01.csv", 10 "va_20210322153053_user01.csv", 11 "cs_20210322153054_user62.csv" 12] 13 14max_time = {} 15for i in li: 16 _, time, user = i.split('_') 17 if (user not in max_time 18 or time > max_time[user][1]): 19 max_time[user] = (i, time) 20 21print([t[0] for t in max_time.values()]) 22 23# userでソートする場合 24print([max_time[u][0] for u in sorted(max_time)])

投稿2021/03/22 14:52

bsdfan

総合スコア4794

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

person

2021/03/23 09:57

回答ありがとうございます。 参考にさせていただきます。
guest

0

pandasを使うと、以下のようになります。

python

1>>> li = [ 2... "a_20210322153045_user01.csv", 3... "bwq_20210322153046_user08.csv", 4... "cs9j_20210322153047_user03.csv", 5... "aa_20210322153048_user03.csv", 6... "az_20210322153049_user04.csv", 7... "ad_20210322153050_user07.csv", 8... "wa_20210322153051_user32.csv", 9... "eq_20210322153052_user01.csv", 10... "va_20210322153053_user01.csv", 11... "cs_20210322153054_user62.csv" 12... ] 13>>> 14>>> import pandas as pd 15>>> 16>>> df = pd.DataFrame([fname[:-4].split('_')[1:]+[fname] for fname in li]).groupby(1).max() 17>>> print(df) 18 0 2 191 20user01 20210322153053 va_20210322153053_user01.csv 21user03 20210322153048 cs9j_20210322153047_user03.csv 22user04 20210322153049 az_20210322153049_user04.csv 23user07 20210322153050 ad_20210322153050_user07.csv 24user08 20210322153046 bwq_20210322153046_user08.csv 25user32 20210322153051 wa_20210322153051_user32.csv 26user62 20210322153054 cs_20210322153054_user62.csv

投稿2021/03/22 12:13

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

person

2021/03/23 09:58

回答ありがとうございます。 pandasを使ったことがないので、 pandasについて勉強してから 参考にさせていただきます。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問