回答率: 85.35%

質問するログイン新規登録

トップに関する質問 pd.mergeの内部結合をしたい

編集履歴

質問編集履歴

2

マークダウンを追加しました

2021/04/11 11:47

投稿

スコア38

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -42,6 +42,8 @@
 #追加：df2の作成
+```
 import pandas as pd
 import numpy as np
@@ -56,13 +58,17 @@
 df.shape
+```
 >>>(8100, 2)
+```
 df2 = df.copy()
 df2.isnull().sum()
+```
 >>>data      0
@@ -72,9 +78,13 @@
+```
 df2 = df2.dropna()
 df2.isnull().sum()
+```
 >>>data     0
@@ -82,29 +92,37 @@
 >>>dtype: int64
+```
 df2.shape
+```
 >>>(8035, 2)
+```
 df2 = df2.drop_duplicates()
 df2.duplicated().sum()
+```
 >>>0
+```
 df2.shape
+```
 >>>(6731, 2)
+```
 df2.to_csv("data2.csv")
+```
@@ -114,13 +132,17 @@
 ####df2を読み込み
+```
 df2 = pd.read_csv("data2.csv")
 df2.shape
+```
 #####フォルダ内の画像データのpathを読み込み
+```
 files = glob.glob("/画像データのあるフォルダのpath/*")
@@ -128,11 +150,15 @@
 len(files)
+```
 >>>6486
 ######filesのデータフレームを作成
+```
 df_files = pd.DataFrame({"data":files})
@@ -142,11 +168,15 @@
 df_files.duplicated().sum()
+```
 >>>0
 #####マージ
+```
 df_join = pd.merge(df2, df_files, how="inner",on="data",indicator=True)
@@ -156,6 +186,8 @@
 df_join["_merge"].value_counts()
+```
 >>>both          6730
 >>>right_only       0

1

欠損値と重複行の処理を追加

2021/04/11 11:47

投稿

スコア38

test CHANGED Viewed

File without changes

test CHANGED Viewed

@@ -38,7 +38,9 @@
 ### 該当のソースコード
+----------------------------------------------------------
+#追加：df2の作成
 import pandas as pd
@@ -47,6 +49,66 @@
 import glob
 import cv2
+df = pd.read_csv("anotation_result.csv")
+df.shape
+>>>(8100, 2)
+df2 = df.copy()
+df2.isnull().sum()
+>>>data      0
+>>>smile    65
+>>>dtype: int64
+df2 = df2.dropna()
+df2.isnull().sum()
+>>>data     0
+>>>smile    0
+>>>dtype: int64
+df2.shape
+>>>(8035, 2)
+df2 = df2.drop_duplicates()
+df2.duplicated().sum()
+>>>0
+df2.shape
+>>>(6731, 2)
+df2.to_csv("data2.csv")
+--------------------------------------------------------
@@ -66,9 +128,7 @@
 len(files)
+>>>6486
@@ -78,8 +138,28 @@
+df_files.drop_duplicates()
+df_files.duplicated().sum()
+>>>0
 #####マージ
 df_join = pd.merge(df2, df_files, how="inner",on="data",indicator=True)
 df_join
+df_join["_merge"].value_counts()
+>>>both          6730
+>>>right_only       0
+>>>left_only        0
+>>>Name: _merge, dtype: int64