回答編集履歴

ｆ

2020/09/30 16:50

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -204,7 +204,7 @@
 これがPhase2-1終了後の`bottom_path_df`の中身です。
 ※このPhase2-1と2−2がこのプログラムの一番の鍵です。
-ここでやってるのは、「列方向にデータが連続しているセルをFalseにする」という処理です。
+ここでやってるのは、「列方向にTrueが連続しているセルをFalseにする」という処理です。
 画像処理でいうところの「エッジ検出処理」に近いです。
 # [Phase2-2]

ｆ

2020/09/30 16:50

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -66,8 +66,12 @@
 上記を実行し、出力結果をみながら、下記の説明を読んでみてください。
 （読む前のポイントとして
-`path_df.columns[-1]`は、`path_df`の一番最後の列のインデックスを示します。
+`path_df.columns[-1]`は、`path_df`の一番最後(-1)の列(column)のインデックスを示します。
+-1の意味は、リストでいう`a[-1]`と同じです。
-この例では、`path_df.columns[-1]`は常に「２」という数になっています。
+この例では、path_dfは0、1、2の３列なので、`path_df.columns[-1]`は最後の列である「２」という数になります。
 これ以降`path_df.columns[-1]`という長ったらしい部分が出てきても「２」という数に置き換えればよいので、多少読みやすくなりますね）

修正

2020/09/30 16:48

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -91,7 +91,6 @@
 これ以降の 「Phase2（最深部だけ残す）」の最終目的は、
 上記`path_df`のデータのうち**「各pathの末端（葉）だけを残し、それ以外は`NaN`に変換する」**ことです。
-このために以降ガチャガチャやっているものと思われます。
 この最終目的を頭の片隅に押さえておいてください。
 続けましょう。
@@ -202,7 +201,7 @@
 ※このPhase2-1と2−2がこのプログラムの一番の鍵です。
 ここでやってるのは、「列方向にデータが連続しているセルをFalseにする」という処理です。
-画像処理でいうところの「エッジ検出処理」に該当します。
+画像処理でいうところの「エッジ検出処理」に近いです。
 # [Phase2-2]
 [Phase2-2]は、欠損値NaNとなってしまった最後列（例では２列目）を回復する処理です。

typo

2020/09/30 16:45

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -91,7 +91,7 @@
 これ以降の 「Phase2（最深部だけ残す）」の最終目的は、
 上記`path_df`のデータのうち**「各pathの末端（葉）だけを残し、それ以外は`NaN`に変換する」**ことです。
-このために以降ガチャガチャややしいことをやってるんです。
+このために以降ガチャガチャやっているものと思われます。
 この最終目的を頭の片隅に押さえておいてください。
 続けましょう。

key

2020/09/30 16:19

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -200,6 +200,9 @@
 これがPhase2-1終了後の`bottom_path_df`の中身です。
+※このPhase2-1と2−2がこのプログラムの一番の鍵です。
+ここでやってるのは、「列方向にデータが連続しているセルをFalseにする」という処理です。
+画像処理でいうところの「エッジ検出処理」に該当します。
 # [Phase2-2]
 [Phase2-2]は、欠損値NaNとなってしまった最後列（例では２列目）を回復する処理です。

2020/09/30 15:46

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -143,7 +143,7 @@
 ```-例
 df.diff(2):
       a     b     c
- 0  NaN   NaN   NaN #１行目、２行目は、-1行目、0行目との差を計算することになるため、Nanになる。
+ 0  NaN   NaN   NaN #0行目、1行目は、存在しない-2行目、-1行目との差を計算することになるため、Nanになる。
  1  NaN   NaN   NaN
  2  2.0   8.0  26.0
  3  2.0  12.0  56.0
@@ -151,17 +151,17 @@
 ```
 そして`axis=1`とすると「行の比較」ではなく「列の比較」になります。
-したがって`.diff(-1, axis=1)`とした場合「各データについて、1**列** 後ろのデータとの差」が抽出されます。（-1=負の数なので後ろのデータとの差分になります）
+したがって`.diff(-1, axis=1)`とした場合「各データについて、1**列** **後ろ**のデータとの差」が抽出されます。（-1=負の数なので、前ではなく**後ろ**のデータとの差分になります）
 ここで、pythonではFalseは0、Trueは1、0以外の数はTrueとして扱われるため
-`True - True = False(0)`
+`True(1)  - True(1)  = False(0)`
-`True - False = True(1)`
+`True(1)  - False(0) = True(1)`
-`False - True = True(-1)`
+`False(0) - True(1)  = True(-1)`
-`False - Fase = False(0)`
+`False(0) - False(0) = False(0)`
 が成立します。
@@ -178,10 +178,11 @@
 6  False  False   True
 ```
-に対して、
+これに対して、
-`path_df.isnull().diff(-1, axis=1)`を適用すると、
+`.diff(-1, axis=1)`を適用すると、
+0列目＝0列目－１列目、
-0列目=0列目-１列目、１列目１列目-2列目... と演算されるため、
+１列目＝１列目－2列目...　 と演算されるため、
 ```
 path_df.isnull().diff(-1, axis=1):

ｆ

2020/09/30 15:42

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -23,16 +23,18 @@
 print(" path_df = pd.DataFrame(pathlist)")
 print(" -> path_df:\n",path_df)
 print()
 # 重複削除
+path_df = path_df.drop_duplicates()
 print("[Phase1-2]重複削除")
-path_df = path_df.drop_duplicates()
 print(" path_df = path_df.drop_duplicates()")
 print(" -> path_df:\n",path_df)
 print()
 # ソート
-print("[Phase1-3]ソート")
 path_df = path_df.sort_values(path_df.columns.tolist(),
     na_position='first').reset_index(drop=True)
+print("[Phase1-3]（ソート）の完了後の")
 print(" -> path_df:\n",path_df)
 print()
 print("path_df.columns[-1]= ",path_df.columns[-1])
@@ -47,18 +49,18 @@
 print(" bottom_path_df = path_df.isnull().diff(-1, axis=1)")
 print(" -> bottom_path_df:\n",bottom_path_df)
 print()
-print("[Phase2-2]")
 bottom_path_df[path_df.columns[-1]] = ~path_df.isnull()[path_df.columns[-1]]
+print("[Phase2-2] （完了後）")
 print(" bottom_path_df[path_df.columns[-1]] = ~path_df.isnull()[path_df.columns[-1]]")
 print(" -> bottom_path_df:\n",bottom_path_df)
 print()
-print("[Phase2-3]")
 bottom_path_df = path_df[bottom_path_df]
+print("[Phase2-3] （完了後）")
 print(" bottom_path_df = path_df[bottom_path_df]")
 print(" -> bottom_path_df:\n",bottom_path_df)
 print()
-# print(bottom_path_df)
 ```
 上記を実行し、出力結果をみながら、下記の説明を読んでみてください。

参考を追加

2020/09/30 15:35

投稿

sfdust

スコア1137

answer CHANGED Viewed

@@ -66,7 +66,7 @@
 （読む前のポイントとして
 `path_df.columns[-1]`は、`path_df`の一番最後の列のインデックスを示します。
 この例では、`path_df.columns[-1]`は常に「２」という数になっています。
-これ以降`path_df.columns[-1]`という長ったらしく見える部分が出てきても「２」という数に置き換えればよいので、多少読みやすくなりますね）
+これ以降`path_df.columns[-1]`という長ったらしい部分が出てきても「２」という数に置き換えればよいので、多少読みやすくなりますね）
 逸れました。本題を続けていきましょう。
@@ -153,13 +153,13 @@
 ここで、pythonではFalseは0、Trueは1、0以外の数はTrueとして扱われるため
-`True-True=False(0)`
+`True - True = False(0)`
-`True-False=True(1)`
+`True - False = True(1)`
-`False-True=True(-1)`
+`False - True = True(-1)`
-`False-Fase=False(0)`
+`False - Fase = False(0)`
 が成立します。
@@ -177,7 +177,7 @@
 ```
 に対して、
-path_df.isnull().diff(-1, axis=1)を適用すると、
+`path_df.isnull().diff(-1, axis=1)`を適用すると、
 0列目=0列目-１列目、１列目１列目-2列目... と演算されるため、
@@ -195,7 +195,7 @@
 となります。（２列目は、存在しない３列目との引き算を行うことになるためNaNになっている）
-これがPhase2-1終了後のbottom_path_dfの中身です。
+これがPhase2-1終了後の`bottom_path_df`の中身です。
 # [Phase2-2]
@@ -251,11 +251,12 @@
 ```
 データのインデックスにFalseを指定するとそのデータはNaNになります。
+`path_df`は 元コードの最初の方でwalk()関数で得たディレクトリ構造の各データを保持しています.
-path_dfはもともとの、walk()関数で得たディレクトリ構造の各データです
-これに対して、True/Falseで構成されたbottom_path_dfをインデックスとして適用することで、
+この`path_df`に対して、True/Falseで構成された`bottom_path_df`をインデックスとして適用することで、
-bottom_path_dfがTrueとなっているデータは生き残り、FalseとなっているセルはNaNとなります。
+`bottom_path_df`がTrueとなっているデータは生き残り、FalseとなっているセルはNaNとなります。
 ```
 [Phase2-3]（完了後）
  bottom_path_df = path_df[bottom_path_df]
@@ -270,4 +271,8 @@
 6  NaN  test1.xls        NaN
 ```
-以上により、bottom_path_df　には、末端（葉）のデータだけ存在するようになりました。
+以上により、`bottom_path_df`　には、末端（葉）のデータだけ存在するようになりました。
+参考：
+https://note.nkmk.me/python-pandas-diff-pct-change/
+https://qiita.com/0NE_shoT_/items/8db6d909e8b48adcb203