質問編集履歴

記載codeを修正し、正常動作を確認

2019/07/12 09:54

投稿

Higomon

スコア33

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -48,7 +48,7 @@
 ## 【現状】抽出失敗したDataFrame
--  **試したこと１**
+-  **試したこと１(→ 正常動作を確認)**
 DataFrameに時系列を含まなければ、上記の理想通りとなるが、
 時系列を含むと以下のようなる。
@@ -66,8 +66,10 @@
 |5|NaT|PPS|NaN|NaN|NaN|
 |6|NaT|NaN|NaN|NaN|NaN|
+**↑logファイル前処理のバグが原因だった**
 ---
--  **試したこと２**
+-  **試したこと２(→ 正常動作を確認)**
 ```Jupyter
 In[]: df.query('Refid' == 'PPS')
@@ -75,9 +77,10 @@
 Out[]:
 ...
 ValueError: expr must be a string to be evaluated, <class 'bool'> given
+** ↑logファイル前処理のバグが原因だった**
-## Code
+## 【解決済】Code
 ```Python
 import numpy as np
 import pandas as pd
@@ -87,7 +90,7 @@
 # 列名の取得
 #    logファイル先頭３行から抽出
-def get_Header(f, h):
+def get_Header(f):
     c = 0
     for a in f:
         if '=' not in a:
@@ -99,13 +102,12 @@
             s = s.replace("\n", "")       #改行コードの除去
             s = s.split(",")
             del s[2:5]                         #不要な列の削除
-            h.append(s)
         c += 1
         if c == 3:
             break
-    return h
+    return s
 def get_Body(f, body):
 # ファイル先頭以外に定期的に含まれる列名(3行連続)は無視
@@ -127,9 +129,8 @@
     f = open(path, mode='rt')
 # /// 前処理 ///
-    #列名の取得
+    #列名(リスト)の取得
-    header = []
-    get_Header(f, header)
+    header = get_Header(f)
     #ファイルボディの取得
     body = []
@@ -139,19 +140,19 @@
     #List --> Pandas DataFrameに変換
     df = pd.DataFrame(body, dtype=float)
-    df.columns = header  #columnsの指定
+    df.columns = header  #columnsの指定 (← get_Header関数を修正)
     #Cast
-    df['Date Time(UTC)'] = pd.to_datetime(df['Date Time(UTC)',])
+    df['Date Time(UTC)'] = pd.to_datetime(df['Date Time(UTC)'])
     df['Raw offset'] = df['Disp.'].astype(float)
 # /// 行の抽出 ///
-    #試したこと１
+    #試したこと１ ←正常動作
     print(df[df['Refid'] == 'PPS'])
-    #試したこと２
+    #試したこと２ ←正常動作
-    df.query("Refid == 'PPS'")
+    print(df.query("Refid == 'PPS'"))
 if __name__ == '__main__':
     main()

317 716

logファイルの前処理もすべて記載

2019/07/12 09:54

投稿

Higomon

スコア33

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -9,7 +9,13 @@
 ・Python初学者
 ・開発経験　Excel VBAのみ
+## (Original) logデータ
+[refclocks.log](https://www.dropbox.com/s/ss0wub1dxc1o64q/refclocks.log?dl=0)
-## 元データ
+## (前処理後) logデータ
+前処理は最下部記載のコードをご参照。
 ||Date Time(UTC)|Refid|Raw offset|Cooked offset|Disp.|
 |:--|:--|:--|:--|:--|:--|
 |0|2019-05-25 16:51:22.999972|PPSx|2.731100e-05|0.000027|1.000000e-09|
@@ -71,6 +77,87 @@
 ValueError: expr must be a string to be evaluated, <class 'bool'> given
+## Code
+```Python
+import numpy as np
+import pandas as pd
+import re             #正規表現
+path = "D:\refclocks.log"
+# 列名の取得
+#    logファイル先頭３行から抽出
+def get_Header(f, h):
+    c = 0
+    for a in f:
+        if '=' not in a:
+            a = a.lstrip(' ') #文字列先頭の半角スペースを削除
+            s = re.sub(r" +", ",", a)
+            s = s.replace("Date,(UTC),Time,", "Date Time(UTC),") #1列目と２列目を結合
+            s = s.replace("Raw,offset,", "Raw offset,")
+            s = s.replace("Cooked,offset,", "Cooked offset,")
+            s = s.replace("\n", "")       #改行コードの除去
+            s = s.split(",")
+            del s[2:5]                         #不要な列の削除
+            h.append(s)
+        c += 1
+        if c == 3:
+            break
+    return h
+def get_Body(f, body):
+# ファイル先頭以外に定期的に含まれる列名(3行連続)は無視
+    for a in f:
+        if '=' not in a:
+            if a[0] != ' ':
+                s = re.sub(r" +", ",", a) #複数半角スペース → １つの半角スペース
+                s = s.replace("\n", "")   #改行コードの除去
+                s = s.split(",")
+                tmp = s[0] + ' ' + s[1] #1列目と２列目を結合
+                s[0] = tmp
+                del s[1]                       #不要な列の削除
+                del s[2:5]
+                body.append(s)
+    return body
+def main():
+    f = open(path, mode='rt')
+# /// 前処理 ///
+    #列名の取得
+    header = []
+    get_Header(f, header)
+    #ファイルボディの取得
+    body = []
+    get_Body(f, body)
+    f.close()
+    #List --> Pandas DataFrameに変換
+    df = pd.DataFrame(body, dtype=float)
+    df.columns = header  #columnsの指定
+    #Cast
+    df['Date Time(UTC)'] = pd.to_datetime(df['Date Time(UTC)',])
+    df['Raw offset'] = df['Disp.'].astype(float)
+# /// 行の抽出 ///
+    #試したこと１
+    print(df[df['Refid'] == 'PPS'])
+    #試したこと２
+    df.query("Refid == 'PPS'")
+if __name__ == '__main__':
+    main()
+```
 ###環境
     Windows 10
     Anaconda (default, Apr 24 2019, 15:29:51) [MSC v.1915 64 bit (AMD64)]

317 716