質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

0回答

698閲覧

Pandasのmodeについて

退会済みユーザー

退会済みユーザー

総合スコア0

ファイル

ファイルとは、文字列に基づいた名前又はパスからアクセスすることができる、任意の情報のブロック又は情報を格納するためのリソースです。

JSON

JSON(JavaScript Object Notation)は軽量なデータ記述言語の1つである。構文はJavaScriptをベースとしていますが、JavaScriptに限定されたものではなく、様々なソフトウェアやプログラミング言語間におけるデータの受け渡しが行えるように設計されています。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

0クリップ

投稿2021/12/03 15:17

Pandas modeのバグ?

複数のjsonファイルをそれぞれdataframeに変換してから、必要な情報を抽出して処理を行うプログラムを書いています。

発生している問題

データサイズの大きいdataframeに対してmode()を使って最瀕値を求めているのですが時々、空のseriesや間違った値が帰ってきてしまいます。

該当のソースコード

python

1#all_filesはglobで呼び出したファイルのパス 2#データ数はjsonファイルが6000個 3#jsonファイルは1つあたりindexが10000~13000 4#jsonファイルすべてのデータサイズの合計が10Gほどあるのでかなり大きいです 5for n,file in enumerate(all_files): 6 with open(file) as f: 7 if n == 0: 8 frame_index.append(n) 9 print(n) 10 try: 11 json_data = pd.json_normalize(json.loads(f.read())['data']) 12 13 json_data = json_data[json_data['motion_x'] != 0] 14 json_data = json_data[json_data['motion_y'] != 0] 15 16 x_vec = x_vec + (json_data['motion_x'].mode().iloc[-1]) 17 y_vec = y_vec + (json_data['motion_y'].mode().iloc[-1])

json

1#jsonファイルの一部です。 2{ 3 "index":50, 4 "source":-1, 5 "w":16, 6 "h":16, 7 "src_x":566, 8 "src_y":8, 9 "dst_x":568, 10 "dst_y":8, 11 "flags":0, 12 "motion_x":-11, 13 "motion_y":0, 14 "motion_scale":4 15 }, 16 { 17 "index":51, 18 "source":-1, 19 "w":16, 20 "h":16, 21 "src_x":582, 22 "src_y":8, 23 "dst_x":584, 24 "dst_y":8, 25 "flags":0, 26 "motion_x":-11, 27 "motion_y":0, 28 "motion_scale":4 29 },

試したこと

空のseriesや間違った値が帰ってきたファイルを別のプログラムファイルでもう一度modeで最瀕値を取り出したら、
正常な値が帰ってきました

補足情報(FW/ツールのバージョンなど)

ここにより詳細な情報を記載してください。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

melian

2021/12/03 17:49 編集

フィルタリングの結果を同じ json_data に戻してしまうと、motion_x か motion_y の「どちらかだけが 0であるデータ」が抽出されないことになってしまいます。 json_data = json_data[json_data['motion_x'] != 0] json_data = json_data[json_data['motion_y'] != 0]
退会済みユーザー

退会済みユーザー

2021/12/06 12:35

motion_x 、 motion_y から0のデータを消す(0以外のデータを抽出する)の意味で書いていたのですが、この書き方ではだめですかね、、、
melian

2021/12/06 12:41

motion_x と motion_y で分けないと意味が無いと思いますが、、、 json_data_x = json_data[json_data['motion_x'] != 0] json_data_y = json_data[json_data['motion_y'] != 0] x_vec = x_vec + (json_data_x['motion_x'].mode().iloc[-1]) y_vec = y_vec + (json_data_y['motion_y'].mode().iloc[-1])
退会済みユーザー

退会済みユーザー

2021/12/06 13:16

json_data = json_data[json_data['motion_x'] != 0] これでjson_dataの'motion_x'が0のデータが消えて、さらに json_data = json_data[json_data['motion_y'] != 0] で'motion_x'が0のデータをもつ(他の要素は変わっていない)json_dataの'motion_y'が0のデータが消えると思うんですけど、、 私がしたいのは列であるmotion_xとmotion_yのうち0であるデータの行を消したいんです、、
melian

2021/12/06 13:46

結局、 「motion_x と motion_y の両方が 0 ではない行を抽出したい」ということなのですね?
退会済みユーザー

退会済みユーザー

2021/12/06 13:58

そうです
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだ回答がついていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問