約400のテキストをデータフレームとして読み込み、名前を付ける

前提・実現したいこと

PWM_VitroDB+PSP_b=√Nという名前のディレクトリに約400個のテキストファイルがあります。
それらすべてをデータフレームとして読み込むところまではできています。
これらのデータフレームそれぞれに、何らかの形で名前を付けたいです。
色々調べましたが、うまくいきません。初心者ですがよろしくお願いします。

該当のソースコード

from glob import glob
import pandas as pd

files=glob("PWM_VitroDB+PSP_b=√N/*.txt")

for file in files:
    a=files.index(file)
    df[a]=pd.read_table(file,header=None)

また、このような場合、一般的にはどのように400個のデータフレームを取り扱うのかも併せて教えていただけると幸いです。
最終的にはファイル名からそれぞれのデータフレームにアクセスすることが目的です。
データフレーム名にファイル名を使用するのがベストでしょうか。
それともディクショナリ？などを使って番号とファイル名を１：１対応させ、番号でアクセスするのが普通でしょうか。

説明が分かりにくかったらすみません。
よろしくお願いします。

Error

（長くてすみません…）

KeyError                                  Traceback (most recent call last)
~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   2896             try:
-> 2897                 return self._engine.get_loc(key)
   2898             except KeyError:

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()

KeyError: 14

During handling of the above exception, another exception occurred:

KeyError                                  Traceback (most recent call last)
~\Anaconda3\lib\site-packages\pandas\core\internals\managers.py in set(self, item, value)
   1068         try:
-> 1069             loc = self.items.get_loc(item)
   1070         except KeyError:

~\Anaconda3\lib\site-packages\pandas\core\indexes\base.py in get_loc(self, key, method, tolerance)
   2898             except KeyError:
-> 2899                 return self._engine.get_loc(self._maybe_cast_indexer(key))
   2900         indexer = self.get_indexer([key], method=method, tolerance=tolerance)

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\index.pyx in pandas._libs.index.IndexEngine.get_loc()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()

pandas\_libs\hashtable_class_helper.pxi in pandas._libs.hashtable.Int64HashTable.get_item()

KeyError: 14

During handling of the above exception, another exception occurred:

ValueError                                Traceback (most recent call last)
<ipython-input-73-82b18bb0ee6f> in <module>
      6 for file in files:
      7     a=files.index(file)
----> 8     df[a]=pd.read_table(file,header=None)

~\Anaconda3\lib\site-packages\pandas\core\frame.py in __setitem__(self, key, value)
   3470         else:
   3471             # set column
-> 3472             self._set_item(key, value)
   3473 
   3474     def _setitem_slice(self, key, value):

~\Anaconda3\lib\site-packages\pandas\core\frame.py in _set_item(self, key, value)
   3548         self._ensure_valid_index(value)
   3549         value = self._sanitize_column(key, value)
-> 3550         NDFrame._set_item(self, key, value)
   3551 
   3552         # check if we are modifying a copy

~\Anaconda3\lib\site-packages\pandas\core\generic.py in _set_item(self, key, value)
   3379 
   3380     def _set_item(self, key, value):
-> 3381         self._data.set(key, value)
   3382         self._clear_item_cache()
   3383 

~\Anaconda3\lib\site-packages\pandas\core\internals\managers.py in set(self, item, value)
   1070         except KeyError:
   1071             # This item wasn't present, just insert at end
-> 1072             self.insert(len(self.items), item, value)
   1073             return
   1074 

~\Anaconda3\lib\site-packages\pandas\core\internals\managers.py in insert(self, loc, item, value, allow_duplicates)
   1179         new_axis = self.items.insert(loc, item)
   1180 
-> 1181         block = make_block(values=value, ndim=self.ndim, placement=slice(loc, loc + 1))
   1182 
   1183         for blkno, count in _fast_count_smallints(self._blknos[loc:]):

~\Anaconda3\lib\site-packages\pandas\core\internals\blocks.py in make_block(values, placement, klass, ndim, dtype, fastpath)
   3265         values = DatetimeArray._simple_new(values, dtype=dtype)
   3266 
-> 3267     return klass(values, ndim=ndim, placement=placement)
   3268 
   3269 

~\Anaconda3\lib\site-packages\pandas\core\internals\blocks.py in __init__(self, values, placement, ndim)
   2773             values = np.array(values, dtype=object)
   2774 
-> 2775         super().__init__(values, ndim=ndim, placement=placement)
   2776 
   2777     @property

~\Anaconda3\lib\site-packages\pandas\core\internals\blocks.py in __init__(self, values, placement, ndim)
    126             raise ValueError(
    127                 "Wrong number of items passed {val}, placement implies "
--> 128                 "{mgr}".format(val=len(self.values), mgr=len(self.mgr_locs))
    129             )
    130 

ValueError: Wrong number of items passed 14, placement implies 1

行動規範の内容に同意します

回答1件

ベストアンサー

execを使って動的に変数生成（execはセキュリティ上、推奨されないことも多いです）
辞書型にしてリスト内に入れていく
まとめて一つのファイルにして保存しておく(xlsxとかjsonとか)
データベース使う

この辺でしょうか…
ずっと保存して、日をまたいでまた取り出したいのならファイルやデータベースにしとくのでしょうし、瞬間的に使って終わりのデータならリスト内辞書で良い気がします。

エラー「ValueError: Wrong number of items passed 14, placement implies 1」について
たとえば、下のようなdataframeがあったとします。

python3
1import pandas as pd
2df=pd.DataFrame([1,1])
3print(df)
4"""
5   0
60  1
71  1
8"""

これに列を2つ追加する場合は、正しくはこう（列名2つ）

python3
1df[["a","b"]] = pd.DataFrame([[2,2],[3,3]])
2print(df)
3"""
4    0	a	b
50	1	2	2
61	1	3	3
7"""

質問と同じように列名を1つにすると、同様のエラーが出ます

python3
1df["a"] = pd.DataFrame([[2,2],[3,3]])
2"""
3ValueError: Wrong number of items passed 2, placement implies 1
4"""

投稿2020/06/25 03:56

編集2020/06/25 06:26

jeanbiego

総合スコア3966

proteomics

2020/06/25 04:21

回答ありがとうございます。決まった正解はない、ということですね。私が書いたコードの一番下の行でエラーが出るのですが、もしお時間がよろしけば、直していただけますと幸いです。

jeanbiego

2020/06/25 04:33

書き忘れていましたが、コードは<code>機能を使って書くとインデントが反映されます。エラー文の記載と合わせて修正していただければ、（私に限らず）回答しやすくて良いかと。

proteomics

2020/06/25 05:31

直しました。ご指摘いただきありがとうございます。

jeanbiego

2020/06/25 05:47

拝見しました。・dfの定義文はないのでしょうか。・aやfileはどういった内容ですか。内容が具体的に出せないのであれば、形（要素・次元数とか）を書いていただくとわかりやすいです。

proteomics

2020/06/25 05:58

ありがとうございます。・dfの定義文はありません。・aは1-400までの数値です。各ファイルに固有の番号をふり、その番号をデータフレーム名（df[a]）として使えばいいのではないか、と思い、このようにしました。・fileは、rowが20、columnが14です。要素としては、アルファベット、小数、NAがあります。（python初心者なので、的外れなことをしているかもしれません…）

jeanbiego

2020/06/25 06:27

dfの定義文がないとエラーが出るはずなので、jupyter notebookか何かで書かれていて、他の箇所でdfをすでに定義済みなのではないでしょうか。エラー内容については回答に追記しました。

proteomics

2020/06/25 06:45 編集

すみません。Jupyterの特徴についての理解が足りていませんでした。確かに、（意図なしに、）別の個所でdfを使っており、その部分をなくしたところ、name 'df' is not definedとエラーが出ました。エラー内容について、理解できました。ありがとうございます。私としては、要素を追加するつもりはなく、 df[1]=file1 df[2]=file2 df[3]=file3 … のようにうまくいくのではないかと思っていましたが、このコードではダメなようですね…

jeanbiego

2020/06/25 06:53

>その番号をデータフレーム名（df[a]）としてすみません、ここを読み落としていました。データフレームdfの後に角括弧[a]をつけるのは、aという列をdfから呼び出す（あるいは、そこに代入する）という書き方になります。

proteomics

2020/06/25 07:27

なるほど、そういうことでしたか。ありがとうございます。もう少しどうすればうまくいくか試行錯誤してみます。

proteomics

2020/06/26 00:38

ファイル名とデータフレームを１：１対応させるように辞書を作ることに成功しました！ご指導いただきありがとうございました。

行動規範の内容に同意します