質問編集履歴

具体的なコードの記入。漠然な文章を具体的なものに変更。

2020/07/01 12:41

投稿

Chileno

スコア7

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -1,21 +1,38 @@
 ### 前提・実現したいこと
-以下の通り今までexcelで行っていた作業をpandasで行いたいと考えています：
+質問の低評価をいただいて改めて質問した内容を見ると漠然としていましたので修正させていただきます。良い方法があればご共有いただけますと幸いです。
-1.文字列で詳細情報が入った列にフィルターをかける。
-2.思いついたキーワードを使いソート。
-3.そのキーワードが使えると判断した場合のみ新しい列（カラム名はキーワードとする）に記入。
-4.複数の思いつきを試していき、使える場合のみ上で作ったキーワード列に記入する。
+実現したいこと：
+DataFrameにおいて、商品名の列があり、そのグループ分けをしたいと考えています。
+そしてグループ名を新しい列に追加し、後どれくらいの商品名がグループ化されていないかを確認しながら作業がしたいです。
+グループ名としてふさわしいと考えている名称はそれなりの数量の商品をカバーできるものだと考えます。
+グループ名作成の一例としては商品名の列に「靴」といキーワードが入った商品名が複数種類ある場合、
+それが長靴であれ、革靴であれ靴であることには変わらないため以下のように対象を絞りました。
+```python
+df1 = df[df['商品名']].str.contains('靴')]
+df1['グループ名'] = '靴'
+```
+最終的にconcat()を使用し全てのグループ化されたdfを繋げます。
 ### 発生している問題
+・作業進捗が確認できない。
-いちいちフィルターしたキーワードを変数に代入して貯めていき最後にコンカチすると進捗状況（キーワード列の空白の数）が分かりづらい上重複もしかねない。
+・キーワードの数だけdfを作成しないといけない。
 ### 試したこと
-上述の通り大量の箱を作ってキーワードをためこみ、コンカチする。
+上記の方法を取ると以下のように複数のdfを作ることになりました。
+```python
+df1 = df[df['商品名']].str.contains('靴')]
+df2 = df[df['商品名']].str.contains('服')]
+df3 = df[df['商品名']].str.contains('帽子')]
+df4 = df[df['商品名']].str.contains('ズボン')]
+##df5,6,7...と続く
+```
+これだと発生している問題として書いた二点がネックとなり非効率だと感じています。
+他に良い方法があれば教えていただけると助かります。
 ### 補足情報（FW/ツールのバージョンなど）
 Windows10

7 317 716