Excelファイルのデータ抽出について質問させてください。
収入 | 出身地 | 年齢 |
---|---|---|
250,000 | 葛飾区 | 28 |
500,000 | 新宿区 | 45 |
850,000 | 秋田市;神戸市;宮崎市 | 63;32;35 |
300,000 | 横浜市 | 38 |
700,000 | 新宿区;新潟市 | 40;32 |
例えば、上記のような世帯月収、世帯構成員の出身地、世帯構成員の年齢が記載された数万世帯分のデータがあるとします。
Python(またはR)をもちいて、ここから
新宿区出身者を含む世帯の平均月収
秋田市出身者を含む世帯の平均月収
神戸市出身者を含む世帯の平均月収
etc
をファイルに記載された全ての出身地で求めるには、どのようにすればいいでしょうか。
全て一人世帯で、出身地を手入力できるようであればわかるのですが、ひと世帯に複数の出身地が記載され、どのくらいの出身地があるかも把握できないとなると、どのようにデータ抽出をすればいいのかわかりません。
解析を行うためのデータ抽出のプログラムについて、ご教授いただければ幸いです。