質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.34%

  • Python

    9179questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • SQL

    2547questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

  • データベース

    734questions

    データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

  • CSV

    707questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • pandas

    672questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

サイズの大きい2つのCSVデータを、合成したい

解決済

回答 5

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 432

jessicazu

score 9

 実現したいこと

人口密度などが入った国勢調査のCSVを用いて、全国26000箇所の基準地価を示すCSVに人口密度カラムを加え、データを入れたい

以下のような2つの巨大なCSVを持っています。(行、列ともにかなり省略しています)

国勢調査CSV 行数:1969

都道府県 市区町村 市区町村コード 人口密度(人/km2)
北海道 札幌市中央区 1101 5,119.1
北海道 札幌市北区 1102 4,488.3
北海道 札幌市東区 1103 4,597.4
沖縄県 与那国町 47382 63.6

基準地価CSV  行数:25989

住所 市区町村コード 地価(円/m2)
北海道札幌市中央区南4条西23-2-21 1101 184000
北海道札幌市中央区宮の森4条12-6-21 1101 70100
沖縄県島尻郡八重瀬町字東風平西徳枡原1404番5 47362 56900

ここから基準地価CSVに人口密度という新しいカラムを作り、それぞれの地価レコードに対して、市区町村コードを用いて国勢調査CSVから人口密度を検索し、入力するという作業をしたいと思っています。
できればPython(pandasなどのライブラリ)を使いたいのですが、方法(コード)をご教授いただけませんか?

また約26000行という巨大なデータですが、CSVのままでも大丈夫でしょうか。SQLなどにインポートしたほうが早いということもあるのでしょうか。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • cateye

    2018/06/27 10:32

    えっと、勘違いなら謝りますが・・・「それぞれの地価レコードに対して〜、人口密度を検索し、入力する」というのは、どういったことでしょう? たとえば”北海道札幌市中央区南4条西23-2-21”の人口密度はどうなるのでしょう?

    キャンセル

  • jessicazu

    2018/06/27 10:50

    説明不足で申し訳ないです。その地点の市区町村の人口密度を入れたいと思っています。その例では札幌市中央区です。

    キャンセル

  • cateye

    2018/06/27 11:29

    結果の使用目的がわからないので変なこと聞いてるかも?? ですが、上記住所の人口密度が5,119.1になると思いますが、いいのでしょうか・・・?

    キャンセル

  • jessicazu

    2018/06/27 17:07

    たしかに意味合いとしてはおかしいですが、今回の用途においては、大丈夫です。「市区町村の人口密度」のようなカラム名にしたほうがわかりやすいですね。

    キャンセル

回答 5

checkベストアンサー

+3

pandas.DataFrame.mergeで、'市区町村コード'をキーとして結合できます。
それらしきデータでやってみましたが、数秒しかかかりませんでした。

参考:
pandasの使い方(merge、join、concat編)
国勢調査 / 平成27年国勢調査 / 人口等基本集計(男女・年齢・配偶関係,世帯の構成,住居の状態など) 全国結果
土地総合情報システム

import pandas as pd
dfA = pd.read_csv('area.csv',encoding='cp932',usecols=['市区町村コード','人口密度'])
dfD = pd.read_csv('data.csv',encoding='cp932')
df = pd.merge(dfD, dfA, on='市区町村コード', how='left')
df.to_csv('ret.csv',encoding='cp932',index=False)
print(df.info())
"""
<class 'pandas.core.frame.DataFrame'>
Int64Index: 32453 entries, 0 to 32452
Data columns (total 30 columns):
種類            32453 non-null object
地域            22214 non-null object
市区町村コード       32453 non-null int64
都道府県名         32453 non-null object
市区町村名         32453 non-null object
地区名           32450 non-null object
最寄駅:名称        28631 non-null object
最寄駅:距離(分)     28608 non-null object
取引価格(総額)      32453 non-null int64
坪単価           10012 non-null float64
間取り           6367 non-null object
面積(㎡)         32453 non-null object
取引価格(㎡単価)     10012 non-null float64
土地の形状         22210 non-null object
間口            20296 non-null object
延床面積(㎡)       11522 non-null object
建築年           17416 non-null object
建物の構造         17147 non-null object
用途            14726 non-null object
今後の利用目的       23119 non-null object
前面道路:方位       22214 non-null object
前面道路:種類       21762 non-null object
前面道路:幅員(m)    21455 non-null float64
都市計画          28603 non-null object
建ぺい率(%)       27437 non-null float64
容積率(%)        27437 non-null float64
取引時点          32453 non-null object
改装            5952 non-null object
取引の事情等        1696 non-null object
人口密度          32441 non-null float64
dtypes: float64(6), int64(2), object(22)
memory usage: 7.7+ MB
None
"""

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/27 16:55 編集

    ご提示頂いたコードで、無事実現できました!
    処理の時間も一瞬で終わりましたので、とても助かりました。
    わざわざデータまで取っていただき、本当にありがとうございました!

    キャンセル

+2

市区町村コード+人口密度だけであれば、充分メモリに乗り切るので、市区町村コードをキーにした辞書にして、あとは基準地価CSVを読んで書く、読んで書くでいいのでは?

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/27 16:58

    ご回答ありがとうございました!
    たしかにその方法もありますね。しかもすぐに終わりそうです。
    いろいろな方法があるのだと勉強になりました。

    キャンセル

+1

ExcelでVLOOKUP で合体させるか、

【MySQL】CSVファイルをインポートするコマンド で各テーブルに取り込んで、MySQL で JOIN を含む INSERT

INSERT INTO tags (entry_id, name)
SELECT entries.id, LOWER(authors.name)
FROM entries JOIN authors ON entries.author_id = authors.id;

を参考に[市区町村コード]でJOINされては?

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/27 16:57

    ご回答ありがとうございました!
    Excelにそのような機能があることは知りませんでした。
    また検索性やSQL文の勉強のためにも、MySQLを使う方法も試してみたいと思います。

    キャンセル

+1

基準地価CSVの市区町村コードから国勢調査CSVを参照すれば、何時でも取得できるものなので、それぞれのCSVをテーブルにインポートして、SQLで結合して取得するほうが良いかと思います。

マージして取り込むようなことを考えられているのでしたら、どちらか一方が変更になっても作り直しになってしまいますが、それぞれのCSVを取り込むようにしておけば影響も抑えられます。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/27 17:06

    ご回答ありがとうございました!
    たしかに、将来性を考えるとその方法が良さそうですね。
    SQL文の勉強も兼ねて、挑戦してみたいと思います!

    キャンセル

0

物理ファイルの容量が不明ですので、想像での回答です。
恐らく検索を行う部分が時間がかかるので、それを解決するためにデータベースに一度入れてインデックスなどを用いて検索速度を解決するという点は良いと思います。

もう一点としては、実施したい内容を手動で行うと果てしない時間とミスが発生することが予測されます。
その部分をPythonで行うこと自体は良いとは思いますが、コードを尋ねないとコーディングが難しい状況でしたら、
一つ一つの課題に辿り着く前に、挫折されてしまうのではないかと思います。

得意な言語があるのでしたら、Pythonにこだわらず得意な言語で実施したほうが良いような気がします。
参考になれば、幸いです。

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/27 17:03

    ご回答ありがとうございました!
    Pythonを勉強中でして、pandasなどの便利なライブラリを使えば実現できるかと思い、このように質問させて頂きました。
    おっしゃる通り、他の言語でもできたかもしれませんね。

    キャンセル

同じタグがついた質問を見る

  • Python

    9179questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • SQL

    2547questions

    SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

  • データベース

    734questions

    データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

  • CSV

    707questions

    CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

  • pandas

    672questions

    Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。