質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

Q&A

解決済

5回答

443閲覧

サイズの大きい2つのCSVデータを、合成したい

jessicazu

総合スコア22

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

SQL

SQL(Structured Query Language)は、リレーショナルデータベース管理システム (RDBMS)のデータベース言語です。大きく分けて、データ定義言語(DDL)、データ操作言語(DML)、データ制御言語(DCL)の3つで構成されており、プログラム上でSQL文を生成して、RDBMSに命令を出し、RDBに必要なデータを格納できます。また、格納したデータを引き出すことも可能です。

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

pandas

Pandasは、PythonでRにおけるデータフレームに似た型を持たせることができるライブラリです。 行列計算の負担が大幅に軽減されるため、Rで行っていた集計作業をPythonでも比較的簡単に行えます。 データ構造を変更したりデータ分析したりするときにも便利です。

0グッド

1クリップ

投稿2018/06/27 00:49

編集2018/06/27 00:53

実現したいこと

人口密度などが入った国勢調査のCSVを用いて、全国26000箇所の基準地価を示すCSVに人口密度カラムを加え、データを入れたい

以下のような2つの巨大なCSVを持っています。(行、列ともにかなり省略しています)

国勢調査CSV 行数:1969

都道府県市区町村市区町村コード人口密度(人/km2)
北海道札幌市中央区11015,119.1
北海道札幌市北区11024,488.3
北海道札幌市東区11034,597.4
沖縄県与那国町4738263.6

基準地価CSV  行数:25989

住所市区町村コード地価(円/m2)
北海道札幌市中央区南4条西23-2-211101184000
北海道札幌市中央区宮の森4条12-6-21110170100
沖縄県島尻郡八重瀬町字東風平西徳枡原1404番54736256900

ここから基準地価CSVに人口密度という新しいカラムを作り、それぞれの地価レコードに対して、市区町村コードを用いて国勢調査CSVから人口密度を検索し、入力するという作業をしたいと思っています。
できればPython(pandasなどのライブラリ)を使いたいのですが、方法(コード)をご教授いただけませんか?

また約26000行という巨大なデータですが、CSVのままでも大丈夫でしょうか。SQLなどにインポートしたほうが早いということもあるのでしょうか。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cateye

2018/06/27 01:32

えっと、勘違いなら謝りますが・・・「それぞれの地価レコードに対して〜、人口密度を検索し、入力する」というのは、どういったことでしょう? たとえば”北海道札幌市中央区南4条西23-2-21”の人口密度はどうなるのでしょう?
jessicazu

2018/06/27 01:50

説明不足で申し訳ないです。その地点の市区町村の人口密度を入れたいと思っています。その例では札幌市中央区です。
cateye

2018/06/27 02:29

結果の使用目的がわからないので変なこと聞いてるかも?? ですが、上記住所の人口密度が5,119.1になると思いますが、いいのでしょうか・・・?
jessicazu

2018/06/27 08:07

たしかに意味合いとしてはおかしいですが、今回の用途においては、大丈夫です。「市区町村の人口密度」のようなカラム名にしたほうがわかりやすいですね。
guest

回答5

0

ベストアンサー

pandas.DataFrame.mergeで、'市区町村コード'をキーとして結合できます。
それらしきデータでやってみましたが、数秒しかかかりませんでした。

参考:
pandasの使い方(merge、join、concat編)
国勢調査 / 平成27年国勢調査 / 人口等基本集計(男女・年齢・配偶関係,世帯の構成,住居の状態など) 全国結果
土地総合情報システム

Python

1import pandas as pd 2dfA = pd.read_csv('area.csv',encoding='cp932',usecols=['市区町村コード','人口密度']) 3dfD = pd.read_csv('data.csv',encoding='cp932') 4df = pd.merge(dfD, dfA, on='市区町村コード', how='left') 5df.to_csv('ret.csv',encoding='cp932',index=False) 6print(df.info()) 7""" 8<class 'pandas.core.frame.DataFrame'> 9Int64Index: 32453 entries, 0 to 32452 10Data columns (total 30 columns): 11種類 32453 non-null object 12地域 22214 non-null object 13市区町村コード 32453 non-null int64 14都道府県名 32453 non-null object 15市区町村名 32453 non-null object 16地区名 32450 non-null object 17最寄駅:名称 28631 non-null object 18最寄駅:距離(分) 28608 non-null object 19取引価格(総額) 32453 non-null int64 20坪単価 10012 non-null float64 21間取り 6367 non-null object 22面積(㎡) 32453 non-null object 23取引価格(㎡単価) 10012 non-null float64 24土地の形状 22210 non-null object 25間口 20296 non-null object 26延床面積(㎡) 11522 non-null object 27建築年 17416 non-null object 28建物の構造 17147 non-null object 29用途 14726 non-null object 30今後の利用目的 23119 non-null object 31前面道路:方位 22214 non-null object 32前面道路:種類 21762 non-null object 33前面道路:幅員(m) 21455 non-null float64 34都市計画 28603 non-null object 35建ぺい率(%) 27437 non-null float64 36容積率(%) 27437 non-null float64 37取引時点 32453 non-null object 38改装 5952 non-null object 39取引の事情等 1696 non-null object 40人口密度 32441 non-null float64 41dtypes: float64(6), int64(2), object(22) 42memory usage: 7.7+ MB 43None 44"""

投稿2018/06/27 02:51

can110

総合スコア38233

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jessicazu

2018/06/27 08:09 編集

ご提示頂いたコードで、無事実現できました! 処理の時間も一瞬で終わりましたので、とても助かりました。 わざわざデータまで取っていただき、本当にありがとうございました!
guest

0

市区町村コード+人口密度だけであれば、充分メモリに乗り切るので、市区町村コードをキーにした辞書にして、あとは基準地価CSVを読んで書く、読んで書くでいいのでは?

投稿2018/06/27 01:09

otn

総合スコア84423

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jessicazu

2018/06/27 07:58

ご回答ありがとうございました! たしかにその方法もありますね。しかもすぐに終わりそうです。 いろいろな方法があるのだと勉強になりました。
guest

0

基準地価CSVの市区町村コードから国勢調査CSVを参照すれば、何時でも取得できるものなので、それぞれのCSVをテーブルにインポートして、SQLで結合して取得するほうが良いかと思います。

マージして取り込むようなことを考えられているのでしたら、どちらか一方が変更になっても作り直しになってしまいますが、それぞれのCSVを取り込むようにしておけば影響も抑えられます。

投稿2018/06/27 03:14

sazi

総合スコア25138

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jessicazu

2018/06/27 08:06

ご回答ありがとうございました! たしかに、将来性を考えるとその方法が良さそうですね。 SQL文の勉強も兼ねて、挑戦してみたいと思います!
guest

0

ExcelでVLOOKUP で合体させるか、

【MySQL】CSVファイルをインポートするコマンド で各テーブルに取り込んで、MySQL で JOIN を含む INSERT

INSERT INTO tags (entry_id, name)

SELECT entries.id, LOWER(authors.name)
FROM entries JOIN authors ON entries.author_id = authors.id;

を参考に[市区町村コード]でJOINされては?

投稿2018/06/27 01:06

編集2018/06/27 01:07
Orlofsky

総合スコア16415

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jessicazu

2018/06/27 07:57

ご回答ありがとうございました! Excelにそのような機能があることは知りませんでした。 また検索性やSQL文の勉強のためにも、MySQLを使う方法も試してみたいと思います。
guest

0

物理ファイルの容量が不明ですので、想像での回答です。
恐らく検索を行う部分が時間がかかるので、それを解決するためにデータベースに一度入れてインデックスなどを用いて検索速度を解決するという点は良いと思います。

もう一点としては、実施したい内容を手動で行うと果てしない時間とミスが発生することが予測されます。
その部分をPythonで行うこと自体は良いとは思いますが、コードを尋ねないとコーディングが難しい状況でしたら、
一つ一つの課題に辿り着く前に、挫折されてしまうのではないかと思います。

得意な言語があるのでしたら、Pythonにこだわらず得意な言語で実施したほうが良いような気がします。
参考になれば、幸いです。

投稿2018/06/27 01:10

YasuhiroMiyake

総合スコア1336

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

jessicazu

2018/06/27 08:03

ご回答ありがとうございました! Pythonを勉強中でして、pandasなどの便利なライブラリを使えば実現できるかと思い、このように質問させて頂きました。 おっしゃる通り、他の言語でもできたかもしれませんね。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問