🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

Q&A

解決済

2回答

556閲覧

Rでのカテゴリーデータの処理方法について

Boosta-Ken

総合スコア12

R

R言語は、「S言語」をオープンソースとして実装なおした、統計解析向けのプログラミング言語です。 計算がとても速くグラフィックも充実しているため、数値計算に向いています。 文法的には、統計解析部分はS言語を参考にしており、データ処理部分はSchemeの影響を受けています。 世界中の専門家が開発に関わり、日々新しい手法やアルゴリズムが追加されています。

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

0グッド

0クリップ

投稿2021/02/23 10:29

列に東京都足立区、大阪府守口市、など都道府県が複数行に渡り存在しており、市区町村を削除し、都道府県だけにしたい場合はどのようなコーディングで処理できるのでしょうか?

また、東京都、大阪府などにできた後、関東、関西等に分類する場合のコーディングもご教示頂けたら幸いです。

宜しくお願いします。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答2

0

ベストアンサー

回答依頼をいただきましたので

R

1library(stringr) 2a<-c('東京都渋谷区', '北海道札幌市', '大阪府吹田市', '沖縄県那覇市', '青森県青森市') 3str_extract(a, pattern="^.*[都|道|府|県]")

で、

'東京都','北海道','大阪府','沖縄県','青森県'

もし市区町村のほうが欲しければ

R

1substring(str_extract(a, pattern="[都|道|府|県].*$"), 2)
'渋谷区','札幌市','吹田市','那覇市','青森市'

また、東京都、大阪府などにできた後、関東、関西等に分類する場合のコーディングもご教示頂けたら幸いです。

'東京都渋谷区'の中に直接「関東」の情報がありませんので、
「東京都」-「関東」を紐付ける必要があります。
if文で実行
都道府県と地方を紐付けるリストを別途読み込む
等々あるかと思いますが、すこしはご自身で考えられたほうが良いです。
Teratailは丸投げは禁物で、本来はご自身でコーディングした結果、この入力でこの出力が欲しいが、こういうエラーが出てしまっている、思い通りの結果がでない、と質問する場です。

投稿2021/03/07 06:22

aokikenichi

総合スコア2240

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

複数行に渡り存在しており

行の分割に法則性があるなら何とかなるかもしれませんが、表記ゆれが大きい場合は、自動化は不可能な場合もありえます。

ただ「分割されている」だけではコーディングをどうするかは判断しようがありません。実データを見せてください。

東京都、大阪府などにできた後、関東、関西等に分類する場合のコーディング

tidyverseを導入してgroup_byを使う方法を勉強すればよいでしょう。

Rでデータを加工・集計する3つの操作を解説。 マーケターが1からRを勉強します【第5回】 | [マナミナ]まなべるみんなのデータマーケティング・マガジン

投稿2021/02/23 10:50

KojiDoi

総合スコア13692

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Boosta-Ken

2021/02/25 03:01

@KojiDoiさん ご回答ありがとうございます。 実データですが、下記のような感じになります。 [1] "東京都品川区" "東京都中央区" "大阪府大阪市" "東京都港区" "神奈川県横浜市" "東京都港区" [7] "大阪府大阪市" "東京都渋谷区" "東京都千代田区" "東京都文京区" "東京都千代田区" "東京都渋谷区" [13] "東京都渋谷区" "大阪府大阪市" "東京都千代田区" "東京都渋谷区" "愛知県豊橋市" "愛知県名古屋市" [19] "東京都渋谷区" "東京都目黒区" 上記のような住所がLocationという列で与えられており、東京都、大阪府のように都道府県に分類した方が目的変数に対して予測精度が良くなるのではないかと思い、例えば東京都のあとの渋谷区とかを削除する方法についてご教示頂けたらと思っております。 宜しくお願いします。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問