質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
86.12%
CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

RStudio

RStudioは、Rのプログラミングを効率化する統合開発環境です。統計計算とグラフィックスができるプログラミング言語であるRのIDEでOSSで公開されています。ソースコードやコンソールなどが一つの画面に見やすく配置されている点が特徴。コマンド名以外に、関数名やパッケージ名も補完できます。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

解決済

Rのエラー、未定義の列が選ばれましたについて

Lia
Lia

総合スコア9

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

RStudio

RStudioは、Rのプログラミングを効率化する統合開発環境です。統計計算とグラフィックスができるプログラミング言語であるRのIDEでOSSで公開されています。ソースコードやコンソールなどが一つの画面に見やすく配置されている点が特徴。コマンド名以外に、関数名やパッケージ名も補完できます。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

1回答

0グッド

0クリップ

717閲覧

投稿2022/11/26 09:23

編集2022/11/27 02:10

前提

統計学ソフトRでのエラーについてです。
解決策が分からないため質問させていただきます。

Windows11
R

実現したいこと

興行収入をスクレイピングしたcsvファイルにWeekend_Grossとnum_weekという興行収入と映画公開から何週間たったかを示す変数があります。この二つを散布図でplotしたいのですがエラーが出てしまいました。
ファイルの中身はこんな感じです。
イメージ説明

csvファイルには100件以上の映画があるためnum_weekは同じ数字、特に1~6(1週間~6週間)の数値が多いです。縦軸にWeekend_Gross、横軸にnum_weekにしたいです。このままではよくわからにグラフになるので、Rのaggregate関数を使ってnum_weekの数値によってWeekend_Grossの平均をプロットしていこうと思いました。

イメージはこんな感じになるかと思います。
※このグラフは友達から提供してもらったものです。
イメージ説明
そのコードが以下になります。

該当のソースコード

R

1data1 <- read.csv("2016week_favorite.csv",encoding = "UTF-8") 2 3data1 <- filter(data1,num_week < 50) #外れ値削除 4 5mean_Gross <- aggregate(x=data1[c("Weekend_Gross")],by = list(data1$num_week),FUN = mean) #平均 6 7plot(mean_Gross) 8 9

発生している問題・エラーメッセージ

しかしコードを実行すると

Error in [.data.frame(data1, c("Weekend_Gross")) :
未定義の列が選ばれました

とのエラーが吐かれます。解決方法が見つけられなかったので皆さんの力をお借りできればなと思います。
よろしくお願いいたします。

回答者様のコードを実行

NamerikawaR様回答ありがとうございます!
コードを実行するとWeekend_Gross変数がないというエラーが出てきましたが(X.U.FEFF.Weekend_Grossに変換されている)、これはWindows特有のエラーだそうで「fileEncoding="UTF-8-BOM"」で読み込むことで解決しました!メモのためここに記しておきます。
そして本題ですが実行はできたもののWeekend_Grossの平均がnum_weekごとにとれていないようなグラフができました。
どうなっているのか、また解決方法はありますでしょうか。お力添えよろしくお願いいたします。
イメージ説明

解決法

皆様回答ありがとうございました!
単純なミスでありまして大変申し訳ございません。
Weekend_Grossがなぜか文字型になっていたためプロットできないでいました。
なのですべて数値型に変換した上で実行した結果グラフが描けました!
ありがとうございました。

以下のような質問にはグッドを送りましょう

  • 質問内容が明確
  • 自分も答えを知りたい
  • 質問者以外のユーザにも役立つ

グッドが多くついた質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

気になる質問をクリップする

クリップした質問は、後からいつでもマイページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

下記のような質問は推奨されていません。

  • 間違っている
  • 質問になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

適切な質問に修正を依頼しましょう。

melian

2022/11/26 10:45

dplyr をお使いでしょうか?
Lia

2022/11/27 01:19 編集

はい! library(dplyr)は読み込んでおります! fileEncoding="UTF-8-BOM"で読み込ませたら、次は Error in plot.window(...) : 有限な 'ylim' の値が必要です とのことでした。これは範囲を指定してあげなければいけないのでしょうか。 よろしくお願いいたします。
Lia

2022/11/27 02:11

数値型ではなく文字型になっていたためできなかったみたいです。初歩的で大変申し訳ございません。 お力添えありがとうございました!

回答1

0

ベストアンサー

私はtidyverseの関数ばっかりつかってて、Base関数はあまり分かっていないので、回答としてずれているかもしれませんが、
私なら以下のようなコードを描くと思います。

R

1library(tidyverse) 2 3#たぶん動くと思うけど。。。 4data1 %>% group_by(num_week) %>% 5 ggplot(aes(x = num_week, y = Weekend_Gross))+ 6 stat_summary(fun = "mean", geom = "point") 7 8#mtcarsの例、こっちは動きます。cyl毎のmpg平均値を出し、横軸cyl, 縦軸をmpg平均値でプロット 9mtcars %>% group_by(cyl) %>% 10 ggplot(aes(x = cyl, y = mpg))+ 11 stat_summary(fun = "mean", geom = "point")

投稿2022/11/26 10:40

NamerikawaR

総合スコア58

良いと思った回答にはグッドを送りましょう。
グッドが多くついた回答ほどページの上位に表示されるので、他の人が素晴らしい回答を見つけやすくなります。

下記のような回答は推奨されていません。

  • 間違っている回答
  • 質問の回答になっていない投稿
  • スパムや攻撃的な表現を用いた投稿

このような回答には修正を依頼しましょう。

回答へのコメント

Lia

2022/11/27 01:16 編集

回答ありがとうございます! 実行結果のグラフを新たに添付したのでよろしければもう少しだけ知恵をお貸しください。 コードは実行できたものの上記のようなグラフになりました。これはどういった意味だと思われますでしょうか、プロット数はnum_week分(30程度)くらいになるのですが、大量にプロットされています。 よろしくお願いいたします。
Lia

2022/11/27 02:11

数値型ではなく文字型になっていたためできなかったみたいです。初歩的で大変申し訳ございません。 お力添えありがとうございました!

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
86.12%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問

同じタグがついた質問を見る

CSV

CSV(Comma-Separated Values)はコンマで区切られた明白なテキスト値のリストです。もしくは、そのフォーマットでひとつ以上のリストを含むファイルを指します。

RStudio

RStudioは、Rのプログラミングを効率化する統合開発環境です。統計計算とグラフィックスができるプログラミング言語であるRのIDEでOSSで公開されています。ソースコードやコンソールなどが一つの画面に見やすく配置されている点が特徴。コマンド名以外に、関数名やパッケージ名も補完できます。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。