質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.50%
データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

メール

メールは、コンピュータネットワークを利用し、 情報等を交換する手段のことです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

Q&A

2回答

421閲覧

比率を出す前にスケーリングすることについて

退会済みユーザー

退会済みユーザー

総合スコア0

データ構造

データ構造とは、データの集まりをコンピュータの中で効果的に扱うために、一定の形式に系統立てて格納する形式を指します。(配列/連想配列/木構造など)

メール

メールは、コンピュータネットワークを利用し、 情報等を交換する手段のことです。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

データマイニング

データマイニングは、購買履歴やクレジットカードの利用履歴、電話の通話履歴など企業にある大量のデータを解析して、その中に隠れたパターンやルールを探し出す技術です。DMと略されることもあります。

統計

統計は、集団現象を数量で把握することです。また、調査で得られた性質や傾向を数量的に表したデータのことをいいます。

0グッド

0クリップ

投稿2021/10/18 02:18

前提・実現したいこと

時間帯別のメールの開封率についてデータ分析しています。
開封率 = 開封数 / 受信数
としています。

発生している問題

この受信数が、開封数に比べて非常に大きいため、
比率を出すとおかしなことになっています。

イメージ説明

このように、受信数が多い時間帯ほど、開封数も多いのですが、
これを受信数と開封率のグラフにすると、

イメージ説明

受信数が多い時間帯ほど、開封率が低いということになってしまいます。

試したこと

受信数と開封数をmin-maxスケーリングしたあと、開封率を出してみましたが、0で徐算することになる時間帯があり、うまくいきません。
このような場合、数学的あるいは統計学的にただしいスケーリングの方法などはあるのでしょうか?

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

1T2R3M4

2021/10/18 02:59

利用規約の禁止事項は理解できませんでしたか。 (11)複数のユーザーIDを1人で保有する行為
jbpb0

2021/10/18 04:28 編集

> 時間帯別のメールの開封率についてデータ分析 を示す質問の二つ目のグラフを見て、「俺がやりたいのはそういうことじゃ無いんだー」って思うのなら、 > 開封率がその時間帯の『開封されやすさ』を示唆していない の「開封されやすさ」とは何か? を考えて、きちんと定義することをお勧めします
course_so

2021/10/18 06:20

1T2R3M4さん、ありがとうございます。 別アカウントで一気にフォローしてしまったことが原因で凍結してしまったので、こちらでやりとりしております。
course_so

2021/10/18 06:22

jbpb0さん、ありがとうございます。 たしかにその通りです。開封されやすさの再定義が必要ですね
guest

回答2

0

「開封率」の定義を、分析する目的にあったものに、また、明確にする必要があります。

私なら開封率として
その時間帯の中で開封したメール数 / その時間帯の開始時点での未開封のメール数
を採用したいです。

さらに、ある時間帯に受信したメールの開封されやすさ(滞留時間)として
受信時間帯内のメールの平均滞留時間(開封日時 - 受信日時)
を時間帯毎に見てみたいです。(何時に受信したメールがすぐに読まれやすいか)

なお、このような処理を行うためには、メール毎に受信(到着)日時と開封日時を記録しておく必要があります。

投稿2021/10/18 04:45

can110

総合スコア38233

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

course_so

2021/10/18 06:24

非常に有益な知見をありがとうございます。 参考にして、分析してみます。
guest

0

受信数が多い時間帯ほど、開封率が低いということになってしまいます。

そのとおり、というだけではないでしょうか?何を算出したいのかがわかりません。

投稿2021/10/18 02:21

maisumakun

総合スコア145121

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

course_so

2021/10/18 02:53

ご回答ありがとうございます。 問題としては、「受信数が開封数よりも非常に大きいため、開封率がその時間帯の『開封されやすさ』を示唆していない」ということです。 この問題に対して、なんらかの調整を行いたいと思っているのですが、何か方法がないか探しております
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.50%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問