質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.91%

ロジスティック回帰(多クラス分類)について

受付中

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 255

padms0206

score 2

ロジスティック回帰識別器をpythonで自力で作りたい

2クラスのロジスティック回帰識別器をnumpyを用いて作成する事ができました。
次に、3クラス以上に分類する為にシグモイド関数ではなくソフトマックス関数を使い、それに関する誤差の微分則などの数学的な仕組みは理解済みです。

pythonでの実装で困っていること。

入力をx=(x_1,x_2,...,x_D)^Tとします。(D×1ベクトル)とし、出力がK個(クラスの数だけ)になるようなソフトマックス関数の実装方法がわからず困っています。(数式は理解しています。pythonでの実装方法がいまいちぴんと来ていません)

今回実装したいソフトマックスの式の形

![イメージ説明](54b70acd4b4d7c08ffdf9d8a3401f736.png)

(追記)
画像中のw、bは識別に使う重み(パラメータ)です。

2クラスでの識別器(自分で実装したもの)

import numpy as np
import makeGaussianData
import matplotlib.pyplot as plt

K = 2
w = 0.02*np.random.rand(K)-0.01 #1.パラメータの初期化
b=0.02*np.random.rand()-0.01

X, lab, t = makeGaussianData.getData(K)
z = np.empty(X.shape[0],)
h = np.empty(X.shape[0],)
eta=0.01
cnt = 0

def s(x):
    return 1/(1+np.exp(-x))

for i in range(10000): #2.適当な回数の繰り返し(学習データは400個)
     n = np.random.randint(0,400) #i.400個のデータからランダムで1つ選択
     z[n]= s(w @ X[n] + b)
     h[n]= (-t[n]*np.log(z[n]))-((1-t[n])*np.log(1-z[n])) #ii.モデルの出力を求める
     w = w-(eta*(X[n]*(z[n]-t[n])))
     b = b-(eta*(z[n]-t[n])) #iii.パラメータの更新
     if i % 1000 == 0: #2.iv. 1000の倍数になったときの処理
        for j in range(X.shape[0]):
            z[j]=s(w @ X[j] + b)
            h[j]= (-1*t[j])*np.log(z[j])-(1-t[j])*np.log(1-z[j])
            if z[j] > 0.5:
                T = 1
            else:
                T = 0
            if T == t[j]:
                cnt = cnt+1

        H = np.mean(h)
        print("#{0}, H:{1} , {2}/{3}={4}".format(i,H,cnt,X.shape[0],cnt/X.shape[0]))
        cnt=0

fig = plt.figure()
plt.xlim(-0.2, 1.2)
plt.ylim(-0.2, 1.2)
ax = fig.add_subplot(1, 1, 1)
ax.set_aspect(1)
ax.scatter(X[lab == 0, 0], X[lab == 0, 1], color = 'red')
ax.scatter(X[lab == 1, 0], X[lab == 1, 1], color = 'green')
if K == 3:
    ax.scatter(X[lab == 2, 0], X[lab == 2, 1], color = 'blue')

fig.show()
plt.show()

makeGaussianData.py

import numpy as np


def getData(nclass, seed = None):

    assert nclass == 2 or nclass == 3

    if seed != None:
        np.random.seed(seed)

    # 2次元の spherical な正規分布3つからデータを生成
    X0   = 0.10 * np.random.randn(200, 2) + [ 0.3, 0.3 ]
    X1   = 0.10 * np.random.randn(200, 2) + [ 0.7, 0.6 ]
    X2   = 0.05 * np.random.randn(200, 2) + [ 0.3, 0.7 ]

    # それらのラベル用のarray
    lab0 = np.zeros(X0.shape[0], dtype = int)
    lab1 = np.zeros(X1.shape[0], dtype = int) + 1
    lab2 = np.zeros(X2.shape[0], dtype = int) + 2

    # X (入力データ), label (クラスラベル), t(教師信号) をつくる
    if nclass == 2:
        X = np.vstack((X0, X1))
        label = np.hstack((lab0, lab1))
        t = np.zeros(X.shape[0])
        t[label == 1] = 1.0
    else:
        X = np.vstack((X0, X1, X2))
        label = np.hstack((lab0, lab1, lab2))
        t = np.zeros((X.shape[0], nclass))
        for ik in range(nclass):
            t[label == ik, ik] = 1.0

    return X, label, t


if __name__ == '__main__':

    import matplotlib
    import matplotlib.pyplot as plt

    K = 3

    X, lab, t = getData(K)

    fig = plt.figure()
    plt.xlim(-0.2, 1.2)
    plt.ylim(-0.2, 1.2)
    ax = fig.add_subplot(1, 1, 1)
    ax.set_aspect(1)
    ax.scatter(X[lab == 0, 0], X[lab == 0, 1], color = 'red')
    ax.scatter(X[lab == 1, 0], X[lab == 1, 1], color = 'green')
    if K == 3:
        ax.scatter(X[lab == 2, 0], X[lab == 2, 1], color = 'blue')
    plt.show()


以上2つのコードで2クラス識別器を作成しました。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • can110

    2020/07/20 06:34

    まず、Zk = ~ の右辺のうち、分子、分母の式をそれぞれコード化できますでしょうか?
    また、すでに作成済みの2クラスのロジスティック回帰識別器のコードを提示すると、学習レベルにあった回答が得られやすいかと思いますがいかがでしょうか?

    キャンセル

  • padms0206

    2020/07/20 08:45

    ご指摘ありがとうございます。
    追記してみます。

    キャンセル

回答 1

+1

質問にコードがないので、抽象的な回答になりますが、記載します。

まず最初に実装が必要なものはy=の数式です。これは、説明変数xと重みwの内積を計算してバイアスを加算しています。この内容をコードにします。
次にz=部分を実装します。分母部分は、上記の指数関数のサマリーです。分子は個々の指数関数の結果です。

とりあえず、数式の通りに実装して結果がおかしければ、改めて質問するといいかと思います

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.91%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る