ニューラルネットワークを使い「掛け算」の学習をしたい

総合スコア253

2017/11/17 10:30

符号は論理回路になるので学習が大変です。なかなかの挑戦になるかも。教師データのバランスが重要らしい。 https://qiita.com/KUKDfhia/items/3732bc3542a0bf7802d5

2017/11/18 15:31

掛け算の符号のみの判定はXNORの学習器と等価になります。もともと、単純パーセプトロンでは、XORが学習できないという批判を学者さんにされて、その解決策としてDNNが登場したものの、勾配消失による学習不良で、DNNは冬の時代に突入したけれど、バックプロパゲーションでそれをのりこえてDNNブームが起きたと認識しています。なので、XNORもDNNなら学習可能、という風に理解しています。 http://okoysm.hatenablog.jp/entry/2017/01/26/081849#パーセプトロンの限界 XNORとしては、FPGA化まわりとか、バイナリNetとか周りでは別の思惑（高速化や省電力化）があって、そこはそこで熱いのですが、今回のケースではお勉強目的のようですから、上記の追記と記事が参考になると思います。

2017/11/20 07:18

大変参考になりました。確かに学習できますね。ところで、sigmoidを活性化関数にすると学習できるのに対して、reluだといけない直感的な理由というのはあるのでしょうか？ざっと試してみると、reluではうまく学習できませんでした。パラメータチューニングが足りていないだけでしょうか？

2017/11/20 09:55

追記隠れ層2に2ニューロンずつにすると、活性化関数がsigmoidの時に、重みの初期化次第で変なところに収束することがあるようです。重み初期化の乱数をかえると、多くの場合には正しく学習できるようです。 Dropout層を入れると安定するのかもしれません。

2017/11/20 10:32

reluでうまくいかない直感的な理由はわかりません。 sigmoidでもパラメータチューニングは必要でしたので、同様の可能性はあると思います。

2017/11/20 11:06

reluの勾配が定数であることに問題があると妄想していましたが、あまり明確でないかもしれないですね。

2017/11/26 08:01 編集

いろいろと調べてみて、直感的にreluだと駄目な理由に思いいたりました。xが負の領域で解が0になるため、学習が正しく進まないのだろう、と想像しています。

2017/11/26 13:40

reluだけではなく、hard_sigmoidも併せてみたらどうなるでしょうか。。 http://docs.chainer.org/en/stable/reference/generated/chainer.functions.hard_sigmoid.html#chainer.functions.hard_sigmoid

2017/11/27 01:17

今、chainerが手元に無いので確認ができないのですが関数系を見る限りでは直感的にhard-sigmoidsでもうまくいくと思います。学習がうまくいくハイパーパラメータの提示もおわっておりますので、なぜhard-sigmoidsを合わせてみたいのか？という動機をおしえていただけますか？

2017/11/28 11:20

たしかにおっしゃる通りな気がします。中間層の数と活性化関数次第で、XORを表現できるかどうかの境目なのですね。余裕を持たせることが重要な気がしてます。おもしろいですね。

2017/12/02 06:59

失礼しました。確かにハイパーパラメータを提示していただいておりますので hard sigmoidは必要ありませんでしたね。本当に長い時間、お付き合いいただきありがとうございました

行動規範の内容に同意します

すいません、yag1kaz様よりコードをいただいていたことを見落としていました。
ちょっと確認します。

投稿2017/11/20 04:52

総合スコア107

2017/11/25 10:09

回答に追記を行っていますので、ご確認下さい。

行動規範の内容に同意します

mkgrei様、yag1kaz様、回答ありがとうございます。
ひとまず、yag1kaz様の助言を参考にして、符号のみを学習させるように適当な
ネットワークを組んでみました。

softmax_cross_entropyを利用すれば、かなりの精度で符号学習ができることをつかみました。
一方、mean_squared_errorでは、あまり精度が良くないようです。
引き続き、調査をしていきます。

Python
1class MyChain(Chain):
2	def __init__(self):
3		super(MyChain, self).__init__(
4			l1 = L.Linear(4, 100),
5			l2 = L.Linear(100, 100),
6			# softmax_cross_entropyを使う場合は、↓
7			# l3 = L.Linear(100, 3))
8
9			# mean_squared_errorを使う場合は、↓
10			l3 = L.Linear(100, 1))
11
12	def __call__(self, x, y):
13		pr = self.predict(x)
14		yv = Variable(y)
15		# softmax_cross_entropyで正しく学習できた。
16		#return F.softmax_cross_entropy(pr, yv)
17		return F.mean_squared_error(pr, yv)
18
19	def predict(self, x):
20		h1 = F.hard_sigmoid( self.l1(x) )
21		h2 = self.l2(h1)
22		h3 = self.l3(h2)
23		return h3
24
25# 正負両方の値でサンプルデータを作る関数
26def createData__PositiveNegative_WithoutNoise(N):
27	# 適当にデータを作って掛け算を学習してみる。
28	# x1, x2, x3, x4が入力データ。
29	# 期待する出力(教師)は単なる掛け算結果。
30	x1 = np.linspace(-1, 100, N).astype(np.float32)
31	x2 = np.linspace(-0.1, 10, N).astype(np.float32)
32	x3 = np.linspace(-10, 0.1, N).astype(np.float32)
33	x4 = []
34	
35	for i in range(N):
36		x4.append( i % 11 )
37
38	x4 = np.array(x4, dtype=np.float32)
39
40	np.random.shuffle(x2)
41	np.random.shuffle(x3)
42	np.random.shuffle(x4)
43
44	y = np.sign(x1*x2*x3*x4)
45
46	# softmax_cross_entropyを使う場合は、↓
47	# return np.c_[x1, x2, x3, x4], np.array(y).astype(np.int32)
48
49	# mean_squared_errorを使う場合は、↓
50	return np.c_[x1, x2, x3, x4], np.c_[ np.array(y).astype(np.float32) ]
51

投稿2017/11/20 04:51

総合スコア107

2017/11/20 09:31 編集

MSEでも答えが正か負かはわかりますね。（訂正後）規格化とかはできないので、1と-1の近くでブレがありますが。活性化関数にreluを使うと、中間層のニューロンの数を2にすると調子が悪いようです。 10とかに増やすと学習できるようになりました。（ただ疑問も…）さらに、このモデルについてですが、Xに対して、signを予め取っておかないと、学習データの外の数字に対して安定して符号判定できないかもしれません。例えば、x1=1000とか。以下、混乱中中間層を増やしすぎると学習しているのか過学習しているのか判別がつきませんが… 最初にsignを取ってしまうと、全パターンを学習器にみせてしまうので、中間層を十分増やせば、教師データに完全学習して精度100％。そもそも論理回路の入力対出力を学習する場合過学習とかいう概念はないのだろうか。（そんなにパターンがないし）

2017/11/20 10:39

過学習については今回は考えなくてもよいと思います。なぜならXOR(XNOR)の論理回路がそもそも非線形出力を期待しているので、過学習しないと正解を出力できないからです。また、回答パターンの組み合わせも16個の組み合わせしかないので、訓練データセットにテストデータセットがすぐに包含されてしまいます。突き詰めると、最初から正解を提出できる重みをニューロンに指定するだけでよい、ということになってしまい、mkgreiさんの最初のご回答にきわめて近い状態、ということになってしまうのですが、今回はプロセスが大事という事で。

2017/11/20 11:11

なるほど、ごもっともですね。いろんなことがごちゃまぜになって混乱していました。単層のネットワークでは関数系としてそもそもXORを表現できなかったことに対して、多層にすると学習できるようになるというのがポイントだったんですね。スッキリしました。ありがとうございます。

行動規範の内容に同意します

入力に対して、符号は機械的に処理してしまうのはいけませんか？
そうすれば、入力をすべて正にすることが可能に…

投稿2017/11/17 06:56

総合スコア8562

2017/11/17 12:07

ありがとうございます。仰る通りだとは思いますが、あくまで機械学習のお勉強の例題として掛け算を設定していますので、出来れば、機械学習っぽいやり方を模索しています。単に掛け算するだけなら、普通にかければいいので・・・