python sklearn KFoldで映画レビューml-100Kをレコメンドしたい

前提・実現したいこと

映画レビューデータml-100Kをユーザ一に対しレコメンドをしたく、実践機械学習システムのソースプログラムを実行したのですが、以下のようにエラーが出てしまいました。

個人的にバージョンアップしたためKFoldの使用方法が変更されたと踏んでいますが解決ができません。
最新バージョンでのsklearnでどのように行えば良いの提案してくだされば幸いです。
よろしくお願いいたします。

scikit-learn 0.23.2
Mac home-brew python3
参考書　実践機械学習システム

発生している問題・エラーメッセージ

File "recomend0111.py", line 55, in <module>
    s = learn_for(i)
  File "recomend0111.py", line 42, in learn_for
    for train, test in kf:
TypeError: 'KFold' object is not iterable

該当のソースコード

#This code is supporting material for the book                                 
#Building Machine Learning Systems with Python                                 
#by Willi Richert and Luis Pedro Coelho                                        
#published by PACKT Publishing                                                                                                                               
#It is made available under the MIT License                                    

import numpy as np
from scipy import sparse
from sklearn.linear_model import LassoCV, RidgeCV, ElasticNetCV
from sklearn.model_selection import KFold

data = np.array([[int(tok) for tok in line.split('\t')[:3]]
                for line in open('ml-100k/u.data')])
ij = data[:, :2]
ij -= 1  # original data is in 1-based system                                   
values = data[:, 2]
reviews = sparse.csc_matrix((values, ij.T)).astype(float)

reg = ElasticNetCV(fit_intercept=True, alphas=[
                   0.0125, 0.025, 0.05, .125, .25, .5, 1., 2., 4.])


def movie_norm(xc):
    xc = xc.copy().toarray()
    x1 = np.array([xi[xi > 0].mean() for xi in xc])
    x1 = np.nan_to_num(x1)

    for i in range(xc.shape[0]):
        xc[i] -= (xc[i] > 0) * x1[i]
    return xc, x1

def learn_for(i):
    u = reviews[i]
    us = np.delete(np.arange(reviews.shape[0]), i)
    ps, = np.where(u.toarray().ravel() > 0)
    x = reviews[us][:, ps].T
    y = u.data
    err = 0
    eb = 0
    kf = KFold(len(y),n_splits=8)
    for train, test in kf:
        xc, x1 = movie_norm(x[train])
        reg.fit(xc, y[train] - x1)

        xc, x1 = movie_norm(x[test])
        p = np.array([reg.predict(xi) for xi in xc]).ravel()
        e = (p + x1) - y[test]
        err += np.sum(e * e)
        eb += np.sum((y[train].mean() - y[test]) ** 2)
    return np.sqrt(err / float(len(y))), np.sqrt(eb / float(len(y)))

whole_data = []
for i in range(reviews.shape[0]):
    s = learn_for(i)
    print(s[0] < s[1])
    print(s)
    whole_data.append(s)

試したこと

kf = KFold(len(y),n_splits=4)
for train, test in kf:
を
kf=KFold(n_splits=4)
for train, test in kf.split(len(y)):
などに書き換えましたが違うエラーが吐き出されました。

補足情報（FW/ツールのバージョンなど）

scikit-learn 0.23.2
Mac home-brew python3
参考書　実践機械学習システム

参考GitHub
https://github.com/wrichert/BuildingMachineLearningSystemsWithPython/blob/master/ch07/usermodel.py

technocore

2020/10/02 16:03

kf.split(Len(y): カッコが閉じていません。

kouki_ok

2020/10/02 16:28

ご指摘ありがとうございます。修正しました。

行動規範の内容に同意します

回答1件

ベストアンサー

実践機械学習システムの原書「Building Machine Learning Systems with Python」は、2013年の本ですので、これを参考に学習される場合、ソースコードは参考程度に眺めるまでにしたほうがよいでしょう。

以下、4箇所を修正すると、実行できるようになります。
（Mean of empty sliceの警告は残ります）
基本的には、効率が悪いfor文は全て排除する方向に変わっているのと、KFoldのイテレーションの作り方が変わっているようです。意味的に正しい変換したつもりではありますが、正しく回答が出るかは確認していません。

Python
1def movie_norm(xc):
2    xc = xc.copy().toarray()
3    x1 = xc[xc > 0].mean()     # 修正
4    x1 = np.nan_to_num(x1)
5    xc -= (xc > 0) * x1     # 修正
6    return xc, x1
7
8def learn_for(i):
9    u = reviews[i]
10    us = np.delete(np.arange(reviews.shape[0]), i)
11    ps, = np.where(u.toarray().ravel() > 0)
12    x = reviews[us][:, ps].T
13    y = u.data
14    err = 0
15    eb = 0
16    kf = KFold(len(y),n_splits=8)
17    for train, test in kf.split(x):   # 修正
18        xc, x1 = movie_norm(x[train])
19        reg.fit(xc, y[train] - x1)
20
21        xc, x1 = movie_norm(x[test])
22        p = reg.predict(xc).ravel()   # 修正
23        e = (p + x1) - y[test]
24        err += np.sum(e * e)
25        eb += np.sum((y[train].mean() - y[test]) ** 2)
26    return np.sqrt(err / float(len(y))), np.sqrt(eb / float(len(y)))