類似度が高い上位２０人を抽出する部分の書き方がわからない
退会済みユーザー
総合スコア0

Question

レコメンドシステムを作りたいのですが、類似度が高い上位２０人を抽出する部分の書き方がわかりません。
全体のコードが
```ここに言語を入力
from __future__ import print_function

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.spatial as sp
import scipy.sparse as sparse
from sklearn.decomposition import NMF, TruncatedSVD

data = pd.read_csv('user_topic_follow_dummy.csv', encoding='utf8')
data.drop_duplicates(keep='last', inplace=True)
data.head()

data['rating'] = 1.0
rating_matrix = data.pivot(index='user_id', columns='topic_name', values='rating')
rating_matrix.fillna(0, inplace=True)
topic_list = np.array(rating_matrix.columns)
user_list = np.array(rating_matrix.index)
rating_matrix_ar = np.array(rating_matrix)
print(data[data['user_id'] == user_list[0]])
already_followed_topic =np.array(data[data['user_id'] == user_list[0]]['topic_name'])


def get_cosine_similarity(x, y):
    return 1- sp.distance.cosine(x, y)

#ジャッカード係数
def get_jaccard_similarity(x, y):
    return 1 - sp.distance.jaccard(x, y)

user_similarity = []
target_user_row = rating_matrix_ar[0]
for row in rating_matrix_ar:
    sim = get_jaccard_similarity(target_user_row, row)
    user_similarity.append(sim)
user_similarity = np.array(user_similarity)

#類似度が高い上位２０人を抽出
topN = 20
idx = user_similarity.argsort()[::-1][1:topN+1]
selected_user_similarity = user_similarity[idx]
selected_rating = rating_matrix_ar[idx]

#平均類似度を計算
avg_score = []

for col_idx in range(selected_rating.shape[1]):
    weight_score = sum(selected_rating[:, col_idx] * selected_user_similarity)
    similarity_sum =sum(selected_user_similarity[selected_user_similarity > 0])
    avg_score.append(weight_score / similarity_sum)
avg_score = np.array(avg_score)
#平均類似度の高い上位５テーマを表示
recommend_num = 5
counter = 0
for recommended_topic in topic_list[avg_score.argsort()[::-1]]:
    if recommended_topic not in already_followed_topic:
        print(recommended_topic)
        counter += 1
        if recommend_num <= counter:
            break
```
argsort関数は昇順にソートしたインデックスの配列を返すし、[::-1]というスライスの書き方を使って降順にしているのはわかります。
でもその結果を
```ここに言語を入力
selected_user_similarity = user_similarity[idx]
selected_rating = rating_matrix_ar[idx]
```
の両方に入れている点がわかりません。
どうして違う変数に、インデックスに同じものを入れた違う配列を入れているのでしょうか？また、どうして
```ここに言語を入力
topN = 20
idx = user_similarity.argsort()[::-1][1:topN+1]
selected_user_similarity = user_similarity[idx]
selected_rating = rating_matrix_ar[idx]
```
ここの部分で類似度が高い上位２０人を抽出できるのでしょうか？

Accepted Answer

式を分解すると分かりやすいです。

`idx = user_similarity.argsort()[::-1]` ではリストを逆順＝類似している順にならべて
`idx = idx[1:topN+1]` で先頭＝[0]＝自分を除くtopN人の行番号を抽出しています。

参考：[[python] スライスでリバース！！](http://qiita.com/kakk_a/items/54e81346d8f35733ab5e)

また、
`selected_user_similarity = user_similarity[idx]` はtopN人の各類似度
`selected_rating = rating_matrix_ar[idx]`はtopN人の各アイテム？リストを表しています。

これらの変数は、後の`#平均類似度を計算`で利用しています。
なお、[mlbook/chapter05/レコメンデーション入門.ipynb](https://github.com/yosukekatada/mlbook/blob/fa23d4698cfd626497d9a8bf6c7432cae21d4120/chapter05/%E3%83%AC%E3%82%B3%E3%83%A1%E3%83%B3%E3%83%87%E3%83%BC%E3%82%B7%E3%83%A7%E3%83%B3%E5%85%A5%E9%96%80.ipynb)に分かりやすい説明が書いています。

#### 捕捉

この手のコードの意味を訪ねる質問は、質問者がコードの意味をある程度把握しており、なおかつ第三者が動作を確認できる（動く）コードを提示しないと、回答得られにくいです。

[フリーライブラリで学ぶ機械学習入門 サンプルコード](https://github.com/yosukekatada/mlbook/tree/fa23d4698cfd626497d9a8bf6c7432cae21d4120)

捕捉

関連した質問