sklearnのLinearRegressionの計算方法とscoreの算出の方法について

python
1from sklearn.linear_model import LinearRegression
2import mglearn
3
4X, y = mglearn.datasets.load_extended_boston()
5X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
6
7%time lr = LinearRegression().fit(X_train, y_train)
8print(f"training dataに対しての精度: {lr.score(X_train, y_train):.2}")
9print(f"test dataに対しての精度: {lr.score(X_test, y_test):.2}")

上記を実行したところ、以下のような出力が得られました。

Wall time: 86.7 ms
training dataに対しての精度: 0.95
test dataに対しての精度: 0.61

ここでlrというインスタンスに対してscoreというメソッドを用いて精度を求めましたが、ここでのスコアの値は決定係数的であることは分かるのですが、正確には何であるかがわかりません。
https://github.com/scikit-learn/scikit-learn/blob/7b136e9/sklearn/linear_model/base.py#L362
に詳しいことが書かれているということは分かるのですが、難しくて諦めてしまいました。

詳しい方がいれば教えて頂けると恐縮です。
また、スクリプト上のどこにか書かれてあるか教えて頂けるとなおのこと嬉しいです。

また、X_trainを説明変数として学習をしているのですが、このモデルを作ると時どのようなアルゴリズムで動いているのでしょうか？(一般逆行列を解いて導出しているなどなど)
こちらに関しても分かる方がいれば教えて頂けると恐縮です。
（スクリプトの場所まで教えて頂ければなお嬉しいです。）

行動規範の内容に同意します

回答1件

ベストアンサー

ドキュメントを見ましょう。

he coefficient R^2 is defined as (1 - u/v), where u is the residual sum of squares ((y_true - y_pred) ** 2).sum() and v is the total sum of squares ((y_true - y_true.mean()) ** 2).sum().