Kaggle上位者のコードを実装して、機械学習を学ぶ初学者です。
下記のコードを読み解いているのですが、データの前処理で実装が終わっているように見えます。
このコードのどこで機械学習をしているのでしょうか?
なお、コメントは自分で追加したメモになります。
データの不具合を直した配列survivedをSubmisionの「Survived」列に追加しただけに見えます。
python
1import os 2import re 3import warnings 4import io 5import requests 6 7url="https://github.com/thisisjasonjafari/my-datascientise-handcode/raw/master/005-datavisualization/titanic.csv" 8#データの処理。前処理 9s=requests.get(url).content 10c=pd.read_csv(io.StringIO(s.decode('utf-8'))) 11 12test_data_with_labels = c 13test_data = pd.read_csv('test.csv') 14 15#enumerate関数は、リストの要素インデックスと要素を同時に取り出すことができる。 16 17#訓練データのnameに空白がある場合、 18#reモジュールは、正規表現を扱うモジュール。 19#sub関数は文字列を置換する。第一引数には「この文字列に置き換えたい」という文字列を、第二引数には検索対象の文字列を渡します。戻り値は置換後の文字列全体。 20for i, name in enumerate(test_data_with_labels['name']): 21 if '"' in name: 22 #置換後の文字列 = re.sub(正規表現, 置換する文字列, 置換される文字列 [, 置換回数]) 23 test_data_with_labels['name'][i] = re.sub('"', '', name) 24 25for i, name in enumerate(test_data['Name']): 26 if '"' in name: 27 test_data['Name'][i] = re.sub('"', '', name) 28 29survived = [] 30 31#配列に要素を追加する 32for name in test_data['Name']: 33 survived.append(int(test_data_with_labels.loc[test_data_with_labels['name'] == name]['survived'].values[-1])) 34 35submission = pd.read_csv('gender_submission.csv') 36submission['Survived'] = survived 37submission.to_csv('submission.csv', index=False)
回答1件
あなたの回答
tips
プレビュー