質問編集履歴
3
listとnumpy配列の違い追記
test
CHANGED
File without changes
|
test
CHANGED
@@ -263,3 +263,9 @@
|
|
263
263
|
**NumPy配列 (N-dimensional array/ndarray) **は同じ型&サイズの項目で構成する固定長の多次元コンテナ。
|
264
264
|
|
265
265
|
参考サイト: [The N-dimensional array (ndarray)](https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html)
|
266
|
+
|
267
|
+
|
268
|
+
|
269
|
+
## listとnumpy配列の違い
|
270
|
+
|
271
|
+
[この質問&回答](https://teratail.com/questions/73677)を参照。
|
2
list、データフレーム、numpy配列などの使い分け
test
CHANGED
File without changes
|
test
CHANGED
@@ -235,3 +235,31 @@
|
|
235
235
|
data1_dummy.head()
|
236
236
|
|
237
237
|
```
|
238
|
+
|
239
|
+
|
240
|
+
|
241
|
+
# list、データフレーム、numpy配列などの使い分け
|
242
|
+
|
243
|
+
**Pythonの組込関数であるリスト([オブジェクト1, オブジェクト2, ...])**は、要素としてあらゆるオブジェクトを持つことが可能。
|
244
|
+
|
245
|
+
→複数のオブジェクトをまとめて管理。
|
246
|
+
|
247
|
+
参考サイト: [リストオブジェクト -PythonWeb](https://www.pythonweb.jp/tutorial/list/index1.html)
|
248
|
+
|
249
|
+
|
250
|
+
|
251
|
+
|
252
|
+
|
253
|
+
**Pandasのデータを格納するオブジェクトDataFrame**は、二次元配列に相当する。Seriesをラベリングしてディクショナリのように寄せ集めるとDataFrameになる。行と列のある表みたいな感じ。
|
254
|
+
|
255
|
+
DataFrameオブジェクトのdata部分を指定するには、NumPyの配列・Seriesを含む辞書などが使える。データ部分の指定方法は多岐にわたる。
|
256
|
+
|
257
|
+
ちなみに一次元配列はSeries。
|
258
|
+
|
259
|
+
参考サイト:[Pandasのデータを格納するオブジェクトDataFrameを理解する -DeepAge](https://deepage.net/features/pandas-dataframe.html)
|
260
|
+
|
261
|
+
|
262
|
+
|
263
|
+
**NumPy配列 (N-dimensional array/ndarray) **は同じ型&サイズの項目で構成する固定長の多次元コンテナ。
|
264
|
+
|
265
|
+
参考サイト: [The N-dimensional array (ndarray)](https://docs.scipy.org/doc/numpy/reference/arrays.ndarray.html)
|
1
# Target = ['Survived'] としているコード周辺
test
CHANGED
File without changes
|
test
CHANGED
@@ -175,3 +175,63 @@
|
|
175
175
|
C:\Users\ayumusato\Anaconda3\lib\site-packages\ipykernel_launcher.py:56: DataConversionWarning: A column-vector y was passed when a 1d array was expected. Please change the shape of y to (n_samples,), for example using ravel().
|
176
176
|
|
177
177
|
```
|
178
|
+
|
179
|
+
|
180
|
+
|
181
|
+
# Target = ['Survived'] としているコード周辺
|
182
|
+
|
183
|
+
|
184
|
+
|
185
|
+
```python
|
186
|
+
|
187
|
+
label = LabelEncoder()
|
188
|
+
|
189
|
+
for dataset in data_cleaner:
|
190
|
+
|
191
|
+
dataset['Sex_Code'] = label.fit_transform(dataset['Sex'])
|
192
|
+
|
193
|
+
dataset['Embarked_Code'] = label.fit_transform(dataset['Embarked'])
|
194
|
+
|
195
|
+
dataset['Title_Code'] = label.fit_transform(dataset['Title'])
|
196
|
+
|
197
|
+
dataset['AgeBin_Code'] = label.fit_transform(dataset['AgeBin'])
|
198
|
+
|
199
|
+
dataset['FareBin_Code'] = label.fit_transform(dataset['FareBin'])
|
200
|
+
|
201
|
+
|
202
|
+
|
203
|
+
Target = ['Survived'] #←ここ
|
204
|
+
|
205
|
+
|
206
|
+
|
207
|
+
data1_x = ['Sex', 'Pclass', 'Embarked', 'Title', 'SibSp', 'Parch', 'Age', 'Fare', 'FamilySize', 'IsAlone']
|
208
|
+
|
209
|
+
data1_x_calc = ['Sex_Code', 'Pclass', 'Embarked_Code', 'Title_Code', 'SibSp', 'Parch', 'Age', 'Fare']
|
210
|
+
|
211
|
+
data1_xy = Target + data1_x #←ここ
|
212
|
+
|
213
|
+
print('Original X Y: ', data1_xy, '\n')
|
214
|
+
|
215
|
+
|
216
|
+
|
217
|
+
data1_x_bin = ['Sex_Code', 'Pclass', 'Embarked_Code', 'Title_Code', 'FamilySize', 'AgeBin_Code', 'FareBin_Code']
|
218
|
+
|
219
|
+
data1_xy_bin = Target + data1_x_bin
|
220
|
+
|
221
|
+
print('Bin X Y: ', data1_xy_bin, '\n')
|
222
|
+
|
223
|
+
|
224
|
+
|
225
|
+
data1_dummy = pd.get_dummies(data1[data1_x])
|
226
|
+
|
227
|
+
data1_x_dummy = data1_dummy.columns.tolist()
|
228
|
+
|
229
|
+
data1_xy_dummy = Target + data1_x_dummy
|
230
|
+
|
231
|
+
print('Dummy X Y: ', data1_xy_dummy, '\n')
|
232
|
+
|
233
|
+
|
234
|
+
|
235
|
+
data1_dummy.head()
|
236
|
+
|
237
|
+
```
|