Python3　データフレームの文字列をif文で値に変更する

Question

###前提・実現したいこと
UCI Machine Learingのサンプルデータ「Adult Data Set」データの前処理をしています。
（https://archive.ics.uci.edu/ml/datasets/adult）
データをデータフレームにして、目的変数「income_class」の値を
「<=50K」であれば「0」、「>50K」であれば「1」にしたいのですが
うまくいきません。
どこか間違っているかご教示ください。

###発生している問題・エラーメッセージ

データフレームの値を見て、if文で値に変換する関数を定義し、
applyでデータフレームに適用したのですが、うまく読めず、全て
例外（else:）として処理されます。

###該当のソースコード
#データ読み込み
df = pd.read_csv('adult.data', sep=',',header = None)
#列名の変更
df.columns = ['age','workclass','fnlwgt','education','education-num','marital-status','occupation','relationship','race','sex','capital-gain','capital-loss','hours-per-week','native-country','income_class']
#目的変数の取り出し
adults_target = df.income_class
#目的変数をデータフレーム化
adults_target = DataFrame(adults_target)

def incom(a):
    '''文字を受け取って、値を返す'''
    if a == '<=50K':
        return 0
    else:
        return 1

adults_target['income_class'] = adults_target['income_class'].apply(incom)


###補足情報(言語/FW/ツール等のバージョンなど)
言語はpython3です。

Accepted Answer

質問のコードが動作しない原因ですが、使用しているCSVデータ( [https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data](https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data) ) の形式が ``39, State-gov, 77516, Bachelors, 13, Never-married, Adm-clerical, Not-in-family, White, Male, 2174, 0, 40, United-States, <=50K`` のようにデータとデータの間のセパレータが **", "** とスペースが挿入されているのが原因と考えられます。その結果、今回使用するデータである　**income_class** Column の値は **' <=50K'** or **' >50K'** と頭にスペースが挿入された文字列になっている為、条件文がマッチしません。一方 wakumeさんの方法は、 ``read_csv()`` の引数に ``delimiter=r"\s+"`` が追加されており、**"１つ以上のスペース文字"** をセパレータにしているため、**[income_class]** Column の値が **'<=50K'** or **'>50K'** となり、条件文がうまく動作します。ただこの方法では、他のデータの語尾に `,` が挿入されることになります。その為、本来数値型で読み込む必用がある "[arg]" Column などの値が全て文字列型になってしまいますので個人的にはお勧めしません。ちなみに、リンク先のページでは、[こちらのデータ](https://gist.github.com/yanhan/355fb068eb5089b4de78b8de326e6358)を使用しているようで、そもそも`,` が削除されたデータ形式となっておりますので、この形式のデータを使用しているのであれば、問題はありません。ということで、今回は素直に ``delimiter=", "`` を使って ``df = pd.read_csv("adult.data", header=None, delimiter=r", ", engine='python')`` としてデータを読み込むのが良いのではないでしょうか

Answer

対応方法と原因はすでに回答あるとおりですが、[skipinitialspace](https://docs.python.jp/3/library/csv.html#csv.Dialect.skipinitialspace)に`True`を指定することで、区切り文字に続く空白を除いて読み込むことができます。
参考：[Pythonでコンマの後に空白があるcsvを読むときは注意](https://note.nkmk.me/python-csv-skipinitialspace/)
```Python
df = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', sep=',',header = None, skipinitialspace=True)
df.iloc[:,14] = df.iloc[:,14].map({"<=50K": 0, ">50K": 1})
print(df.iloc[:,14].head(10))
```

Answer

```python
import pandas as pd
from pprint import pprint

df = pd.read_csv("adult.data", header=None, delimiter=r"\s+", )
df.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num',
				  'marital-status', 'occupation', 'relationship', 'race',
				  'sex', 'capital-gain', 'capital-loss', 'hours-per-week',
				  'native-country', 'income_class']

df["income_class"] = df["income_class"].map({"<=50K": 0, ">50K": 1})
pprint(df["income_class"].head(10))
"""
0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    1
8    1
9    1
Name: income_class, dtype: int64

"""
```

[Analysis of the Adult data set from UCI Machine Learning Repository](http://blog.pangyanhan.com/posts/2017-02-15-analysis-of-the-adult-data-set-from-uci-machine-learning-repository.ipynb.html)