スポーツ選手のデータをPythonでスクレイピング

ウェブサイト上のプロ野球選手の情報をスクレイピングしていて２つの壁にぶち当たっています。

(1) ②で生成した「年（year)」を③で作ったデータフレームの中にカラムとして入れるには？
yearを使って生成したurlは③で追加出来たのですが、②で作ったyearを入れることが出来ません。
URLをスライスして取るわけではなく、②で使っているyearの変数をそのまま③でも入れることは可能ですか？

(2) カラム名の入った行を入れないためには？
なぜか、生成したデータにカラム名の入った行が２つ入ってきます。
試行錯誤してみたのですが、どの段階で入り込んでいるのかがよくわかりません。

python
1import numpy
2import pandas as pd
3import matplotlib.pylab as plt
4import csv
5import pprint
6
7
8#①urlをリスト形式で取得
9df_all = []
10years = range(19,8,-1)
11urls = []
12
13#②URLを生成
14for year in years:
15    if(year==19):
16        urls.append('http://baseball-data.com/stats/pitcher-all/era-1.html')
17    else:
18        urls.append('http://baseball-data.com/'+ "{0:02d}".format(year)+'/stats/pitcher-all/era-1.html')
19
20#③データをURLから取得
21for url in urls:
22    print('取得URL：'+url)
23    df = pd.read_html(url, index_col=None, skiprows=0, header=0)[0]
24    df['url'] = url
25    df_all.append(df)
26    
27#④選手IDの作成
28name_list = []
29dic = {}
30for i in range(len(df_all)):
31    name_list.extend(df_all[i]['選手名'])
32name_list = list(set(name_list))
33for i,name in enumerate(name_list):
34    dic[name] = i
35    
36#⑤選手IDの付与
37for i in range(len(df_all)):
38    df_all[i]['ID'] = -1
39    for j in range(len(df_all[i])):
40        df_all[i].loc[j,'ID'] = dic[df_all[i].loc[j,'選手名']]
41    df_all[i].index = df_all[i]['ID']
42    df_all[i] = df_all[i].drop('ID',axis=1)
43    
44#⑥index被りを除去
45for i in range(len(df_all)):
46    doubled_index = []
47    count = df_all[i].index.value_counts()
48    for j in count.index:
49        if(count.loc[j]>1):
50            doubled_index.append(j)
51    df_all[i] = df_all[i].drop(doubled_index)
52
53#⑦df化
54output = pd.concat(df_all,axis=0)
55output

行動規範の内容に同意します

回答1件

ベストアンサー

(1) ②で生成した「年（year)」を③で作ったデータフレームの中にカラムとして入れるには？

url列を追加している方法と全く同じ方法でよいのではないでしょうか

Python
1#③データをURLから取得
2for url, year in zip(urls, years): #<- yearsも一緒にループを回す
3    print('取得URL：'+url)
4    df = pd.read_html(url, index_col=None, skiprows=0, header=0)[0]
5    df['url'] = url
6    df['year'] = year # <- 追加
7    df_all.append(df)