前提・実現したいこと
pythonのライブラリを使って、webスクレイピングで、司法書士の会員名簿を作ろうとしており、リストをcsvに落とすことまではできましたが、それを上手く整形することに躓いています。
発生している問題・エラーメッセージ
実際にリストを作成することはできたのですが、下記のことを解決したいです。
①列の幅の調整や、改行文字の分割。具体的には、氏名欄の氏名とフリガナの分割、事務所所在地欄の住所と電話番号の分割。
②数ページにまたがっているものをforループを回して、全頁取得する方法。私が書いた方法だと、1ページづつ取る必要があります。
③1行目の空白行の削除。
書いたコードは、下記のコードをご確認ください。
該当のソースコード
import csv
import requests
import urllib.request
from bs4 import BeautifulSoup
import pandas as pd
urls = ["http://kensaku.shiho-shoshi.or.jp/search/member.php?search_code=01&search_name=&search_address=&x=140&y=16&pageID=1"]
for url in urls:
html = urllib.request.urlopen(url)
bsObj = BeautifulSoup(html, "html.parser")
table = bsObj.findAll("table", {"id":"kojin"})[0]
tables = table.findAll("tr")
print(tables)
with open("札幌司法書士会リスト.csv", "a", encoding='utf-8_sig',newline='') as file:
writer = csv.writer(file)
for row in tables:
csvRow = []
for cell in row.findAll(['td', 'th']):
csvRow.append(cell.get_text())
writer.writerow(csvRow)
df = pd.DataFrame()
pd.read_csv("札幌司法書士会リスト.csv")
補足情報
非エンジニアですが、独学でpythonを学んでいます。まったくの初心者のため、質問の内容も的を射てないところもありますが、
何卒ご指導のほどよろしくお願いいたします。
-
気になる質問をクリップする
クリップした質問は、後からいつでもマイページで確認できます。
またクリップした質問に回答があった際、通知やメールを受け取ることができます。
クリップを取り消します
-
良い質問の評価を上げる
以下のような質問は評価を上げましょう
- 質問内容が明確
- 自分も答えを知りたい
- 質問者以外のユーザにも役立つ
評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。
質問の評価を上げたことを取り消します
-
評価を下げられる数の上限に達しました
評価を下げることができません
- 1日5回まで評価を下げられます
- 1日に1ユーザに対して2回まで評価を下げられます
質問の評価を下げる
teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。
- プログラミングに関係のない質問
- やってほしいことだけを記載した丸投げの質問
- 問題・課題が含まれていない質問
- 意図的に内容が抹消された質問
- 過去に投稿した質問と同じ内容の質問
- 広告と受け取られるような投稿
評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。
質問の評価を下げたことを取り消します
この機能は開放されていません
評価を下げる条件を満たしてません
質問の評価を下げる機能の利用条件
この機能を利用するためには、以下の事項を行う必要があります。
- 質問回答など一定の行動
-
メールアドレスの認証
メールアドレスの認証
-
質問評価に関するヘルプページの閲覧
質問評価に関するヘルプページの閲覧
checkベストアンサー
0
テーブルデータのスクレイピングであれば、pandas.read_html() を使ったほうが圧倒的に楽です。read_html() はページ内のテーブルを DataFrame として返す関数です。
そうすれば、住所と電話番号を分けるなどの後処理は pandas の機能でできます。
①列の幅の調整や、改行文字の分割。具体的には、氏名欄の氏名とフリガナの分割、事務所所在地欄の住所と電話番号の分割。
それらを区切る文字列に注目して、Series.str.split() で分割する。
②数ページにまたがっているものをforループを回して、全頁取得する方法。私が書いた方法だと、1ページづつ取る必要があります。
サイトを観察すると、ページが変わると URL の pageID=<ページ>
が変化することに気づくので、そこを for で変化させながら、1ページずつ取得する。
③1行目の空白行の削除。
DataFrame の1行目を df = df.iloc[1:]
で除く
サンプルコード
import pandas as pd
import time
url_tmpl = r"http://kensaku.shiho-shoshi.or.jp/search/member.php?search_code=01&search_name=&search_address=&x=140&y=16&pageID={}"
max_pages = 3 # 適宜変更してください
dfs = []
for page_no in range(1, max_pages + 1):
url = url_tmpl.format(page_no)
print(f"fetching... {url}")
# ページを取得する。
(df,) = pd.read_html(url)
# 1行目の空白行無視
df = df.iloc[1:]
# スリープ
time.sleep(1)
dfs.append(df)
df = pd.concat(dfs)
# "名前 フリガナ" となっているため、" " で分割して、列を分ける。
df[["氏名", "フリガナ"]] = df["氏名"].str.split(" ", expand=True)
# "事務所所在地 TEL : 電話番号" となっているため、" TEL : " で分割して、列を分ける。
df[["事務所所在地", "電話番号"]] = df["事務所所在地"].str.split(" TEL : ", expand=True)
df.to_csv("output.csv")
投稿
-
回答の評価を上げる
以下のような回答は評価を上げましょう
- 正しい回答
- わかりやすい回答
- ためになる回答
評価が高い回答ほどページの上位に表示されます。
-
回答の評価を下げる
下記のような回答は推奨されていません。
- 間違っている回答
- 質問の回答になっていない投稿
- スパムや攻撃的な表現を用いた投稿
評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。
15分調べてもわからないことは、teratailで質問しよう!
- ただいまの回答率 88.33%
- 質問をまとめることで、思考を整理して素早く解決
- テンプレート機能で、簡単に質問をまとめられる
質問への追記・修正、ベストアンサー選択の依頼
tiitoi
2020/09/02 00:28 編集
インデントが崩れてしまうため、コードは質問編集画面の「コードの挿入」ボタンを押して出てくるコードと書かれている中に入れてください。
```ここに言語を入力
コード
```
kakugen
2020/09/02 00:41
ありがとうございました。
修正しました。