質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

88.33%

pythonのライブラリを使ったwebスクレイピングでリスト作成について

解決済

回答 1

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 266

kakugen

score 1

前提・実現したいこと

pythonのライブラリを使って、webスクレイピングで、司法書士の会員名簿を作ろうとしており、リストをcsvに落とすことまではできましたが、それを上手く整形することに躓いています。

発生している問題・エラーメッセージ

実際にリストを作成することはできたのですが、下記のことを解決したいです。

①列の幅の調整や、改行文字の分割。具体的には、氏名欄の氏名とフリガナの分割、事務所所在地欄の住所と電話番号の分割。
②数ページにまたがっているものをforループを回して、全頁取得する方法。私が書いた方法だと、1ページづつ取る必要があります。
③1行目の空白行の削除。

書いたコードは、下記のコードをご確認ください。

該当のソースコード

import csv
import requests
import urllib.request
from bs4 import BeautifulSoup
import pandas as pd
urls = ["http://kensaku.shiho-shoshi.or.jp/search/member.php?search_code=01&search_name=&search_address=&x=140&y=16&pageID=1"]

for url in urls:
  html = urllib.request.urlopen(url)
  bsObj = BeautifulSoup(html, "html.parser")
  table = bsObj.findAll("table", {"id":"kojin"})[0]
  tables = table.findAll("tr")
  print(tables)

  with open("札幌司法書士会リスト.csv", "a", encoding='utf-8_sig',newline='') as file:
    writer = csv.writer(file)
    for row in tables:
        csvRow = []
        for cell in row.findAll(['td', 'th']):
            csvRow.append(cell.get_text())
        writer.writerow(csvRow)

df = pd.DataFrame()  
pd.read_csv("札幌司法書士会リスト.csv")

補足情報

非エンジニアですが、独学でpythonを学んでいます。まったくの初心者のため、質問の内容も的を射てないところもありますが、
何卒ご指導のほどよろしくお願いいたします。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 過去に投稿した質問と同じ内容の質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

質問への追記・修正、ベストアンサー選択の依頼

  • tiitoi

    2020/09/02 00:28 編集

    インデントが崩れてしまうため、コードは質問編集画面の「コードの挿入」ボタンを押して出てくるコードと書かれている中に入れてください。

    ```ここに言語を入力
    コード
    ```

    キャンセル

  • kakugen

    2020/09/02 00:41

    ありがとうございました。
    修正しました。

    キャンセル

回答 1

checkベストアンサー

0

テーブルデータのスクレイピングであれば、pandas.read_html() を使ったほうが圧倒的に楽です。read_html() はページ内のテーブルを DataFrame として返す関数です。
そうすれば、住所と電話番号を分けるなどの後処理は pandas の機能でできます。

①列の幅の調整や、改行文字の分割。具体的には、氏名欄の氏名とフリガナの分割、事務所所在地欄の住所と電話番号の分割。

それらを区切る文字列に注目して、Series.str.split() で分割する。

②数ページにまたがっているものをforループを回して、全頁取得する方法。私が書いた方法だと、1ページづつ取る必要があります。

サイトを観察すると、ページが変わると URL の pageID=<ページ> が変化することに気づくので、そこを for で変化させながら、1ページずつ取得する。

③1行目の空白行の削除。

DataFrame の1行目を df = df.iloc[1:] で除く

サンプルコード

import pandas as pd
import time

url_tmpl = r"http://kensaku.shiho-shoshi.or.jp/search/member.php?search_code=01&search_name=&search_address=&x=140&y=16&pageID={}"
max_pages = 3  # 適宜変更してください

dfs = []
for page_no in range(1, max_pages + 1):
    url = url_tmpl.format(page_no)
    print(f"fetching... {url}")
    # ページを取得する。
    (df,) = pd.read_html(url)
    # 1行目の空白行無視
    df = df.iloc[1:]
    # スリープ
    time.sleep(1)

    dfs.append(df)

df = pd.concat(dfs)

# "名前  フリガナ" となっているため、"  " で分割して、列を分ける。
df[["氏名", "フリガナ"]] = df["氏名"].str.split("  ", expand=True)
# "事務所所在地  TEL : 電話番号" となっているため、"  TEL : " で分割して、列を分ける。
df[["事務所所在地", "電話番号"]] = df["事務所所在地"].str.split("  TEL : ", expand=True)

df.to_csv("output.csv")

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2020/09/02 12:44

    ありがとうございました。

    キャンセル

  • 2020/09/02 12:45

    ただ、データは取得できたのですが、文字化けがおきました。どこの部分を修正すれば、よろしいでしょうか?お手数かけますが、よろしくお願いいたします。

    キャンセル

  • 2020/09/02 12:56

    すいません、最後のコードに引数に文字コードを入れたら、解決できました。早く見ていただいて、助かりました。今後ともよろしくお願いいたします。

    キャンセル

  • 2020/09/02 14:18

    解決済みであれば、お手数ですが質問はクローズしていただけますか。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 88.33%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る