WEBスクレイピング　作成したpythonコードの見直しをしたい

Question

### 実現したいこと・問題点など

python始めて1ヶ月足らずの超初心者です。
初めて質問で分かりにくい文章かもしれませんが
何卒、よろしくお願いいたします。

現在、dmm.ぱちタウンから試作で特定のパチンコホールの基本情報と機種情報をWEBスクレイピングしていますが、
取得データが意図した結果になっていませんでした。

どなたかご教授の程よろしくお願いいたします。

### 発生している問題・エラーメッセージ
①基本情報
　・マップコード、遊技金額に変な改行が入っている。
　・新台と店休日の間に改行が入っている。
②機種情報
　・機種名は、URLリンク情報から取得しているが、URLリンクがない機種があるためそれらの機種情報も取得したい。
　・親エレメントを見つけてパチンコ、スロットの区別がつくようにスクレイピングしたい。
　・機種ID　機種名　台数の並びにしたい。

上記問題を解決できればと思いネット情報を検索していますが、超初心者のため躓いている状況です。

### 該当のソースコード

python3
ソースコード
#①基本情報
`python3`
```
import requests
from bs4 import BeautifulSoup
import re

if __name__ == "__main__":
 
    url = 'https://p-town.dmm.com/shops/tokyo/12670'
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'lxml')

    selector = 'body > div.o-layout > div > div.o-container > main > div:nth-child(2) > div > table'
    
    for table in soup.select(selector + ' th, td'):
        if table.attrs.get('class')[0] == 'th':
            th_text = table.getText()
        elif table.attrs.get('class')[0] == 'td':
            if table.find('p') is not None:
                td_text = table.p.getText()
            else:
                td_text = table.getText()
            print(th_text + ':' + td_text)
```

#②機種情報
`python3`
```
import re
import requests
from bs4 import BeautifulSoup

if __name__ == "__main__":

    url = 'https://p-town.dmm.com/shops/aomori/1639'
    r = requests.get(url)
    soup = BeautifulSoup(r.text, 'lxml')

    items = soup.find_all("a", href=re.compile(r"/machines/\d+"), class_='link')
    for item in items:
        number = item.parent.next_sibling.next_element
        print('{0:>4} {1:>4} {2}'.format(item.attrs.get('href')[10:], number.text, item.text))
```
### 試したこと
上記問題を解決できればと思いネット情報を検索していますが、超初心者のため躓いている状況です。
### 補足情報（FW/ツールのバージョンなど）

ここにより詳細な情報を記載してください。

Accepted Answer

> ①基本情報
> ・マップコード、遊技金額に変な改行が入っている。
> ・新台と店休日の間に改行が入っている。

HTML は汚いコードであることがほとんどであり、機械が読みやすいように作られていないため、必要な情報を取得するには、いらない文字を消したりするなど泥臭い処理をいろいろ書く必要があります。

```python
import re

import requests
from bs4 import BeautifulSoup

url = 'https://p-town.dmm.com/shops/tokyo/12670'
r = requests.get(url)
soup = BeautifulSoup(r.content, 'lxml')

data = {}
for tr in soup.select('table[class="default-table"] tr'):
    name = tr.th.text
    
    if name == '住所':
        value = tr.p.get_text(strip=True)
    elif name == '新台':
        items = [a.text.replace(' ', '') for a in tr.find_all('p')]
        value = ''.join(items)
    else:
        value = tr.get_text(strip=True)
    # 不要な文字削除
    value = re.sub('[\u3000
]', '', value)
    data[name] = value

from pprint import pprint
pprint(data)

```

```
{'アクセス': 'アクセス-',
 'マップコード': 'マップコード5 131 615*12「マップコード」および「MAPCODE」は㈱デンソーの登録商標です。',
 'ルール詳細': 'ルール詳細抽選参加希望の方は9：30まで１階駐車場内に集合して下さい！',
 '住所': '東京都国分寺市東恋ケ窪5-6-3 東恋ケ窪SC1階・2階',
 '入場ルール': '入場ルール抽選',
 '台数': '台数パチンコ584台/スロット666台',
 '営業時間': '営業時間10:00～23:00',
 '定休日': '定休日無休',
 '整理券': '整理券--',
 '新台': '[4]パチヱヴァンゲリヲン～超暴走～[4]パチＰＦアクエリオンＷ最終決戦ｖｅｒ．',
 '特徴': '特徴大型無料駐車場616台、駐輪場769台、自動二輪駐車場103台完備',
 '遊技金額': '遊技金額4パチ:384台 1.25パチ:200台5スロ:102台 21.277スロ:564台',
 '電話番号': '電話番号042-320-4166',
 '駐車台数': '駐車台数616台'}
```

> ②機種情報
> ・機種名は、URLリンク情報から取得しているが、URLリンクがない機種がある> ためそれらの機種情報も取得したい。
> ・親エレメントを見つけてパチンコ、スロットの区別がつくようにスクレイピン> グしたい。
> ・機種ID　機種名　台数の並びにしたい。

```python
from urllib.parse import urljoin
base_url = 'https://p-town.dmm.com'

data = {}
for ul in soup.select('ul[class="list-machinesettings"]'):
    machine_type = 'パチ'
    if 'パチ' in ul.h4.text:
        machine_type = 'パチ'
    elif 'スロ' in ul.h4.text:
        machine_type = 'スロ'
    
    machines = []
    for li in ul.select('li[class="item"]'):
        name = li.select_one('div[class="text"]').get_text(strip=True)
        num = li.select_one('div[class="number"]').get_text(strip=True)
        link = urljoin(base_url, li.a['href']) if li.a else None
        machines.append([name, num, link])
    data[machine_type] = machines

pprint(data)
```

```
{'スロ': [['Re:ゼロから始める異世界生活', '6台', 'https://p-town.dmm.com/machines/3365'],
        ['アナザーハナビ弥生ちゃん', '2台', 'https://p-town.dmm.com/machines/3353'],
        ['マイジャグラーⅢ', '50台', 'https://p-town.dmm.com/machines/2180'],
        ['ミリオンゴッド-神々の凱旋-', '42台', 'https://p-town.dmm.com/machines/2102'],
        ['押忍！番長3', '28台', 'https://p-town.dmm.com/machines/2814'],
        ['ニューアイムジャグラーEXーKT', '26台', 'https://p-town.dmm.com/machines/1858'],
        ['パチスロディスクアップ', '25台', 'https://p-town.dmm.com/machines/3148'],
        ['バジリスク～甲賀忍法帖～絆', '19台', 'https://p-town.dmm.com/machines/1395'],
        ['HEY！鏡', '16台', 'https://p-town.dmm.com/machines/3249'],
...

'パチ': [['ＰＦアクエリオンＷ最終決戦ｖｅｒ．', '8台', None],
        ['ヱヴァンゲリヲン～超暴走～', '8台', 'https://p-town.dmm.com/machines/3385'],
        ['PA設定付牙狼GOLDSTORM翔RH', '4台', 'https://p-town.dmm.com/machines/3368'],
        ['ぱちんこCRあしたのジョー（2019年）', '3台', 'https://p-town.dmm.com/machines/3355'],
        ['P リング呪縛RUSH FEX 設定付', '2台', 'https://p-town.dmm.com/machines/3371'],
```