スクレイピングで曲名,歌手名を取得したい（test codeは正常に動作)

前提・実現したいこと

あるサイトにおいて特定の文字列を取得したい
test codeでは正常に動作していたため
どこで問題があるか知りたい,解决したい

発生している問題・エラーメッセージ

AttributeError                            Traceback (most recent call last)
<ipython-input-4-21ad6109705f> in <module>()
     30 
     31 
---> 32 s = m.group(0)
     33 print(s)
     34 

AttributeError: 'NoneType' object has no attribute 'group'

該当のソースコード

python
1import urllib.request
2#正規表現に使う
3import re
4
5
6#url = "任意のURL"
7url = "url載せるのはまずいかもしれないので避けます"
8
9res = urllib.request.urlopen(url)
10
11html = res.read().decode("utf-8")
12#ここまでがhtml抽出
13#print(html)
14
15#欲しい文字列A:曲名,欲しい文字列B:歌手名
16#パターン1
17#r = re.compile("<span id="song_artistName" class="">(欲しい文字列A)／(欲しい文字列B)</span>")
18r = re.compile('<span id="song_artistName" class="">(.*?)／(.*?)</span>')
19
20#パターン2
21#r_a= re.compile('<td class="dlg cell song"><div class="dlg">(欲しい文字列A)</div></td>') 
22#r_b = re.compile('<td class="dlg cell artist "><div class="dlg">(欲しい文字列B)</div></td>')
23
24#r_a = re.compile('<td class="dlg cell song"><div class="dlg">(.*?)</div></td>') 
25#r_b = re.compile('<td class="dlg cell artist "><div class="dlg">(.*?)</div></td>')
26
27
28m = r.search(html)
29#m = r_b.search(html)
30#m = r_a.search(html)
31
32
33s = m.group(0)
34print(s)
35
36s = re.sub("<.*?>", "", s)
37print("曲名:"+ s)
38
39
40
41"""
42f = open("test.html", "w", encoding="utf-8")
43f.write(html)
44f.close()
45print("test.htmlに書き込みました")
46"""

試したこと

test codeでは欲しい文字列は<span></span>で囲まれていたため
とりあえずパターン１のcodeから取得しようと試みました

group()が反応しないということは
m すなわちr.searchが正常に動作していないと思います

後はr.searchがダメなのかre.compileがダメなのか分かればいいのですが…
分かりません

パターン１とパターン２では同じエラーが出ました
当該のwebページではパターン2に対応する部分をクリックなどして選択したときにパターン1に対応する部分が表示されるような仕組みでした

補足情報（FW/ツールのバージョンなど）

google colaboratoryで実行しています

行動規範の内容に同意します

回答3件

質問者様は正常にページへのリクエストが出来ていると勘違いされていらっしゃるかもしれませんが
print(html)と出力した結果をよくご確認ください。
「何らかの原因によりシステムエラーが発生しました。」というエラーが出ており
正常にページ内のソースを取得出来ていないと思います。

記載されていたURLのサイトでの目的の動作を行うにはまずログインが必要になる様です。
そしてログインの際にはいわゆるトークンが必要となる様で
ログインページ内に、hidden属性が付与されたinput要素がありそちらを取得する必要があります。
しかしトークンを取得したとしても、今度はログイン時にjavascriptが使用されており
(おそらく質問者様が行われた手法で、予め手動でトークンorログイン後のURLを用意してスクレイピングする事は可能)
また、ログイン後のマイリストの編集ページでも同様にjavascriptが使用されたページとなる為
いずれにしてもそれ以上の目的を果たす方法がありません。

javascriptが使用されたページのスクレイピングを行うにはseleniumを使用しましょう。

python
1from selenium import webdriver
2from bs4 import BeautifulSoup
3import time
4
5login = ('ログインID', 'ログインパスワード')
6
7driver = webdriver.Chrome()	# お好きなドライバをご使用ください
8driver.get('https://ログインページURL/Login.do')
9
10# ログイン情報入力
11driver.find_element_by_name('id').send_keys(login[0])
12driver.find_element_by_name('password').send_keys(login[1])
13
14# ログインボタンクリック
15driver.find_element_by_id('LoginButton').click()
16time.sleep(1)
17
18# myページ遷移
19driver.get('https://マイページURL/MyPage.do')
20time.sleep(1)
21
22# myリスト遷移
23driver.find_element_by_id('bnr_mydenmoku').click()
24time.sleep(2)
25
26# マイリストから曲名とアーティスト名取得
27songs = driver.find_elements_by_xpath('//*[@id="mylist1"]/div/table/tbody//*/td[3]')
28artists = driver.find_elements_by_xpath('//*[@id="mylist1"]/div/table/tbody//*/td[4]')
29
30for song, artist in zip(songs, artists):
31	if song.text != '（未登録）':
32		print(song.text, artist.text)
33	else:
34		pass

投稿2020/10/11 05:39

nto

総合スコア1438

当該のwebページではパターン2に対応する部分をクリックなどして選択したときにパターン1に対応する部分が表示されるような仕組みでした

であるなら、あなたの提示したコード

Python
1url = "url載せるのはまずいかもしれないので避けます"
2res = urllib.request.urlopen(url)
3html = res.read().decode("utf-8")

の変数htmlの内容には、パターン1が含まれていない可能性が高い。実際の変数htmlの内容を画面に表示して確認してみるといいでしょう。

探している部分が動的に生成されているなら、この方法では取得できません。URLを示すのを避けている以上、これ以上のアドバイスは無理です。

投稿2020/10/10 23:12

Daregada

総合スコア11990

LOLOLOL

2020/10/10 23:46

回答ありがとうございますまず、取得したいWebサイトがアカウント制であることを表記していませんでした情報が不足していて申し訳ありませんそして、状況によってURLが変化することが判明しました https://www.clubdam.com/dam/app/mydenmoku/editMydenmoku.html?token=onetimeToken_loginauth_(ログインしたアカウントや時間によって変わる部分) 利用規約の禁止事項には記載されていないですがサイトではコピーが出来ないようになってるためもしかしたらダメなのかもしれません(ctrl-Aからのコピーは可能) URLからお分かりかもしれませんがカラオケサイトです

行動規範の内容に同意します

サンプルコード

Python
1import requests    # pip install requests
2import lxml.html   # pip install lxml
3
4
5url = "任意のURL"
6res  = requests.get(url)
7
8html = lxml.html.fromstring(res.content)
9#ここまでがhtml抽出
10#print(html)
11
12lists = html.xpath("//span[@id='song_artistName']")
13
14for elem in lists:
15  
16    print(elem.text)