質問編集履歴

コードの改正

2022/10/28 10:25

投稿

Lia

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -19,39 +19,70 @@
 ### 発生している問題・エラーメッセージ
+大変恐縮なのですがフィルマークスの構造が複雑で自分には難しく、初心者なのでアドバイスをいただけたら幸いです。qiitaなどのネットで調べてみたのですがいまいちピンときたものがなく行き詰まっています。
+①タイトルに関して
+<span>のみ、という指定をしていないので下の<small>の部分も入っています。
-大変恐縮なのですがフィルマークスの構造が複雑で自分には難しく、7つのうち１つも取得できていない状態です。よって、コードも完成できてなく少し丸投げになってしまうかもしれないのですが、アドバイスのほどよろしくお願いいたします。qiitaなどのネットで調べてみたのですがいまいちピンときたものがなく行き詰まっています。
+title = player_infos = soup.find("h2", class_="p-content-detail__title")の変数をどのようにすれば<span>のみのタイトルを取得することができるのでしょうか。
-例えばタイトルを取得するとき、https://filmarks.com/movies/76158
-の開発ページを開くと
-<div class = "p-content-detail__main">の下の
-<h2 class = "p-content-detail__title">の下にある
+②「上映時間」では「p-content-detail__other-info-title」が３つあり、その最後のところに記載されている構造となっています。３つめ、というのはどんな指定をすれば取得できるのでしょうか。
-<span>の中にあります。これはどのように指定するのでしょうか。
+③ジャンルに関して
+p-content-detail__genre-titleの下の「ul」の下の「li」に入っています。どのように階層をたどればいいのでしょうか。
+④観た数、保存数
+こちらもclassの名前が同じでしたのでどうやって分けるかが分かりませんでした。
+<a rel="nofollow" href="/login">
+<span class="c-content__count">110732</span></a>
+という構造になっていて、ログインしなくても数値は見えますが、スクレイピングする際はログインするコードも書かなければ、情報を取得できないのでしょうか。出力結果に書いてある通り{{ viewingMarkCount }}となってしまいました。
+以上、４つと、これをcsvファイルに渡すことを目指しております。
+アドバイスのほどよろしくお願いいたします。
 ### 該当のソースコード
 ```python
 import pandas as pd # data analysis
 import requests # get url
 from bs4 import BeautifulSoup
-import matplotlib.pyplot as plt
-import datetime
-import time
 URL = "https://filmarks.com/movies/76158"
 html = requests.get(URL)  # HTMLを取ってくる
 soup = BeautifulSoup(html.content, "html.parser")  # HTMLを解析する
-title = player_infos = soup.find("h2", class_="p-content-detail__title")
+title = soup.find("h2", class_="p-content-detail__title").text
+day =  soup.find("h3", class_="p-content-detail__other-info-title").text
+#classが同じ名前だから指定できない、３つめのclassが上映時間となっている
+time =  soup.find("h3", class_="p-content-detail__other-info-title").text
+score =  soup.find("div", class_="c-rating__score").text
+#これも2つ同じ名前
+#左側
+look =  soup.find("span", class_="c-content__count").text
+#右側
+save =  soup.find("span", class_="c-content__count").text
 print(title)
+print(zyouei)
+print(time)
+print(score)
+print(look)
+print(save)
 ```
 ### 出力結果
-<h2 class="p-content-detail__title"><span>スパイダーマン：ファー・フロム・ホーム</span><small>（<a href="/list/year/2010s/2019">2019年</a>製作の映画）</small></h2>
+スパイダーマン：ファー・フロム・ホーム（2019年製作の映画）
+上映日：2019年06月28日
+上映日：2019年06月28日
+4.1
+{{ viewingMarkCount }}
+{{ viewingMarkCount }}
-<span>のみ、という指定をしていないので下の<small>の部分も入っています。
-title = player_infos = soup.find("h2", class_="p-content-detail__title")の変数をどのようにすれば<span>のみのタイトルを取得することができるのでしょうか。
 またこちらのにも質問をしています。
 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12270197322

スクレイピング Jupyter Webサイト Python

URLを追加

2022/10/28 09:16

投稿

Lia

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -52,3 +52,6 @@
 <span>のみ、という指定をしていないので下の<small>の部分も入っています。
 title = player_infos = soup.find("h2", class_="p-content-detail__title")の変数をどのようにすれば<span>のみのタイトルを取得することができるのでしょうか。
+またこちらのにも質問をしています。
+https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q12270197322

スクレイピング Jupyter Webサイト Python

コードの変更

2022/10/28 08:40

投稿

Lia

スコア9

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -31,16 +31,24 @@
 ### 該当のソースコード
 ```python
-from datetime import datetime
+import pandas as pd # data analysis
+import requests # get url
 from bs4 import BeautifulSoup
+import matplotlib.pyplot as plt
-import requests
+import datetime
+import time
-r=requests.get('https://filmarks.com/movies/76158')
+URL = "https://filmarks.com/movies/76158"
-soup=BeautifulSoup(r.text,'html.parser')
-list=[]  #各記事の情報を格納するためのリスト
+html = requests.get(URL)  # HTMLを取ってくる
+soup = BeautifulSoup(html.content, "html.parser")  # HTMLを解析する
+title = player_infos = soup.find("h2", class_="p-content-detail__title")
-#この下にきっと変数を指定していく,,,,
+print(title)
 ```
+### 出力結果
+<h2 class="p-content-detail__title"><span>スパイダーマン：ファー・フロム・ホーム</span><small>（<a href="/list/year/2010s/2019">2019年</a>製作の映画）</small></h2>
+<span>のみ、という指定をしていないので下の<small>の部分も入っています。
+title = player_infos = soup.find("h2", class_="p-content-detail__title")の変数をどのようにすれば<span>のみのタイトルを取得することができるのでしょうか。

スクレイピング Jupyter Webサイト Python