[BS4] コードがきちんと書かれていない? 部分の情報をスクレイピングしたい

Question

こんにちは。 [RとKerasによるディープラーニング](https://www.oreilly.co.jp/books/9784873118574/)の以下の情報を取得したいです。 - 著者 - 発行年月 - ページ数著者とページ数は取得できたのですが、発行月の`2018年10月発行`がうまく取得できません。この部分だけほかの2つとは書き方が違うのはわかるのですが、**ではどうやれば取得できるのか**がわかりません。知恵をお貸しください(._.) **スクレイピングしたいhtml周辺** ```html

François Chollet、J. J. Allaire　著、瀬戸山雅人　監訳、長尾高弘　訳
2018年10月発行
400ページ
ISBN978-4-87311-857-4
フォーマット Print PDF
原書: Deep Learning with R

``` **現在のコード** ```python from bs4 import BeautifulSoup import requests def getpret(): r1 = requests.get("https://www.oreilly.co.jp/books/9784873118574/") r1.encoding = r1.apparent_encoding html_doc = r1.text soup = BeautifulSoup(html_doc) print(soup.find(itemprop="author").text) print(soup.find(itemprop="datePublished")) # .textとするとエラー print(soup.find(itemprop = "numberOfPages").text) getpret() ``` **現在の出力結果** ``の部分が`2018年10月発行`となるようにしたい。 ``` François Chollet、J. J. Allaire　著、瀬戸山雅人　監訳、長尾高弘　訳 400 ``` # できましたー(≧∇≦)b [hayataka2049](https://teratail.com/users/hayataka2049)様のアドバイスのおかげでできましたー(>ω<) ```python # 完成コード def getpret(): r1 = requests.get("https://www.oreilly.co.jp/books/9784873118574/") r1.encoding = r1.apparent_encoding html_doc = r1.text soup = BeautifulSoup(html_doc) print(soup.find(itemprop="author").text) print(soup.find(itemprop="datePublished")["content"]) print(soup.find(itemprop = "numberOfPages").text) getpret() ``` **もうひとつの候補** ``` print(soup.find(itemprop="author").text) print(soup.find(itemprop="datePublished").parent.text) print(soup.find(itemprop = "numberOfPages").text) ``` ちなみに上記のコードにすると出力結果が以下のようになる(._.) 何故か出力結果に改行。。。 ``` François Chollet、J. J. Allaire　著、瀬戸山雅人　監訳、長尾高弘　訳 2018年10月発行 400 ``` # 改行を消すコード改行を消すコードを[barobaro](https://teratail.com/users/barobaro)様に教えてもらいました! ありがとうございます<3 **改行を消すコード** ```python def getpret_teratail(): r1 = requests.get("https://www.oreilly.co.jp/books/9784873118574/") r1.encoding = r1.apparent_encoding html_doc = r1.text soup = BeautifulSoup(html_doc) print(soup.find(itemprop="author").text) print(soup.find(itemprop="datePublished").parent.get_text(strip=True)) print(soup.find(itemprop = "numberOfPages").text) getpret_teratail() ```

Accepted Answer

```html

2018年10月発行

``` ``の親の`li`タグのtextを取れば良いです。 ```python print(soup.find(itemprop="datePublished").parent.text) ``` あるいは、発想を転換してcontent="2018-10-12"を取ってみてはどうですか。 ```python print(soup.find(itemprop="datePublished")["content"]) ```

Answer

.textのところを.get_text(strip=True)にすると前後の空白文字が除去できます

できましたー(≧∇≦)b

改行を消すコード

関連した質問