BeautifulSoupを使ったタグの情報の取得がわからない

http://qiita.com/itkr/items/513318a9b5b92bd56185
を見ながら勉強しています。

取得したタグの情報のところ書いてある

取得したタグの属性を取得するには
soup.a.get("href")
取得したタグの中の文字を取得するには
soup.a.string
当然入れ子になっているタグを取得することもできます
soup.p.find_all("a")

のaとかpが何をあわらしているのか分かりません。

取得したタグの属性を取得するにはと書かれていて
aタグを指定しているように見えるのに、
href属性を取ってきています。

また、当然入れ子になっているタグを取得することもできますの
ところではpタグを指定しているように見えるのに、
aタグを取ってきています。

これはどういう意味なんでしょうか？

行動規範の内容に同意します

回答2件

ベストアンサー

このコメントでは↓のsoupを使った場合のイメージで解説しますね。

python
1from bs4 import BeautifulSoup
2html_data="""
3<html><head></head>
4<body>
5 <a href="http://example.com">テスト1</a></br>
6 <p>
7  <a href="http://example.net">テスト2</a></br>
8  <a href="http://example.org">テスト3</a></br>
9 </p>
10</body>"""
11
12soup = BeautifulSoup(html_data, "lxml")

のaとかpが何をあわらしているのか分かりません。

aやpはタグを表しています。

この状態で
soup.a
とすると、soupの中で最初にaタグで囲まれた箇所が取得されます。つまり、
print soup.a を実行すると、
<a href="http://example.com">テスト1</a>
が出力されます。

同様に、
soup.p
とすると、soupの中で最初にpタグで囲まれた箇所が取得されます。つまり、
print soup.p を実行すると、

<p><a href="http://example.net">テスト2</a></br><a href="http://example.org">テスト3</a></br></p> が出力されます。

更なる例として、
soup.p.a
とすると、soupの中で最初にpタグで囲まれた箇所の中で最初にaタグで囲まれた箇所が取得されます。つまり、
print soup.p.aを実行すると
<a href="http://example.net">テスト2</a>
が出力されます。

今の soup.p.a という書き方だとpタグで囲まれた箇所の中で""最初に""aタグで囲まれた箇所しか取得されないので、2番目以降を使いたい時にはfind_all関数を使用します。
soup.p.find_all("a")
とすると、pタグで囲まれた箇所の中でaタグで囲まれた箇所を""全て""リスト型で取得します。
つまり、pタグで囲まれた箇所の中で2番目のaタグで囲まれた箇所を出力したい場合には
print soup.p.find_all("a")[1]
とすればよいのです。これを実行すると
<a href="http://example.org">テスト3</a>
が出力されます。

また、タグに対してstringを指定すると、そのタグで囲まれた文字列を取得します。
つまり、
print soup.a.string を実行すると、
テスト1
が出力されます。

以上です。
いかがでしょうか？

投稿2017/03/31 16:58

TakuyaKurakado

総合スコア72

まず。この２つの書き方は一緒のことをやってます。どちらもそのHTMLの中の最初のaタグを取得します。

python
1soup.find("a")
2soup.a # find("a") を簡略化したのがこれ

find("a") で aタグを取得してそのaタグからhref属性を取得するのが下記の書き方です。

python
1soup.a.get("href") 
2
3# <a href="/hoge">test</a>
4# こういうHTMLだったら、"/hoge"が取得できます。

soup.p.find_all("a") は find("p") で pタグを取得して そのpタグ内のaタグを全て取得する という書き方です。

python
1soup.p.find_all("a") 
2
3# <p> 
4#   <a href="/hoge">test</a>   # <- これが取得
5#   <a href="/hoge2">test</a>  # <- これが取得
6# </p>
7# こういうHTMLだったら、真ん中の２つのaタグが取得できます。