HTMLの一部からの文字列の要素抽出を教えていただけると助かります

#利用環境
python2.7.10です。
文字列の抽出で困っています。お知恵をお貸しいただければ助かります。よろしくお願いします。

#行いたい事
次のようなHTMLを抽出するところまではできました、
x = u"<span>あいうえお</span> (1/かきく/さしす/たちつ)</div>"

ここからa1~a4の変数に()の中のものをそれぞれ抽出したいのです。
a1 = 1
a2 = かきく
a3 = さしす
a4 = たちつ

ただ、replace("<span>あいうえお</span> (","")の方法と、「右から何文字目を取り除く」などの処理では汎用性を失うので、実行できないという縛りがあります。

#試したこと
x.split("(")と区切って前半部分を消そうとしたところ、エラーがでてしまいました。区切る目印になるものが( と / になるため、先に(で区切って/で区切って辞書型データになおしたいと思うのですが・・・思いつきません・・・お知恵お貸しいただければ、大変助かります。よろしくお願いします。

coco_bauer

2016/10/19 08:13

汎用性のある要素抽出の条件を書いてください。要は、何がしたいのかが判らないのです。

bin_300K

2016/10/19 08:40

わかりにくくて、すみません、もう少しわかりやすくできるように努力して書いてみますと、u"…(……)‥…"の文字列を”(”で区切る方法が知りたいということです、伝わりにくいかもしれません・・・すみません・・・

ikedas

2016/10/19 09:15 編集

HTMLの文書の中身は、「要素」(<……>の部分。いわゆる「タグ」) と「テキスト」(「タグ」でない部分) に分かれます。bin_300Kさんが知りたいことは、次の通りで正しいでしょうか: 「HTMLの文書に含まれる『テキスト』の中に "…(……)‥…" という文字列があったら、括弧で囲まれている箇所のみを抽出し、さらに括弧の内容を ”/" で分割し、最初から順に変数に代入する」。

bin_300K

2016/10/19 14:21

nfnofaceさんの回答で解決できました。ご協力いただき感謝いたします。ありがとうございました^^

行動規範の内容に同意します

回答1件

ベストアンサー

勘違いがあるかもしれませんが、このようなことでしょうか

python
1# -*- coding: utf-8 -*-
2x = u"<span>あいうえお</span> (1/かきく/さしす/たちつ)</div>"
3
4x = x.split("(", 1)[-1]
5x = x.split(")", 1)[0]
6
7a1, a2, a3, a4 = x.split("/")
8print a1
9print a2
10print a3
11print a4