質問編集履歴

追記を追加

2019/09/08 19:45

投稿

tyobit

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -34,7 +34,7 @@
 <b>→<i>の場合
 [2]あいうえお[/2]
 <i>→<b>の場合
-[2][1]あいうえお[/1][2]
+[2][1]あいうえお[/1][/2]
 ```
 現在、解決方法を探し始めた状態での質問になります。
@@ -76,4 +76,24 @@
             list_check(contents_check,contents_list.contents,tag) #子の要素にタグがある場合、もう一周
 ```
 この場合、2周目のcontentsのクラスがbs4.element.Tagのためfind_allが使えなかった
-また、find_allだと"<b><i>あいうえお</i></b>"に対して、[<b><i>あいうえお</i></b>,<i>あいうえお</i>]と同一のテキストを複数回抽出してしまう
+また、find_allだと"<b><i>あいうえお</i></b>"に対して、[<b><i>あいうえお</i></b>,<i>あいうえお</i>]と同一のテキストを複数回抽出してしまう
+追記3--
+```python
+while 1: #子要素がなくなるまでひたすら繰り返す
+        j=0 #ループ抜け用
+        for tag in tag_list: #スコア対象のタグについて一つずつ確認
+            for contents in soup.find_all(tag):
+                i=0 #子要素があるか確認
+                for content in contents.contents:
+                    if content.name != None:
+                        i+=1
+                        j+=1
+                if i==0: #子要素がなかったら該当スコアをタグ形式で付与
+　　　　　　　　　　　#タグごとのスコア決めは省略
+                    contents.string = start + contents.string + end
+                    contents.unwrap() #スコアを付与したらタグを外す
+        if j==0: break
+```
+これによって"<b><i>あいうえお</i></b>"に対して"[2][1]あいうえお[/1][/2]"と出力できるようになった
+次は"[2][1]あいうえお[/1][/2]"を"[3]あいうえお[/3]"とまとめたい

192 317 356 1205

追記を追加

2019/09/08 19:45

投稿

tyobit

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -48,4 +48,32 @@
         text.string = start + text.string + end
         #startとendはタグの種類によって変わる
 ```
-としてみたが結果は同じだった
+としてみたが結果は同じだった
+追記2--
+```python
+def list_check(f,L,tag): #listでなかったら関数に投げる
+    if isinstance(L,list):
+        if L == []:
+            return []
+        else:
+            return [list_check(f,L[0],tag)] + list_check(f,L[1:],tag)
+    else:
+        return f(L,tag)
+def contents_check(contents,tag): #
+    for contents_list in contents.find_all(tag):　#スコア対象のタグ一覧から該当するものを探す
+        tag_num=0
+        for content in contents_list.contents: #子の要素にタグがあるか確認
+            if content.name != None:
+                tag_num = 1
+        if tag_num == 0: #子にタグがなかったら（入れ子の一番内側）
+            """
+            タグごとのスコア決めは省略
+            """
+            contents_list.replace_with(start + contents_list.string + end) #点数で挟む[1]~~~[/1]など
+        else:
+            list_check(contents_check,contents_list.contents,tag) #子の要素にタグがある場合、もう一周
+```
+この場合、2周目のcontentsのクラスがbs4.element.Tagのためfind_allが使えなかった
+また、find_allだと"<b><i>あいうえお</i></b>"に対して、[<b><i>あいうえお</i></b>,<i>あいうえお</i>]と同一のテキストを複数回抽出してしまう

192 317 356 1205

追記を追加

2019/09/08 18:38

投稿

tyobit

スコア17

title CHANGED Viewed

File without changes

body CHANGED Viewed

@@ -39,4 +39,13 @@
 現在、解決方法を探し始めた状態での質問になります。
 新しい方法が見つかり次第、質問内容を更新していきます。
-アドバイスのほどよろしくお願いします。
+アドバイスのほどよろしくお願いします。
+追記--
+```python
+find = soup.find_all(tag)
+    for text in find:
+        text.string = start + text.string + end
+        #startとendはタグの種類によって変わる
+```
+としてみたが結果は同じだった

192 317 356 1205