回答編集履歴

コメントを受けて追記

2019/12/01 16:12

投稿

shirai

スコア1290

answer CHANGED Viewed

@@ -6,4 +6,74 @@
 これでそれぞれのarticle要素のテキストがa,b,c,...の場合、
 printの出力結果は　aつなげるbつなげるcつなげる ... yつなげるz　となります。
-つなぎに文字を使いたくない場合は'つなげる'を''に変えてください。
+つなぎに文字を使いたくない場合は'つなげる'を''に変えてください。
+# コメントを受けて追記
+じゃあこんな感じでどうですかね。
+```python
+content = []
+for url in urls:
+    driver.get(url)
+    content.append('つなげる'.join([article_tag.text[2:-1] for article_tag in driver.find_elements_by_class_name('wrap_box')[2].find_elements_by_tag_name('article')]))
+```
+内包表記を使わずに分かりやすく書くなら、
+```python
+content = []
+for url in urls:
+    this_page_text = ''
+    driver.get(url)
+    for article_tag in driver.find_elements_by_class_name('wrap_box')[2].find_elements_by_tag_name('article')])):
+        this_page_text += article_tag.text[2:-1]
+    content.append(this_page_text)
+```
+スライスは2:-1じゃなくて3:-2かもしれないです。
+¥nが1文字として判定されるか2文字として判定されるか
+やってみないとよく分からないです。
+---
+私は直接DOMを見ていないので推測で答えますが、
+各article配下は
+```html
+<article>
+  <p>1</p>
+  <p>テキスト</p>
+  <p></p>
+</article>
+```
+あるいは
+```html
+<article>
+1
+                テキスト
+</article>
+```
+といった具合に目的のテキスト以外に余計なものが何かしら加わっているのでないでしょうか。
+それらをまんま繋げてやると1\nテキスト\n2\nテキスト\n3\nテキストが出てきてます。
+つまり1つのarticle要素に含まれているテキストは「数字¥nテキスト¥n」の可能性が高いです。
+スライスを使ってこれらを取り除きましょう。
+ページ毎に微妙に異なったり、数字が2桁になるようでしたら、
+大人しく正規表現で取り除いてやるといいでしょう。
+以下に例を乗っけておくので考えてみてください。
+ちなみにreのsubという関数は、第3引数の文字列のうち、第1引数の正規表現に当てはまる文字列を、全て第2引数に置換する関数です。
+```python
+import re
+text = 'aa10aiiiu9uu¥n¥neee¥nooo'
+print(text) # aa10aiiiu9uu¥n¥neee¥nooo
+new_text = re.sub('([0-9]|¥n)', '', text)
+print(new_text) # aaaiiiuuueeeooo
+```
+pythonのreにはsub以外にも様々な正規表現に関する関数が用意されているので、
+気になったら調べてみてください。