質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.51%

  • Python 3.x

    9794questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。

Beautifulsoup,Mecab,concurrent.futuresを用いたときのメモリー処理

解決済

回答 2

投稿 編集

  • 評価
  • クリップ 1
  • VIEW 422

dialectic4th

score 10

 前提・実現したいこと

事前に取得したhtml(40万程度)からそれぞれbodyを取得し、分かち書きして保存したい。

 発生している問題・エラーメッセージ

プログラムにおいて、メモリーが徐々に溜まっていき、インスタンスがダウンしてしまう。
メモリー蓄積を防ぎたい。
しかし、どこが原因かがわからない。

 該当のソースコード

import bs4
import MeCab 
import concurrent.futures
import glob
import sys
import os
import gzip
m = MeCab.Tagger('-Owakati')

def _htmlbow(inputs):
  each, i, url = inputs
  print(inputs)

  #既に取っているものはスキップ
  if os.path.exists('%s/%s'%(each,url.replace("./gzhtml/","") )):
    print("already scraped %s"%url)
    return

  #スクレイピングしてgzで保存
  try:
    with gzip.open(url,"rt") as f:
      html = f.read()
    #Bodyの取得
    soup = bs4.BeautifulSoup(html, 'html5lib')
    [s.extract() for s in soup(['style', 'script', '[document]', 'head', 'title'])]
    text = soup.getText()
    #分かち書きして保存
    wakati = m.parse(text).strip()
    with gzip.open('%s/%s'%(each, url.replace("./gzhtml","")), 'wt') as f:
      f.write('{wakati}'.format(wakati=wakati))
    print('finished %d '%(i))

  #取得できない場合は失敗リストに保存
  except Exception as e:
    with open("failed_scraping.txt","a") as f:
      f.write('{url}\n'.format(url=url.replace("./gzhtml/","")))
    print('failed     %d '%(i))


def htmlbow():
  #htmlリストを読み込み、インデックスを振る
  urls = []
  for i,ents in enumerate(glob.glob("./gzhtml/*")):
    urls.append(["bow",i,ents])
  print('load finished')
  #分散処理
  with concurrent.futures.ProcessPoolExecutor(max_workers = 992) as executor:
    executor.map(_htmlbow, urls)


"""htmlbow"""
if '--htmlbow' in sys.argv:
   htmlbow()
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

0

with concurrent.futures.ProcessPoolExecutor(max_workers = 992) as executor:

max_workersを設定しないようにしても問題は発生しますか?

あと例外メッセージが発生してるなら、質問文に追記していただくと回答時に参考情報になります。


追記
以下のように変更してくださいな。

with concurrent.futures.ProcessPoolExecutor(max_workers = 992) as executor:

with concurrent.futures.ProcessPoolExecutor() as executor:

maxworker 指定なしで大丈夫でした。
指定がない場合はプロセス数はどのように処理されているのでしょうか?

Githubにある、CPythonのProcessPoolExecutorinit部分より引用。

if max_workers is None:
    self._max_workers = os.cpu_count() or 1

■参考情報
os.cpu_count()

■余談
1,プロファイルを取ってみたほうがいいと思いますが。
URLからダウンロードしている部分 with gzip.open(url,"rt") はThreadPoolExecutorでI/O をオーバーラップしたほうが良いかもしれません。

2,max_workers = 992に関して
この設定値はどこかのサイトのサンプルソースの設定値なのでしょうか?

最大ワーカープロセス数=992なため
a,プロセス数の生成が最大で992個行われる
b,1プロセスあたり20MBメモリを消費

このプログラムは最大で992*20MBの19,840MB(大凡19.8GB)のメモリを使用します。


一番重要な、質問文のメモリ問題は解決したのでしょうか?
その点気になってますが。。。

以下はコメント欄への質問への回答。
できるだけ調べたことを書いてくださいな。どのような内容を調べて、どこの記述がわからないのか。丸投げではなく、そういう形の質問にしてくださいな。

ProcessPoolExecutorThreadPoolExecutor違い

Executor名 並列対象 オーバーラップ対象 GILの制限 データの受け渡し
ProcessPoolExecutor プロセス マルチプロセスなため、CPUの計算 影響を受けない pickle可能なオブジェクト
ThreadPoolExecutor スレッド IOがボトルネックな処理(ネットワークやDisk) 影響を受ける 制約なし

GILはGlobalInterpreterLockといいます。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/02/20 22:09

    以下のように試しみましたが、状況変わらずです。
    ```
    with concurrent.futures.ProcessPoolExecutor(max_workers = 992) as executor:
    for url in urls:
    executor.submit(_htmlbow, url)
    ```

    キャンセル

  • 2018/02/20 22:47

    コメント先間違えてましたね・・・

    maxworker 指定なしで大丈夫でした。
    指定がない場合はプロセス数はどのように処理されているのでしょうか?

    キャンセル

  • 2018/02/21 11:39

    ProcessPoolExecutorとThreadPoolExecutorの違いが、わかっていないのですが、どういう違いがあるのでしょうか?

    キャンセル

0

executor.mapの部分じゃないかなぁと推測します。代わりにfor文で一件ずつexecutor.submitすると現象が改善したりしませんか?

投稿

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

同じタグがついた質問を見る

  • Python 3.x

    9794questions

    Python 3はPythonプログラミング言語の最新バージョンであり、2008年12月3日にリリースされました。