質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.83%

  • Python

    6410questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 2.7

    1172questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

Python 2 filecmp.cmpによるファイルの比較結果が、差異が無いのにFalseになる

解決済

回答 2

投稿

  • 評価
  • クリップ 0
  • VIEW 93

khaii21

score 10

前提・実現したいこと

Python 2です。
requestsモジュールを使って、あるサイトをスクレイピングした結果をファイルに書き出しています。
前に取得した古い結果ファイルがあり、スクリプト内でfilecmp.cmp関数を使って比較をすると、
内容に差分が無いのに比較結果がFalseになります。
作成した結果ファイルはdiffコマンドで比較しても差分は無く、手動で対話形式にてilecmp.cmp関数を
使って比較をするとTrueとなります。
どなたか原因がお分かりになる方がいらっしゃいましたらご教授頂けないでしょうか。

該当のコード

import requests
import json
import filecmp

file_new = "/tmp/new.log"
file_old = "/tmp/old.log"

with open(file_new, "w") as f:
# 以下にrequestsモジュールにてスクレイピングする処理を記載しています

# 上記で取得した結果をJSON形式でファイルに書き出しています
    json.dump(result, f, ensure_ascii=False, indent=4, sort_keys=True, separators=(",", ": "))

# ファイルの比較結果がFlaseになります
print(filecmp.cmp(file_old, file_new))

 試してみたこと

スクリプトでは比較結果がFalseになりますが、スクリプトで作成した結果ファイルを
手動で対話形式にてilecmp.cmp関数を使って比較をすると正常にTrueとなります。

>>> import filecmp
>>> file_new = "/tmp/new.log"
>>> file_old = "/tmp/old.log"
>>> if (filecmp.cmp(file_old, file_new)):
・・・     print("True")
・・・else:
・・・    print("False")
True


diffコマンドによる比較でも差分はありません。

  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

checkベストアンサー

+1

推測での回答になりますが
10.5. filecmp — ファイルおよびディレクトリの比較

filecmp.cmp(f1, f2[, shallow])(原文)
名前が f1 および f2 のファイルを比較し、二つのファイルが同じらしければ True を返し、そうでなければ False を返します。
shallow が真の場合、同一の os.stat() シグニチャを持つファイルは等しいとみなされます。
os.stat() シグニチャが変わらない限り、この関数を用いて比較されたファイルが再び比較されることはありません。

とあるので、処理直後のnewファイルのシグネチャが変わらないうちに古い(異なる)内容と比較している、あるいは以前のキャッシュされた比較結果が返されている可能性があります。
ここでのos.stat()はファイルサイズ、作成、更新日時などから算出されるようです。

よってfilecmp.cmp(f1, f2, False)のように、常に内容を比較するように修正すると解消する可能性があります。

 別の原因についての補足

ファイルバッファの強制フラッシュ(Python)によると、比較処理時点では実ファイルの書き込みが完了していない可能性が考えられます。
よって json.dump(result, f~の後にf.flush()を追加する必要がありそうです。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/24 01:11 編集

    ご回答ありがとうございます。
    ご指摘の通り、スクリプト内では書き込み処理内で比較をしておりました。
    書き込み処理の中ではFalseになるようです。
    書き込み処理を抜けて、その後で比較するようにしたところきちんと判定できることができました。
    助かりました。色々とお調べ頂きましてありがとうございます。

    キャンセル

  • 2018/06/24 01:19

    f.flush()で解決したのならこちらですね。
    with抜けてもバッファに留まってるってわかりづらいけど、そうか考えてみたらそういう挙動になる訳か・・・

    キャンセル

  • 2018/06/24 01:20

    can110さん hayataka2049さん
    とても勉強になります。
    ありがとうございます。

    キャンセル

  • 2018/06/24 01:22 編集

    そうですね。バッファに溜まって書き込み完了してなかったのが原因だと思います。

    キャンセル

0

filecmp.clear_cache()(原文)
filecmp のキャッシュをクリアします。背後のファイルシステムの mtime 分解能未満でのファイル変更後にすぐに比較するような場合に有用です。
11.5. filecmp — ファイルおよびディレクトリの比較 — Python 3.6.5 ドキュメント #filecmp.clear_cache

というものがあるので、逆に考えると「ファイル変更後にすぐに比較する」場合は問題が起きるということなのかしら。

python2では、

filecmp._cache.clear()


filecmp.clear_cache()と同様の動作が実現できるはずです。見てわかる通り、褒められたコーディングではありません。もしこれが有効だったとしても、他の回避方法があれば、その方が良いです。

参考:
filecmp.cmp() cache - Python

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2018/06/24 01:17 編集

    ご回答ありがとうございます。
    色々とお調べいただきましてありがとうございます。
    ご教授頂きましたサイトを見ております。
    英語が苦手でしてすぐに理解ができそうにありませんが今後の理解を深めるために調べます。
    ありがとうございます。

    キャンセル

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.83%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

  • 解決済

    Python スクレイピング

    前提・実現したいこと ど素人です。スクレイピングにてあるサイトからBeautifulsoupを使用して指定の箇所を抜き出したいと思っております。 指定サイト:http://ra

  • 解決済

    Python スクレイピング

    [実現したい事] Python/スクレイピング初心者です。毎日コツコツ勉強しています。 スクレイピングにてあるサイトからBeautifulsoupもしくは正規表現を使用して指定

  • 解決済

    pythonでimportがうまくいかない【Webスクレイピング】

    Webスクレイピングがしたくて初めてpythonを触るのですが http://qiita.com/Azunyan1111/items/9b3d16428d2bcc7c9406 を参

  • 解決済

    webスクレイピングした内容をmecabで形態素分析

    前提・実現したいこと 現在、chrome拡張機能を作っています。ユーザーが見たページのURLをサーバー側に送って、そのURL先のページの本文を抽出しそれをmecabで形態素分析した

  • 解決済

    Python スクレイピング

    Pyhtonでスクレイピングのコードを書いているのですが エラーコード : TypeError: Cannot mix str and non-str arguments が表示さ

  • 解決済

    Pythonスクレイピング

     前提・実現したいこと Yahoo画像検索を使用して画像を集めまくるプログラムを作成したいのです。※超初心者です。  発生している問題 bs4で画像のURLを取得する方法が解ら

  • 解決済

    python webスクレイピング

    <tr> <td class="td11">2590</td> <td class="td12">ダイドーグループホールディングス</td> <td class="td11">東証

  • 解決済

    pythonでのスクレイピング

     前提・実現したいこと python初心者です。 下記のサイトからチーム毎に各ゴールパターンのゴール数というデータを取得し、リストの形で保持したいと考えています。 http:/

同じタグがついた質問を見る

  • Python

    6410questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Python 2.7

    1172questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。