質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

ただいまの
回答率

90.61%

  • Python

    7502questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Apache

    1777questions

    Apacheは、Apache HTTP Serverの略で、最も人気の高いWebサーバソフトウェアの一つです。安定性が高いオープンソースソフトウェアとして商用サイトから自宅サーバまで、多くのプラットフォーム向けに開発・配布されています。サーバーソフトウェアの不具合(NCSA httpd)を修正するパッチ(a patch)を集積、一つ独立したソフトウェアとして開発されました。

  • Python 2.7

    1235questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。

[Python]apache_logの例外対処について

受付中

回答 2

投稿 編集

  • 評価
  • クリップ 0
  • VIEW 773

Alan

score 1

参考HP
こちらのソースコードを参考にapacheのlogをDBに保存しようとしたのですが、ログでbytesの部分が"-"になっている時に下記のエラーが出てきてしまいます。どうしたらいいですか?
ValueError: invalid literal for int() with base 10: '-'

#coding:utf8
                                                                                                                              
from sqlobject import *
import sys,csv, sqlite3, datetime

logname = "short_access_log"

class ApacheDialect(csv.Dialect):
    delimiter = " "
    doublequote = True
    lineterminator="\r\n"
    quotechar='"'
    quoting=0
    skipinitialspace=False

class ApacheLog(SQLObject):
    ip        = StringCol()
    remotelog = StringCol()
    remoteuser= StringCol()
    time      = DateTimeCol()
    request   = StringCol()
    status    = IntCol()
    bytes     = IntCol()
    referer   = StringCol()
    ua        = StringCol()

    def _set_time(self,timestr):
        self._SO_set_time( datetime.datetime.strptime(timestr,"[%d/%b/%Y:%H:%M:%S") )

if __name__ == '__main__':

    sqlhub.processConnection = connectionForURI('sqlite:///tmp/abc.db')
    ApacheLog.createTable(ifNotExists=True)

    csv.register_dialect("apache",ApacheDialect)
    reader = csv.reader(open(logname),dialect="apache")

    for r in reader:
        ApacheLog(
            ip        = r[0],
            remotelog = r[1],
            remoteuser= r[2],
            time      = r[3],
            #tz      = r[4],
            request   = r[5],
            status    = int(r[6]),
            bytes     = int(r[7]),
            referer   = r[8],
            ua        = r[9]
       )

この場合のエラーメッセージは
Traceback (most recent call last):
  File "log2db.py", line 46, in <module>
    bytes     = int(r[7]),
ValueError: invalid literal for int() with base 10: '-'

です。
参考HP変更しました。
  • 気になる質問をクリップする

    クリップした質問は、後からいつでもマイページで確認できます。

    またクリップした質問に回答があった際、通知やメールを受け取ることができます。

    クリップを取り消します

  • 良い質問の評価を上げる

    以下のような質問は評価を上げましょう

    • 質問内容が明確
    • 自分も答えを知りたい
    • 質問者以外のユーザにも役立つ

    評価が高い質問は、TOPページの「注目」タブのフィードに表示されやすくなります。

    質問の評価を上げたことを取り消します

  • 評価を下げられる数の上限に達しました

    評価を下げることができません

    • 1日5回まで評価を下げられます
    • 1日に1ユーザに対して2回まで評価を下げられます

    質問の評価を下げる

    teratailでは下記のような質問を「具体的に困っていることがない質問」、「サイトポリシーに違反する質問」と定義し、推奨していません。

    • プログラミングに関係のない質問
    • やってほしいことだけを記載した丸投げの質問
    • 問題・課題が含まれていない質問
    • 意図的に内容が抹消された質問
    • 広告と受け取られるような投稿

    評価が下がると、TOPページの「アクティブ」「注目」タブのフィードに表示されにくくなります。

    質問の評価を下げたことを取り消します

    この機能は開放されていません

    評価を下げる条件を満たしてません

    評価を下げる理由を選択してください

    詳細な説明はこちら

    上記に当てはまらず、質問内容が明確になっていない質問には「情報の追加・修正依頼」機能からコメントをしてください。

    質問の評価を下げる機能の利用条件

    この機能を利用するためには、以下の事項を行う必要があります。

回答 2

+1

Pythonには詳しくないですが、そこまで分かっていれば、
bytesがハイフンの場合にどうするかを決めて、
対応するコードを追加すれば良いのではと思います。
例えば、以下の内容です。

1. bytesを0にするのであれば、if文で分岐するコードを追加する。
2. その行を読み飛ばすのであれば、try文で例外処理するコードを追加する。

 追記

2.例外処理の例

#coding:utf8
L = [ '1', '-', '3' ]
for x in L :
    try:
        print int(x)
    except ValueError, inst :
        print inst

2.例外処理の、実際のコードの例
    for r in reader:
      try:
        ApacheLog(
            ip        = r[0],
            remotelog = r[1],
            remoteuser= r[2],
            time      = r[3],
            #tz      = r[4],
            request   = r[5],
            status    = int(r[6]),
            bytes     = int(r[7]),
            referer   = r[8],
            ua        = r[9]
         )
      except ValueError, inst :
        print inst

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

  • 2015/06/25 08:25

    回答有難うございます。自分も例外処理で試していたのですがやり方が違うのか上手くいかなくて悩んでいました。具体的にどうしたらいいか知っていたら教えて欲しいです。

    キャンセル

  • 2015/06/25 21:18 編集

    ちょっとそちらで試されているコードを実行できる環境にいないのですが、
    回答に追記した様なイメージでできないでしょうか?

    今、そちらで動かない状態のコードをここに貼り付けてもらえれば、
    どこが間違っているか分かるかもしれません。

    キャンセル

  • 2015/06/29 13:52

    すみません、遅くなりました。現在のコードとエラーメッセージ・参考HPを更新しました。

    キャンセル

  • 2015/06/29 15:13

    更新してもらったコードでは、例外処理しようとしている部分が分かりませんが、
    こちらで考えている修正例を追記しました。
    実行した訳ではないので、インデントがおかしいかもしれません。

    キャンセル

0

別解ですが、ApacheのログをありのままにDBに格納したいのであれば、
無理にintに変換しなくともstrで良いのでは無いでしょうか?
※もしint変換しなくてはならない理由があるのであれば、変換すべきかと思います。

1. bytes=の所をStringCol()に変えて
class ApacheLog(SQLObject):
    ip        = StringCol()
    remotelog = StringCol()
    remoteuser= StringCol()
    time      = DateTimeCol()
    request   = StringCol()
    status    = IntCol()
    bytes     = StringCol()
    referer   = StringCol()
    ua        = StringCol()

2. int(r[7])の所を単にr[7]に変える
    for r in reader:
        ApacheLog(
            ip        = r[0],
            remotelog = r[1],
            remoteuser= r[2],
            time      = r[3],
            #tz      = r[4],
            request   = r[5],
            status    = int(r[6]),
            bytes     = r[7],
            referer   = r[8],
            ua        = r[9]
       )

後は、bytesに対応するDBカラムもVARCHAR型等に変換すれば良いかと思います。

投稿

編集

  • 回答の評価を上げる

    以下のような回答は評価を上げましょう

    • 正しい回答
    • わかりやすい回答
    • ためになる回答

    評価が高い回答ほどページの上位に表示されます。

  • 回答の評価を下げる

    下記のような回答は推奨されていません。

    • 間違っている回答
    • 質問の回答になっていない投稿
    • スパムや攻撃的な表現を用いた投稿

    評価を下げる際はその理由を明確に伝え、適切な回答に修正してもらいましょう。

15分調べてもわからないことは、teratailで質問しよう!

  • ただいまの回答率 90.61%
  • 質問をまとめることで、思考を整理して素早く解決
  • テンプレート機能で、簡単に質問をまとめられる

関連した質問

同じタグがついた質問を見る

  • Python

    7502questions

    Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

  • Apache

    1777questions

    Apacheは、Apache HTTP Serverの略で、最も人気の高いWebサーバソフトウェアの一つです。安定性が高いオープンソースソフトウェアとして商用サイトから自宅サーバまで、多くのプラットフォーム向けに開発・配布されています。サーバーソフトウェアの不具合(NCSA httpd)を修正するパッチ(a patch)を集積、一つ独立したソフトウェアとして開発されました。

  • Python 2.7

    1235questions

    Python 2.7は2.xシリーズでは最後のメジャーバージョンです。Python3.1にある機能の多くが含まれています。