dfをconcatで結合するときに重複して結合してしまう

前提・実現したいこと

2010年から2019年までの10年間の秋田における波高と周期の情報と2011ねんから2019年の秋田県沖における情報において月別平均をとり、以下のようなグラフを作成したいのですが、dfの結合で重複して結合されてしまい、正しい平均値が取れない状況です。

該当のソースコード

#有義波高
from datetime import datetime
import pandas as pd
import matplotlib.pyplot as plt

date_time, YuugiHako = [], []

with open("秋田　2010.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
       
df1 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df1 = df1.set_index("日付")
df1["有義波高 (m)"] = df1["有義波高 (m)"].where(df1["有義波高 (m)"] < 99.9)


with open("秋田　2011.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
     
df2 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df2 = df2.set_index("日付")
df2["有義波高 (m)"] = df2["有義波高 (m)"].where(df2["有義波高 (m)"] < 99.9)

#文字数の関係により省略
     
df9 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df9 = df9.set_index("日付")
df9["有義波高 (m)"] = df9["有義波高 (m)"].where(df9["有義波高 (m)"] < 99.9)

with open("秋田　2019.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
     
df10 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df10 = df10.set_index("日付")
df10["有義波高 (m)"] = df10["有義波高 (m)"].where(df10["有義波高 (m)"] < 99.9)

with open("秋田県沖　2011.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
       
df11 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df11 = df11.set_index("日付")
df11["有義波高 (m)"] = df11["有義波高 (m)"].where(df11["有義波高 (m)"] < 99.9)

with open("秋田県沖　2012.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
       
df12 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df12 = df12.set_index("日付")
df12["有義波高 (m)"] = df12["有義波高 (m)"].where(df12["有義波高 (m)"] < 99.9)

#文字数の関係により省略

with open("秋田県沖　2018.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
       
df18 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df18 = df18.set_index("日付")
df18["有義波高 (m)"] = df18["有義波高 (m)"].where(df18["有義波高 (m)"] < 99.9)

with open("秋田県沖　2019.txt", 'r') as f:
    f.readline()
    for line in f:
        date_str = line[0:12].replace(' ', '0')
        date_str = f"{date_str[0:4]}-{date_str[4:6]}-{date_str[6:8]} {date_str[8:10]}:{date_str[10:12]}"
        date_time.append(datetime.strptime(date_str, "%Y-%m-%d %H:%M"))
        YuugiHako.append(float(line[36:42]))
       
df19 = pd.DataFrame({"日付": date_time, "有義波高 (m)": YuugiHako})
df19 = df19.set_index("日付")
df19["有義波高 (m)"] = df19["有義波高 (m)"].where(df19["有義波高 (m)"] < 99.9)

df = pd.concat([df1, df2,df3,df4,df5,df6,df7,df8,df9,df10])
df_1 = pd.concat([df11, df12,df13,df14,df15,df16,df17,df18,df19])

df.reset_index(inplace=True)
df['month'] = df['日付'].dt.month
df_mean = df.groupby('month')[['有義波高 (m)']].mean()
df_mean

df_1.reset_index(inplace=True)
df_1['month'] = df_1['日付'].dt.month
df_mean1 = df_1.groupby('month')[['有義波高 (m)']].mean()
df_mean1

試したこと

dfを実行すると、144万行ほどのdfが表示されます。しかし、計測は毎時3回、期間は10年間なので
324365*10=262800行ほどになるはずです。

df10を開くと、2010-2019の秋田の情報が結合されている為、
dfでは2010+(2010+2011)+(2010+2011+2012)といったように結合されていると思われます。

補足情報（FW/ツールのバージョンなど）

python
jupyternotebool
データ元　:　https://nowphas.mlit.go.jp/pastdata/

行動規範の内容に同意します

回答1件

ベストアンサー

各txtファイルの読み込みの前にdate_time, YuugiHako のリストが空になっておらず、前の年のデータが入ったリストに追加してしまっていることが原因かと思われます。

with open(...)の前に下記を追加してみると良いかと存じます。

python
1
2date_time, YuugiHako = [], []
3

投稿2021/09/24 15:17

Toroi

総合スコア18

taihei_._

2021/09/25 02:41

ご回答ありがとうございます。無事に修正できました。ありがとうございます。

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

dfをconcatで結合するときに重複して結合してしまう

前提・実現したいこと

該当のソースコード

試したこと

補足情報（FW/ツールのバージョンなど）

関連した質問