CSVファイルのheader行数が分からない場合

Question

### CSVファイルのheader行数が分からない場合

現在、サーバー上にある複数のcsvファイルにアクセスして必要なデータを取得する作業を行なっています。


### 発生している問題
サーバー上のurlにアクセスしてcsvファイルを読み取る際、ファイルによってheader列が微妙に異なる場合があります。
そのため、頻繁にエラーを起こして(うまくindexが読み取れずに)しまいます。

肝心なデータ部分の前には必ず、
```
data:
a, b, c, d, e
0, 0, 0, 0, 0
```
のように data:の文字が含まれているため、これを目印にしてheaderを読み取ろうとしていますが、どうもうまくいきません。

いくつか試した方法として、かなり無理矢理なのですが、


```python
import pandas as pd
temp = pd.read_table(url, header=None)
i = 0
while True:
  if temp.loc[i][0][:5]=='data:':
    break
  else:
    i += 1
```
ここで出てきたiを使って、read_csv(url, header=i+1)とすると、カラムサイズが違う旨のエラーメッセージが出ました。これでダメだったのが一番困っています。header中にある空白行が悪さをしているのでしょうか...?

加えて、requestsモジュールを使って
```python
resp = requests.get(url)
txt = resp.text
```
としてなんとかindexを見出そうとしたのですが、断念いたしました。

可能であれば、ファイルをダウンロードせずに行いたいです。
もし何かいい方法をご存知の方がいらっしゃいましたら、ご教授いただけますでしょうか。

Accepted Answer

> 可能であれば、ファイルをダウンロードせずに行いたいです。

まずは一度はファイルをダウンロード（読み込み）することが必要です。
以下は、いったん文字列として読み込んでスキップする例です。
```Python
# csv : csv文字列
def skip_df(csv):
    # スキップすべき行数を算出
    is_skip, skip_row = False,1
    for line in csv.split('
'):
        if 'data:' in line:
            is_skip = True
            break
        skip_row += 1

    if not is_skip:
        skip_row = 0

    # 文字列からcsvを読み込み
    from io import StringIO
    return pd.read_csv(StringIO(csv),skiprows=skip_row)

# ファイルから読み込む場合
with open('inp.csv') as f:
    s = f.read()

# Webから読み込む場合
#resp = requests.get('https://～.csv')
#s = resp.text

df = skip_df(s)
print(df)
```

Answer

`pandas.read_cdv`の`skiprows=`を指定するのはいかがでしょうか？
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

CSVファイルのheader行数が分からない場合

発生している問題

関連した質問