python 配列から拡張子を取得したい

"from" →pd.readcsvの時に、namesで名前を与えた　　
0 NaN
1 DOC20190826001.pdf
2 DOC20190826001.pdf
3 131.jpg
4 132.jpg
5 133.jpg
6 134.jpg

と配列があり、拡張子を取得したいのですが。
os.path.splitext(data["from"])
とすると、expected str, bytes or os.PathLike object, not Seriesのエラーが出ます。

coco_bauer

2019/09/11 01:49

data["from"] の値を確認しましょう。「expected str, bytes or os.PathLike object, not Series」[直訳]文字列、バイト列か、os.PathLike objectが入るはず、Seriesじゃなくて）というエラーですから。単純に質問に書かれている配列の各要素をos.path.splitextでファイル名と拡張子に分けたら良さそうに思いますが、data["from"]との関係が判りません。

aaraki

2019/09/11 02:00

型は、 Name: from, dtype: object <class 'pandas.core.series.Series'> です。 dataは上記のシリーズが入っている(pd.read_csvで読み込ませてnamesで"from"と名前を付けた) つまり、dataシリーズのfrom列のようなものです。

meg_

2019/09/11 02:04

試したコードを載せてください。

aaraki

2019/09/11 02:14

if(os.path.splitext(data["from"])=='pdf'):

行動規範の内容に同意します

回答2件

ベストアンサー

最終的にどのような結果を得たいのかいまひとつ分かりませんが、

方法１：Series.apply() にて os.path.splitext() を適用
方法２：Series.str.rsplit('.') にて拡張子を分離

あたりでよいのではないでしょうか

Python
1import pandas as pd
2import numpy as np
3import os
4
5data = pd.DataFrame({'from': [np.nan, 'DOC20190826001.pdf', 'DOC20190826001.pdf', '131.jpg', '132.jpg', '133.jpg', '134.jpg']})
6
7# 方法１：``Series.apply()`` にて ``os.path.splitext()`` を適用
8ext = data["from"].dropna().apply(lambda d: os.path.splitext(d)[1])
9#1    .pdf
10#2    .pdf
11#3    .jpg
12#4    .jpg
13#5    .jpg
14#6    .jpg
15#Name: from, dtype: object
16
17# 方法２：``Series.str.rsplit('.')`` にて拡張子を抽出
18ext = data['from'].str.rsplit('.', n=1).str.get(1)
19#0    NaN
20#1    pdf
21#2    pdf
22#3    jpg
23#4    jpg
24#5    jpg
25#6    jpg
26#Name: from, dtype: object