dataframeの特定文字を含むデータの抽出について

pythonのseleniumとbs4で以下のようなデータ取得し、dataframeに格納しています。

python
1                                                     0
20                                         #ContentsBox
31                                                    /
42                    http://online.s-bin/search/sea...
53                                  /sitemap/index.html
64                                     n/faq/index.html
7..                                                 ...
8295                               ../profile/13064.htm
9296                               ../profile/13077.htm
10297                                /menseki/index.html
11298                             /nese/tumon/index.html
12299

そこから、「../profile/~」を含むデータだけ抽出し、新たにdataframeを作りたいと思っています。
そこで、以下のコードを作りました。

python
1dftest = df[df_link[0].str.contains('profile',na=False)]

ところが、実行したところ、以下のメッセージが出てきて新しいdataframeにはデータが収納できていませんでした。

python
1 UserWarning: Boolean Series key will be reindexed to match DataFrame index.
2  dftest = df[df_link[0].str.contains('profile',na=False)]
3Empty DataFrame
4Columns: [0]
5Index: []

このエラー（メッセージ）について、サイトで調べてみましたが、参考・該当する事例が見つけられなかったので、どのように回避すればよいか、あるいはこの知識を使えばよいよというレベル感でも大丈夫ですので、ご教授いただけると助かります。

よろしくお願いします。

meg_

2020/08/18 08:29

dfとdf_linkの中身が分からないと回答が難しいかと思います。

yu--32

2020/09/03 10:33

回答いただいた皆様ありがとうございます。すみません、アドバイスを踏まえ作業しておりますが自分自身のコードが上手く動かないため、まだ質問解決を保留にさせていただいております。申し訳ございませんが、よろしくお願いいたします。

行動規範の内容に同意します

回答3件

ベストアンサー

Python
1import pandas as pd
2
3df = pd.DataFrame({'A':['/profile/123.html','/profile/456.html','/abc/def.html']})
4print(df)
5#                   A
6#0  /profile/123.html
7#1  /profile/456.html
8#2      /abc/def.html
9
10df2 = df[df['A'].str.contains('profile' ,na=False)]
11print(df2)
12#                   A
13#0  /profile/123.html
14#1  /profile/456.html

投稿2020/09/03 11:43

meg_

総合スコア10890

dfに入れる前に弾くというのはどうでしょうか。
おそらくスクレイピング結果をリストなどで保持していると思いますが。

python
1import re
2
3print(scraping_result) # ['http://online.s-bin/search/sea...', '/sitemap/index.html', ...]
4
5extract_profile = [a for a in scraping_result if re.search('./profile/.', a) is not None]

投稿2020/08/18 15:19

shirai

総合スコア1290

df_link[0].str.contains('profile',na=False)

で得られるbooleanのSeriesの長さが、dfの長さと違っているんでしょう。lenで囲んで比較してみればいいのでは。

投稿2020/08/18 11:00

Daregada

総合スコア11990

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.31%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

dataframeの特定文字を含むデータの抽出について

関連した質問