質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.35%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

1回答

3570閲覧

python スクレイピングで特定の文字列の間にある文だけ抽出したい

bibinba_4499

総合スコア0

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2021/10/16 03:49

編集2021/10/16 05:12

前提・実現したいこと

ここに質問の内容を詳しく書いてください。
pythonを使ったスクレイピングで取得したテキストのリスト内で、指定した文字列を含む要素から、指定した文字列を含む要素までのテキストを抽出したいです。
例えば、スタートという文字列を含む要素が出たら次にゴールという文字列を含む要素が出るまでのテキストを抽出したいです。
スタートがある文字列を取得できましたが、スタートからゴールまでの範囲を指定して抽出するにはどうしたらいいでしょうか。

###該当のソースコード

python

1import requests 2from bs4 import BeautifulSoup 3 4url =" " 5html = requests.get(url) 6soup = BeautifulSoup(html.content,"html.parser") 7list = soup.find(id=" ").text 8 9all_text_list = list.split("\n") 10 11for text in all_text_list: 12 if "スタート" in text: 13 print(text) 14

試したこと

python

1for text in all_text_list: 2 if "スタート" in text: 3 print(text) 4    for text in all_text_list: 5 if "ゴール" in text: 6 break

  としてみました思った通りに出力しませんでした。他の解決策が浮かびません。 

補足情報(FW/ツールのバージョンなど)

ここからスタート
・・・
(間のテキスト)
・・・
ここがゴール
といった出力になるようにしたいです。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

正規表現を使います。

スタートとエンドを含めるか含めないかがわからないので両方書いておきます。

python

1>>> import re 2>>> 3>>> all_text_list = ['ここからスタートでここまでエンド', 'エンドのあとにスタートが来る', 'スタートだけしかない','スター トがあってエンドもある'] 4>>> 5>>> for text in all_text_list: 6... if m := re.search('スタート(.*)エンド', text): 7... print(m.group()) 8... else: 9... print('みつかりませんでした') 10... 11スタートでここまでエンド 12みつかりませんでした 13みつかりませんでした 14スタートがあってエンド 15>>> for text in all_text_list: 16... if m := re.search('スタート(.*)エンド', text): 17... print(m.groups()[0]) 18... else: 19... print('みつかりませんでした') 20... 21でここまで 22みつかりませんでした 23みつかりませんでした 24があって

投稿2021/10/16 04:19

ppaul

総合スコア24670

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

bibinba_4499

2021/10/16 05:08 編集

すみません。私の説明が間違っていました。「正確には”スタート”が含まれる要素があったら、次に"ゴール"が含まれる要素までの要素を取得」でした。 なので、 ここからスタート ・・・ ・・・ ここがゴール といった出力になるようにしたいです。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問