正規表現で任意の文字列を含まないものを抽出したい

正規表現を用いて、「.html」を含む文字列以外の単語を抜き取ろうとしているのですが、全く抜き取れません。

以下がデータで、抜き取りたいのは「programs」「algorism」「data」「structure」です。

program algorithm
sort.html
search.html data.html
data structure

どのように記述すればよいのでしょうか。

ソースコードは以下のとおりです。

file = open("上記のテキストデータ", "r")
txt = file.read()
re.findall("^([a-zA-Z]+.html)", txt)

※.htmlを含む文字列の抽出はできました。

re.findall("[a-zA-Z]+.html", txt)

行動規範の内容に同意します

回答2件

ちょっと苦しいですが、

python
1>>> txt = '''program algorithm
2... sort.html
3... search.html data.html
4... data structure'''
5>>> import re
6>>> [s for s in re.split(r'[ \n]*[a-zA-Z\n]+.html[ \n]|[ \n]', txt) if s]
7['program', 'data', 'structure']

投稿2021/05/10 06:39

編集2021/05/10 06:40

ppaul

総合スコア24670

nnnnnnn-kkkkkk

2021/05/10 06:54

ありがとうございます！ピリオドが絡むとややこしくなるのですね…。

行動規範の内容に同意します

ベストアンサー

正規表現で頑張るなら、こんな感じでしょうか。
もっとうまい方法がある気もしますが。

Python
1dst = re.findall(r"(?<!.)\b[a-zA-Z]+\b(?!.html)", txt)

あるいは

Python
1dst = re.findall(r'(?<!.)\b(?![a-zA-Z]+.html)[a-zA-Z]+', txt)

別解

とりあえず全部引っこ抜いて、後から選り分けた方が簡単です。

Python
1dst = [
2    word for word in txt.split()
3    if not word.endswith('.html')
4]

投稿2021/05/10 05:38

編集2021/05/10 05:56

LouiS0616

総合スコア35668

nnnnnnn-kkkkkk

2021/05/10 05:53

なるほど…。正規表現に固執していました。　一行で簡潔に表したいなーと思っていたんですが、内包表記をすっかり失念してました！ありがとうございました！

行動規範の内容に同意します

あなたの回答

tips

プレビュー

行動規範の内容に同意します

質問の解決につながる回答をしましょう。サンプルコードなど、より具体的な説明があると質問者の理解の助けになります。また、読む側のことを考えた、分かりやすい文章を心がけましょう。

15分調べてもわからないことは
teratailで質問しよう！

ただいまの回答率
85.35%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう！

正規表現で任意の文字列を含まないものを抽出したい

別解

関連した質問