質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

Q&A

4回答

449閲覧

htmlファイルに使われたタグを検索

Welchs

総合スコア7

Java

Javaは、1995年にサン・マイクロシステムズが開発したプログラミング言語です。表記法はC言語に似ていますが、既存のプログラミング言語の短所を踏まえていちから設計されており、最初からオブジェクト指向性を備えてデザインされています。セキュリティ面が強力であることや、ネットワーク環境での利用に向いていることが特徴です。Javaで作られたソフトウェアは基本的にいかなるプラットフォームでも作動します。

JavaScript

JavaScriptは、プログラミング言語のひとつです。ネットスケープコミュニケーションズで開発されました。 開発当初はLiveScriptと呼ばれていましたが、業務提携していたサン・マイクロシステムズが開発したJavaが脚光を浴びていたことから、JavaScriptと改名されました。 動きのあるWebページを作ることを目的に開発されたもので、主要なWebブラウザのほとんどに搭載されています。

0グッド

0クリップ

投稿2018/01/31 02:07

正規表現のパターンを作成するときに、HTMLタグの中の属性を除いて、パターンを作成したいです。

例えば、

<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko-JP">の場合であると、 htmlだけを取得したいです。

正規表現でどうあらわすかが分かりません。

         //省略

String s = getSourceText(new URL("https://www.google.co.jp/")); // 正規表現のタグのパターンを作成する。 Pattern p1 = Pattern.compile

                 ("//この部分にHTMLタグの中の属性を除いて正規表現を作りたい");

// URLのテキスト文がタグの部分と一致させる。 Matcher m1 = p1.matcher(s);

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答4

0

コメントのタグと終了タグの</タグ名>の</>の部分もはずしたい

コメントと終了タグの文法を考慮すれば、自ずと答えは出てくると思うのですが、それについては考えてみたでしょうか。

HTML

1<!-- コメント --> 2<p>段落</p>

考え方は二通りあります。

  • ! または / で始まる場合は否定する (ブラックリスト式)
  • タグ名として認められる文字だけを許容する (ホワイトリスト式)

Re: Welchs さん

投稿2018/01/31 10:01

think49

総合スコア18164

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ちょっと違ったアプローチによる課題解決方法の提案ですが、jsoupといったHTMLパーサを導入して、タグ要素をパースして各要素の名称を取ったほうが正規表現より確実かと思います。
https://jsoup.org/

投稿2018/01/31 07:12

masaya_ohashi

総合スコア9206

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

こういうのはどうでしょうか。

javascript

1p = /</?([^\s/>]+)/ 2x = p.exec('<html itemscope="" itemtype="http://schema.org/WebPage" lang="ko-JP">') 3console.log(x[1])

投稿2018/01/31 04:06

KojiDoi

総合スコア13671

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

いちばんシンプルにやろうと思えば、<html ...htmlだけにマッチさせるような正規表現は(?<=<)[^/]\S*のように書けます。

投稿2018/01/31 02:17

編集2018/01/31 02:21
maisumakun

総合スコア145184

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

Welchs

2018/01/31 05:14

回答ありがとうございます。 質問が言葉足らずで申し訳なかったのですが、HTMLのタグ名だけほしいです。 回答を参考にして、考えてみたのは、 Pattern p1 = Pattern.compile("(?<=<)\/?([^\s\/>]+)"); で、<>はのけることができたのですが、コメントのタグと終了タグの</タグ名>の</>の部分もはずしたいという場合はどのように書いたらよいのでしょうか?
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問