質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

Q&A

2回答

7393閲覧

C++ HTMLタグ取り出して分を表示

J.Spei

総合スコア10

C++

C++はC言語をもとにしてつくられた最もよく使われるマルチパラダイムプログラミング言語の1つです。オブジェクト指向、ジェネリック、命令型など広く対応しており、多目的に使用されています。

HTML

HTMLとは、ウェブ上の文書を記述・作成するためのマークアップ言語のことです。文章の中に記述することで、文書の論理構造などを設定することができます。ハイパーリンクを設定できるハイパーテキストであり、画像・リスト・表などのデータファイルをリンクする情報に結びつけて情報を整理します。現在あるネットワーク上のほとんどのウェブページはHTMLで作成されています。

0グッド

1クリップ

投稿2016/01/22 06:23

編集2016/01/23 08:23

HTMLページの<p><p></p></p>で囲まれた文章をC++で表示したいのですが、うまくいきません。
なにか良い方法はありませんか??
現在こんな感じのプログラムでやってます


#include <libxml/HTMLparser.h>
#include <iostream>
#include <string>
#include <fstream>
#include <stdio.h>
#include <string.h>
#include <stdlib.h>

using namespace std;

void FindInfo(xmlNode*& element);

int main() {
//HTML用の構造体
htmlDocPtr m_doc;

// ファイル名とエンコードの設定 char* file = "http://www.visit-hokkaido.jp/article/detail/2"; char* enc = "utf-8"; // xmlの読み込み if (m_doc = htmlReadFile(file, enc, HTML_PARSE_RECOVER)) { htmlNodePtr root = xmlDocGetRootElement(m_doc); if (root != NULL) { FindInfo(root); } xmlFreeDoc(m_doc); m_doc = NULL; } xmlCleanupParser(); xmlCleanupCharEncodingHandlers(); return;

}

//地域
void FindInfo(xmlNode*& element){
char* count;
for (htmlNodePtr node = element; node != NULL; node = node->next){
//<p><p>
count = (char )node->next->next->children->content;
string a = count;
printf("%s\n",count);
if(xmlStrcasecmp(node->name, (const xmlChar
)"p") == 0){
for(xmlAttrPtr attr = node->properties; attr != NULL; attr = attr->next){
if(xmlStrcasecmp(node->name, (const xmlChar*)"p") == 0){
count = (char *)node->next->next->children->content;
string a = count;
printf("%s\n",count);
}
}
}

//再起読み込み if(node->children != NULL) { FindInfo(node->children); } } }

<!-- /inner--> <div class="inner"> <!--/article_blocks-->
<!----> <section class="artblock_left cf"> <img class="ph" src="http://www.visit-hokkaido.jp/assets/images/feature/2015/12/2_block_image_1.jpg?1450698010" alt="" />
<p class="artblock_catch">都市と自然が融合した北海道の中心地</p> **<p><p>北海道の政治・経済・文化の中心地である札幌は、便利な都市機能と豊かな自然が調和している街です。国の重要文化財に指定されている「札幌市時計台」や、都市景観100選にも選ばれる「大通公園」をはじめとした観光名所も豊富で、「さっぽろ雪まつり」や「サッポロ・シティ・ジャズ」など、季節ごとのイベントもバラエティ豊か。中心部は碁盤の目状になっており、初めての人でも街歩きがしやすいのも大きな魅力です。</p></p>** </section>
<!---->
<div class="artblock_free"></div> <!--article_blocks/--> </div> <!--inner/-->

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

raccy

2016/01/23 01:13

関数名から察するにlibxml2を使用していると思いますが、あってますでしょうか?C++には言語標準でXMLのライブラリは存在しませんし、有用なXMLのライブラリも複数存在します。どのライブラリを使っているかを明記していただくと、回答者も回答しすくなると思います。
J.Spei

2016/01/23 03:32

libxml2を使用しています。あとhtmlparserですね
guest

回答2

0

ipadcaronさんの言うように、普通に文字列(string)として読み込んで,str.find("<P><p>");とかで見つければいいと思いますが?
[追記]

cpp

1~/test/cpptst >cat tst01.cpp 2 3#include <iostream> 4#include <fstream> 5#include <string> 6 7using namespace std; 8 9bool strip(const string &ss); 10 11int main() 12{ 13 string sbuf; 14 string stmp; 15 16 ifstream inFile("./tst01.xml"); 17 // ファイルから文字列を全て読む 18 while( getline(inFile,stmp)){ 19 sbuf += stmp; 20 } 21 // 22 if( !sbuf.empty()){ 23 (void)strip(sbuf); 24 } 25 // 26 return 0; 27} 28 29bool strip(const string &ss) 30{ 31 string::size_type sp= 0; 32 string::size_type ep= 0; 33 // 34 sp= ss.find("<p><p>"); 35 if( sp == string::npos ){ 36 // 見つからなかった;; 37 return false; 38 } 39 sp += 6; // "<p><p>"をスキップ 40 ep= ss.find("</p></p>",sp); 41 // 42 if( ep != string::npos ){ 43 // 終わりが見つかったら表示 44 cout << ss.substr(sp, ep-sp) << endl; 45 return true; 46 } 47 // 48 return false; 49} 50~/test/cpptst >

投稿2016/01/22 12:15

編集2016/01/23 07:57
cateye

総合スコア6851

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

cateye

2016/01/22 23:55 編集

xmlは普通のテキストファイルです。それが分かればxml固有の処理をしないで単純にテキストファイルの文字列検索をすればいいと思います。 ちょっとやってみたので結果だけ ~/test/cpptst >c++ tst01.cpp ~/test/cpptst >./a.out 北海道の政治・経済・文化の中心地である札幌は、便利な都市機能と豊かな自然が調和している街です。国の重要文化財に指定されている「札幌市時計台」や、都市景観100選にも選ばれる「大通公園」をはじめと した観光名所も豊富で、「さっぽろ雪まつり」や「サッポロ・シティ・ジャズ」など、季節ごとのイベントもバラエティ豊か。中心部は碁盤の目状になっており、初めての人でも街歩きがしやすいのも大きな魅力です。 ~/test/cpptst > ファイルから文字列を全て読み込んで、sp= find("<p><p>");で最初を見つけて、find("</p></p>",sp);で終わりを見つけてsubstr()で表示しているだけです。 エラーチェックをしなければmain()も含めて20行ほどのプログラムです。
J.Spei

2016/01/23 03:30

回答ありがとうございます。 是非ソースコード見せてもらえませんか?
cateye

2016/01/23 08:04

エンコードはUTF-8ですがtst01.xmlは、ご提示の<!-- /inner-->~<!--inner/-->をそのまま使っています。あと、xmlとして表示させると<p>と<p>あるいは、</p>と</p>の間に改行が入るようです・・・私の環境だけかもしれませんが悪さをしていなければいいのですが。
guest

0

visual c++ 前提ですが、xmlreader 使えば良いのでは?
もしかして、xml ファイルを読み込んで、平文からp タグ囲みを検索したいってことですか。

投稿2016/01/22 08:06

ipadcaron

総合スコア1693

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

J.Spei

2016/01/22 08:37

OSはLinuxのubuntuです。 アロー演算子の問題なのか2つのpで囲まれたところが取り出せないんです
ipadcaron

2016/01/22 09:01

html の構造解析せず、単純にpタグ2つ連続してる部分を抜き出すだけなんですよね? 何が難しくて悩んでいるのかが解らないのですが。 html を1行ずつ読み込み、ぎょうまつの改行コードを除去して全部つなげる。 1行のもじれつから、"<p><p>" を検索、この位置から直近の閉じタグを検索、範囲を切り取る。 なにか特徴的なキーワードがあって、そのキーワードがある直後の pタグだとしても、結局特定ワードで見つけることに代わり無いので、何が難しいのかわかりません。
J.Spei

2016/01/23 03:30

回答ありがとうございます。そのやり方を知らなかったです。 勉強不足でした。やってみます!
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

まだベストアンサーが選ばれていません

会員登録して回答してみよう

アカウントをお持ちの方は

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問