🎄teratailクリスマスプレゼントキャンペーン2024🎄』開催中!

\teratail特別グッズやAmazonギフトカード最大2,000円分が当たる!/

詳細はこちら
IIS

IIS(Internet Information Services)はマイクロソフト社によって開発されたwebサーバーです。Windows上で動作します。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Windows Server

Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

Q&A

解決済

1回答

5633閲覧

Fessサーバのwebクロール設定

ryosu-k

総合スコア11

IIS

IIS(Internet Information Services)はマイクロソフト社によって開発されたwebサーバーです。Windows上で動作します。

Webサイト

一つのドメイン上に存在するWebページの集合体をWebサイトと呼びます。

Windows Server

Windows Serverとは、Microsoft社のサーバ用オペレーティングシステムの総称です。 企業内ネットワークなどで利用されるサーバ機へ導入することを想定して開発されているため高い安定性があり、 管理機能を提供するソフトウェアが多く含まれています。

AWS(Amazon Web Services)

Amazon Web Services (AWS)は、仮想空間を機軸とした、クラスター状のコンピュータ・ネットワーク・データベース・ストーレッジ・サポートツールをAWSというインフラから提供する商用サービスです。

0グッド

1クリップ

投稿2019/12/18 10:50

編集2019/12/19 01:20

オンプレサーバにてワークフローを検索するためのFessサーバをクラウド移行すべく、AWSにWindows Server2019のEC2を立ててweb検索が出来る環境を構築しようとしています。

サーバにIISの機能を追加し、セットアップ手順に沿ってJAVAとFessをインストールし、Fessのログインは出来るようになりました。
次に、クローラの設定を現行のFessサーバを参考にしてURLや検索対象の設定を入れたのですが、
検索しても何も引っかからない状態です。

現行のサーバはsitemap.htmlにてワークフローのHTMLファイルを定義しており、
それを踏襲したのですがダメでした。

Fessを起動しない状態なら、IISで規定のドキュメントとして追加すればlocalhost:8080/sitemap.htmlで対象のsitemapは表示できるのですが、Fessを起動するとIISで指定した物理パス上に配置したsitemapは表示できないため、Fessの設定コンフィグでsitemapを指定する必要があるのではないかと思うのですが、どの様に指定するか不明な状態です。

Fessの「fess.in.bat」上に以下の記述を見つけたのでパスの指定を変更できるかと思ったのですが、
現行稼働中のサーバではsitemap.htmlを配置していないパスを指していました。
「set FESS_JAVA_OPTS=%FESS_JAVA_OPTS% -Dfess.webapp.path=%FESS_HOME%\app」

何をどのように設定すればWebクロールが可能かアドバイスを頂ければ幸いです。

参考にしたサイト
・Fessのセットアップ手順
https://fess.codelibs.org/ja/setup.html
・webクロールに関する設定(sitemapについての記述あり)
https://fess.codelibs.org/ja/2.0/admin/webCrawlingConfig-guide.html
・Windows環境でFessを使用する方法のメモ
http://malog-notes.blogspot.com/2014/12/windowsfess.html

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

yutampp

2019/12/19 03:53 編集

sitemap.html云々とは関係ないような・・・。 まずwebクロールというのは、WEBページとしてアクセスできる(HTTPあるいはHTTPSで参照可能なリソースということ)ものを片っ端からアクセスして、いい感じにDBに突っ込むことを言います。 そのうえで、単純な話、 「FESSからみて、その検索対象のサイトはアクセスできる状態か?」 というところがスタート点かな、と思います。 アクセスできるなら、「クロール対象とするURL」が正規表現になってないとかありがちです。 たとえば、ヤフーなら、 URL → https://www.yahoo.co.jp/ クロール対象とするURL → https://www.yahoo.co.jp/.* とする必要があります。 ワイルドカード文字だと思い込んで、 クロール対象とするURL → https://www.yahoo.co.jp/* とすると動作しません。 あとは、FESSの管理画面からシステム情報→ジョブログや障害URLを確認すると、 エラーの原因が分かったりします。
ryosu-k

2019/12/19 11:48

ご指摘頂きありがとうございます。 ジョブログにて、IISのバインドで利用しているポートとfessのデフォルトポート8080が重複しているため事象が発生しているのかと思い、それぞれのポートを分けてみましたが、検索しても何もヒットしませんでした。 URLとクロール対象とするURLを上記のヤフーの例と全く同じに設定しても何もヒットしない状況です。 ブラウザでヤフーのURLを入れれば普通にヤフーは見ることが出来るのですが。
yutampp

2019/12/19 13:18

検索しても何もヒットしませんでした。というところに、引っ掛かりを感じます。 二度目になりますが、 webクロールとは.検索対象のサイトをクロールして、その結果をDB(正確にはelasticsaerchという非DBですが)につっこむことです。 検索するのはそのDBの中身です。 検索をかけた時に、fessがそのサイトにアクセスして検索すると思っているならそれは間違いです。 クロールは実行しましたか? サイトの規模にもよりますが、かなり時間がかかります。 クロールが終わらないと検索してもそりゃあヒット数ゼロに決まってます。 管理画面のシステム情報→ジョブログでクロールが終わってるか確認してください。
yutampp

2019/12/19 13:40

それともう一つ、Fessはクロールにも検索処理にも、CPUとメモリのリソースを食います。 ワークフローサーバー?かなにかは私の読解力では分かりませんでしたが、とにかく同居させるのはおすすめしません。
ryosu-k

2019/12/20 05:15 編集

ご指摘ありがとうございます。 DBがあることは認識しておりましたが構成を理解しておらずfessが対象サイトにアクセスして検索するというイメージでおりました。クロールを再実行してから検索することで対象サイトがヒットするようになりました。
guest

回答1

0

自己解決

最終的な方法はwebクロールの再実行によるものです。

投稿2019/12/20 05:23

ryosu-k

総合スコア11

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.36%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問