図書館のHPにアクセスして蔵書情報を取得する為に必要なことは

Question

###前提・実現したいこと
図書館がHPで公開している蔵書情報を取得したい

###特に考えていること
HPには、「検索」画面がありそこで検索条件を入力すれば結果は参照できます。しかし、新着の蔵書情報などを自動的に取得したいと考えています。

###気になっていること
図書館のアクセス障害になるようなアプリは作りたくない
（岡崎市立中央図書館事件のようになるのは避けたい）

###質問
言語はJavaを考えていますが、特に理由があるわけではないです。
今一番扱えるであろう、かつ勉強中だからです。

そもそもどうやって実現すればいいのかがさっぱり見えてきません。
言語がどうとかいうレベルではないので、

「こうすれば実現可能」
というようなアドバイスを頂ければと思います。

Accepted Answer

まず図書館に相談してみるとイイですよ。
APIが用意されていれば紹介してくれるでしょうし、そうでない場合、どの程度のアクセス頻度が許されるか、アドバイスを貰うことが出来るかもしれません。
要望をあげておけば、API の公開を検討してくれるかもしれないですし、そもそも、検索システムを改修してくれるかもしれません。

こういった件は、まず正攻法で確認するのがイイです。

ちなみにですが、Webサイトの情報を機械的に取得することをスクレイピングといいます。
スクレイピングは、アクセス先の仕様を理解して行わなければならない技術であるため、エンジニアとして求められるものはそこそこ高いです。
例えば、設計や実装でループの頻度を間違うと逮捕されることもありえます。
例外処理も含めて適切な設計を行い、ローカルで十分テストした後、リリースして下さい。

Answer

[カーリル](https://calil.jp/doc/api.html)

Answer

図書館側に API が用意されているならそれを使ってください。
されていないなら一定の時間を置きながら蔵書検索を行い、それを取得してください。

岡崎市立中央図書館事件の場合、クローラには全く問題がなく、図書館側の不具合であったことが証明されています。同じ目に遭いたくないのであれば、こちら側の対策としてはアクセスしないという選択肢しかないと思います。

Answer

私はRubyしか使えないのでRubyで考えます。
あと私はこういったことの初心者なので
信用しないでください。

基本的にやることは、ページの情報をとってきて
必要な情報を抜き出すということだけです。

Rubyの場合はこんなイメージです。
```Ruby
# encoding: utf-8

require'open-uri' # =>httpなどをopenするのに必要なライブラリ。

data = open('https://sample.com', &:read)
# =>このままだとwebページのソースコードがそのまま表示される

# => 以下 dataを加工する処理

p data # =>加工済みのdataを出力（本の題名のみとか。）
```

このページの情報をとってくるという作業が難しく
私のような初心者には困難を極めるわけですが
これさえできれば他は簡単だと思います。

ボタンを押したらページが生成される？みたいな場合は
seleniumなどを使うと良いそうです。
私は使ったことがないので詳しいことは分かりません。


新着の蔵書情報がそのまま置いてあるサイトを探すと
楽かもしれません。

関連した質問