質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.49%
スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

Q&A

解決済

3回答

1765閲覧

比較サイトを作る上で同一商品の特定をするには?

o.hiro

総合スコア7

スクレイピング

スクレイピングとは、公開されているWebサイトからページ内の情報を抽出する技術です。

Ruby

Rubyはプログラミング言語のひとつで、オープンソース、オブジェクト指向のプログラミング開発に対応しています。

Ruby on Rails

Ruby on Railsは、オープンソースのWebアプリケーションフレームワークです。「同じことを繰り返さない」というRailsの基本理念のもと、他のフレームワークより少ないコードで簡単に開発できるよう設計されています。

0グッド

3クリップ

投稿2018/04/27 01:31

編集2018/04/27 02:09

やりたいこと

ruby on railsでアプリを作成しており、amazon、楽天、yahooなどから商品情報を取得し、同一商品の価格を比較したいと考えています。

わからないこと

サイトから商品情報を取得する際、APIを公開しているサイトであれば、そのAPIを利用する。
そうでないサイトはスクレイピングして商品情報を取得するということは調べてわかりました。

しかし、amazonや楽天、その他サイトでは同じ商品であっても商品名が違います。

例えば、

~~ - 楽天での商品タイトル:DRC ロマネ・コンティ[1923] ~~
~~ - Amazonでの商品タイトル:Romanee Conti ロマネ・コンティ 1975 DRC (Domaine de la Romanee Conti) ~~

また、Amazonは独自の商品コード(ASIN)で商品管理をしているようで、サイト間で共通のIDのようなものはなさそうでした。

なので、webページを開き、情報を見た限りでは、どの箇所を見て同一商品を特定し、価格比較などをしているのかわかりませんでした。

価格ドットコムなどの商品比較サイトはどの部分を見て他のサイト同士の同一商品の特定をしているのでしょうか?

追記

上記の例が間違っていましたので、修正しました。


楽天の商品タイトル:ディーアップ(D.U.P) アイラッシュ ポイントフィット 400 ミディアム・8mm(1セット)【ディーアップ(D.U.P)】
Amazonの商品タイトル:D-UP アイラッシュ ポイントフィット 400 ミディアム・8mm

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

coco_bauer

2018/04/27 01:47

1923年に作られた”DRC ロマネ・コンティ[1923]”と、1975年に作られた"Romanee Conti ロマネ・コンティ 1975 DRC"は、全く別物です。多くのワインには製造年が書かれていて、同じシャトーのワインでも年によって評価'(値段)が大きく変わる程度の知識がないと無理じゃないでしょうか。
退会済みユーザー

退会済みユーザー

2018/04/27 02:56

アイディア募集の丸投げになっています。
guest

回答3

0

無理です。
楽天YahooがAmazonに勝てない理由でもあります。

投稿2018/04/27 02:47

tekka

総合スコア514

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

0

ベストアンサー

JAN/EANコード。
これを使ってもAmazon内だけでも同一商品・別仕様が大量にあるので完璧な特定は難しい。
特にマケプレは出品者が入力したデータのはずなのでそもそも間違ってることもある。
AmazonのAPIはASINだけでなくJANでも取得できるので試せば分かる。

投稿2018/04/27 02:40

kawax

総合スコア10377

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

o.hiro

2018/04/27 03:01

回答ありがとうございます。 AmazonのAPIを使ってみようと思います!
guest

0

価格.COMは自社サービスで展開しています。
ショップの登録と、比較情報への掲載は登録制であったと思います。

投稿2018/04/27 01:37

編集2018/04/27 01:38
退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

o.hiro

2018/04/27 02:32

回答ありがとうございます。 価格ドットコムの掲載に関しては登録制なんですね。 今回はすでにAmazonや楽天にある同一商品の比較をしたいと考えております。 同一商品ではあるものの、商品名が違う例を追記しましたので、何かアドバイスなどがあればまた、回答いただけると大変嬉しいです。
退会済みユーザー

退会済みユーザー

2018/04/27 02:40

固有名詞を認識し、その単語を列挙してみてはいかがでしょうか。 単語の一致率が○%以上であれば同一製品というような。 以下記事で固有表現の抽出をしていたと思いますので、参考になれば・・・ https://qiita.com/Hironsan/items/a5acf1d121926666907b
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.49%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問