質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
Google

Googleは、アメリカ合衆国に位置する、インターネット関連のサービスや製品を提供している企業です。検索エンジンからアプリケーションの提供まで、多岐にわたるサービスを提供しています。

Q&A

解決済

1回答

1786閲覧

コピペチェックツールの作り方について

mido

総合スコア14

Google

Googleは、アメリカ合衆国に位置する、インターネット関連のサービスや製品を提供している企業です。検索エンジンからアプリケーションの提供まで、多岐にわたるサービスを提供しています。

0グッド

1クリップ

投稿2017/10/31 17:36

コピペチェックツールを作りたいと考えています。
その文章がGoogleで検索した時に、類似したものがあるかどうか、類似率はどのくらいかを調べたいと考えています。
短文であればそのまま検索クエリに投げれば検索にヒットするとは思いますが、長文の場合はどうすればいいのが最適かを考えています。
検索にはGoogleのAPIを使う予定です。

他のツールを見ますと部分的にコピーされた箇所も発見できるようなので、まずは長文をセンテンス毎に区切る必要があると思われます。
区切ったセンテンスで検索を掛ける場合、完全一致であればズバリ出てくるかと思いますが、少しだけリライトされた部分一致の場合は、類似検索が必要かと思われます。

Googleのオプションに「OR検索」や「*」「:related」というものがありますが、類似画像検索のような類似の検索結果を表示させる方法はあるのでしょうか?
また、ツールを使わずに手動でコピペチェックをする場合の手順はどういった方法があるでしょうか?

知っておられる方がいましたらご助力よろしくお願い致します。

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

Googleでの検索により探索する場合は、ご認識のように文単位程度に分割して検索して、一致する文章がヒットするかをチェックする形となるかと思います。
全ての文章は検索できないかと思いますので、抜粋してチェックし、確率的な確認に留まるかと思います。

コピペとなると、その情報源としてはWikipediaが利用されることが多いように思います。
Wikipediaは透明性の確保と二次利用のために全データをダウンロードすることができます。これを利用してWikipediaの文章との一致を確認することは可能です。

Wikipedia:データベースダウンロード - Wikipedia

あいまい検索を行うには、レーベンシュタイン距離などを用いてある程度類似の文章を検索するといったことが考えられるかと思います。
そのような検索の実装としてはagrepが有名かと思います。

投稿2017/10/31 20:24

退会済みユーザー

退会済みユーザー

総合スコア0

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

mido

2017/11/01 01:51

> 全ての文章は検索できないかと思いますので、抜粋してチェックし、確率的な確認に留まる なるほど、ありがとうございます。 ということは、比較したい文章を抜粋して検索で出てきたサイトリストの文章を取得する。 レーベンシュタイン距離関数で類似度を比較し類似度を測定し、取り込んだ文章を正規表現を駆使して曖昧検索する、といった感じでしょうか。
退会済みユーザー

退会済みユーザー

2017/11/01 02:40 編集

Google検索でヒットしたページ内の記述全体についても確認される場合は、おおよそご認識の通りの流れになるかと思います。 レーベンシュタイン距離は、2つの文字列間の異なり具合を表すものですので、この距離が小さい(近い)文章が存在する場合は、引用されている可能性があると判断できるかと思います。 あまり詳しくはないのですが、Bitapアルゴリズムを利用すると、レーベンシュタイン距離に基づく類似文字列の検索ができるようです。 agrepはこれを利用したコマンドであるようです。 これ以上の説明は、私もWikipediaからコピペするくらいしかできないですね。
mido

2017/11/01 02:43

追加情報ありがとうございます。 そうしますと、レーベンシュタイン距離が近いセンテンスが複数その文章に存在する場合は、かなり剽窃度が高い、という判定ができそうですね。 話題になったWELQ問題は複数のサイトからちょっとずつコンテンツを引っ張って水増ししていたようですが、そうなると継ぎ接ぎですので類似度を測りにくい=オリジナルと見なされてしまう、というのがなんとなく理解できました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問