Wikipediaの公開している統計データのデータ前処理に関して

前提・実現したいこと

Wikipediaの公開している統計データを用いてデータ分析をしようとしています。
大規模データなのでHadoopで単語の出てきた回数を数えて降順にソートしようとしています。

発生している問題・エラーメッセージ

ClickstreamというWebページの訪問者が渡り歩いた軌跡データのヘッダー部分が明記されておらず、前処理の方法に困っております。
以下該当のソースコードに該当するtsvファイルのデータセット上部を記載しましたが、
このデータの読み方について教えていただきたいです。

該当のソースコード

clickstream-jawiki-2018-04.tsv.gz
以下該当するtsvファイルの上10行分です。

other-internal	調速機	external	21
T-72	調速機	link	16
other-search	調速機	external	2132
other-external	調速機	external	101
other-other	調速機	external	41
other-empty	調速機	external	296
other-search	クリス・バード	external	38
other-empty	クリス・バード	external	40
other-search	山手中学校	external	20
other-search	SF超人ヘラクレス	external	325

行動規範の内容に同意します

回答1件

ベストアンサー

https://meta.wikimedia.org/wiki/Research:Wikipedia_clickstream#Format
でしょうか。

ブラウザでページAからページBに遷移すると、ページAがrefererにセットされた状態で、ページBのパスへのリクエストが、Wikipediaのサーバにされますね。
ここまでで分からない単語はないですよね?

referer URLをマッピングしたもの(*)がprevに、クライアントがリクエストしたURLがcurrにセットされる、と書いてありますから、ページAのarticleがprevに、ページBのarticleがcurrに入ります。

(*)refererに対応するページがあるとは限らない

投稿2018/06/01 07:33

編集2018/06/01 12:58

quickquip

総合スコア11038

退会済みユーザー

2018/06/01 08:33

ご回答いただきましてありがとうございます。以下、可能であればご意見をお聞かせいただきたいです。よろしくお願いいたします。この場合の、n：（referer、resource）ペアの出現回数とはどの様に理解するのが正しいのでしょうか。英語の説明だと結局何の回数を指しているのか不明瞭ですよね。「調速機」の場合、6行連続したデータがあるのに対し、「クリス・バード」は2行、１行のみ記事タイトルのデータもあり、この点につきましてもどのように解釈できますでしょうか。

quickquip

2018/06/01 09:00

ペアの数、なんですから、prevとcurrのペアに対するデータですよ。

退会済みユーザー

2018/06/01 12:39

prevとcurrのペアに対するデータとは具体的には何をさすのでしょうか。英文の説明内容だけではイメージがつかみにくくて理解できていません。

quickquip

2018/06/01 12:59

?? じゃあどうしてこのデータを使おうとしているんですか? という根本的な疑問が……

退会済みユーザー

2018/06/01 22:44

Webページの訪問者が渡り歩いた軌跡データを使いたいのですが、「調速機」が出てきた回数を数えて単純に「調速機」というページが「渡り歩かれた回数」としてしまっていいのかという懸念を払拭したいのです。また、nがペアに対するデータを表しているとすると、例えば1行目の21などの数字の意味はWikipediaの内部の人しか理解できないという解釈で会っておりますでしょうか。

quickquip

2018/06/02 00:35 編集

まあそうでしょうけど、「Webサーバ上に記録されたログの数」以外に可能な解釈が思いつきません。

quickquip

2018/06/02 00:30

AからBに行って、BからCに行ったら、Bは2カウントなのをどう考えるかですが、まあ不可分なのでそうするしかないでしょうか。

退会済みユーザー

2018/06/07 04:26

ご回答いただきましてありがとうございました。

行動規範の内容に同意します