質問をすることでしか得られない、回答やアドバイスがある。

15分調べてもわからないことは、質問しよう!

新規登録して質問してみよう
ただいま回答率
85.48%
データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

Q&A

解決済

1回答

322閲覧

Wikipediaの公開している統計データのデータ前処理に関して

退会済みユーザー

退会済みユーザー

総合スコア0

データベース

データベースとは、データの集合体を指します。また、そのデータの集合体の共用を可能にするシステムの意味を含めます

Hadoop

Apache Hadoopは大規模なデータの分散処理をサポートするJavaソフトウェアフレームワークです。Hadoopを利用すると、数千ノードおよびペタバイト級のアプリケーションデータを処理することができます。

Python

Pythonは、コードの読みやすさが特徴的なプログラミング言語の1つです。 強い型付け、動的型付けに対応しており、後方互換性がないバージョン2系とバージョン3系が使用されています。 商用製品の開発にも無料で使用でき、OSだけでなく仮想環境にも対応。Unicodeによる文字列操作をサポートしているため、日本語処理も標準で可能です。

0グッド

0クリップ

投稿2018/06/01 07:07

前提・実現したいこと

Wikipediaの公開している統計データを用いてデータ分析をしようとしています。
大規模データなのでHadoopで単語の出てきた回数を数えて降順にソートしようとしています。

データをダウンロードするサイト

発生している問題・エラーメッセージ

ClickstreamというWebページの訪問者が渡り歩いた軌跡データのヘッダー部分が明記されておらず、前処理の方法に困っております。
以下該当のソースコードに該当するtsvファイルのデータセット上部を記載しましたが、
このデータの読み方について教えていただきたいです。

該当のソースコード

clickstream-jawiki-2018-04.tsv.gz
以下該当するtsvファイルの上10行分です。

other-internal 調速機 external 21 T-72 調速機 link 16 other-search 調速機 external 2132 other-external 調速機 external 101 other-other 調速機 external 41 other-empty 調速機 external 296 other-search クリス・バード external 38 other-empty クリス・バード external 40 other-search 山手中学校 external 20 other-search SF超人ヘラクレス external 325

気になる質問をクリップする

クリップした質問は、後からいつでもMYページで確認できます。

またクリップした質問に回答があった際、通知やメールを受け取ることができます。

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

guest

回答1

0

ベストアンサー

https://meta.wikimedia.org/wiki/Research:Wikipedia_clickstream#Format
でしょうか。


ブラウザでページAからページBに遷移すると、ページAがrefererにセットされた状態で、ページBのパスへのリクエストが、Wikipediaのサーバにされますね。
ここまでで分からない単語はないですよね?

referer URLをマッピングしたもの(*)がprevに、クライアントがリクエストしたURLがcurrにセットされる、と書いてありますから、ページAのarticleがprevに、ページBのarticleがcurrに入ります。

(*)refererに対応するページがあるとは限らない

投稿2018/06/01 07:33

編集2018/06/01 12:58
quickquip

総合スコア11038

バッドをするには、ログインかつ

こちらの条件を満たす必要があります。

退会済みユーザー

退会済みユーザー

2018/06/01 08:33

ご回答いただきましてありがとうございます。 以下、可能であればご意見をお聞かせいただきたいです。 よろしくお願いいたします。 この場合の、n:(referer、resource)ペアの出現回数とはどの様に理解するのが正しいのでしょうか。英語の説明だと結局何の回数を指しているのか不明瞭ですよね。「調速機」の場合、6行連続したデータがあるのに対し、「 クリス・バード」は2行、1行のみ記事タイトルのデータもあり、この点につきましてもどのように解釈できますでしょうか。
quickquip

2018/06/01 09:00

ペアの数、なんですから、prevとcurrのペアに対するデータですよ。
退会済みユーザー

退会済みユーザー

2018/06/01 12:39

prevとcurrのペアに対するデータとは具体的には何をさすのでしょうか。 英文の説明内容だけではイメージがつかみにくくて理解できていません。
quickquip

2018/06/01 12:59

?? じゃあどうしてこのデータを使おうとしているんですか? という根本的な疑問が……
退会済みユーザー

退会済みユーザー

2018/06/01 22:44

Webページの訪問者が渡り歩いた軌跡データを使いたいのですが、 「調速機」が出てきた回数を数えて単純に 「調速機」というページが「渡り歩かれた回数」としてしまっていいのかという懸念を払拭したいのです。 また、nがペアに対するデータを表しているとすると、例えば1行目の21などの数字の意味はWikipediaの内部の人しか理解できないという解釈で会っておりますでしょうか。
quickquip

2018/06/02 00:35 編集

まあそうでしょうけど、「Webサーバ上に記録されたログの数」以外に可能な解釈が思いつきません。
quickquip

2018/06/02 00:30

AからBに行って、BからCに行ったら、Bは2カウントなのをどう考えるかですが、まあ不可分なのでそうするしかないでしょうか。
退会済みユーザー

退会済みユーザー

2018/06/07 04:26

ご回答いただきましてありがとうございました。
guest

あなたの回答

tips

太字

斜体

打ち消し線

見出し

引用テキストの挿入

コードの挿入

リンクの挿入

リストの挿入

番号リストの挿入

表の挿入

水平線の挿入

プレビュー

15分調べてもわからないことは
teratailで質問しよう!

ただいまの回答率
85.48%

質問をまとめることで
思考を整理して素早く解決

テンプレート機能で
簡単に質問をまとめる

質問する

関連した質問