前提・実現したいこと
Wikipediaの公開している統計データを用いてデータ分析をしようとしています。
大規模データなのでHadoopで単語の出てきた回数を数えて降順にソートしようとしています。
発生している問題・エラーメッセージ
ClickstreamというWebページの訪問者が渡り歩いた軌跡データのヘッダー部分が明記されておらず、前処理の方法に困っております。
以下該当のソースコードに該当するtsvファイルのデータセット上部を記載しましたが、
このデータの読み方について教えていただきたいです。
該当のソースコード
clickstream-jawiki-2018-04.tsv.gz
以下該当するtsvファイルの上10行分です。
other-internal 調速機 external 21 T-72 調速機 link 16 other-search 調速機 external 2132 other-external 調速機 external 101 other-other 調速機 external 41 other-empty 調速機 external 296 other-search クリス・バード external 38 other-empty クリス・バード external 40 other-search 山手中学校 external 20 other-search SF超人ヘラクレス external 325
回答1件
あなたの回答
tips
プレビュー
バッドをするには、ログインかつ
こちらの条件を満たす必要があります。
退会済みユーザー
2018/06/01 08:33
2018/06/01 09:00
退会済みユーザー
2018/06/01 12:39
2018/06/01 12:59
退会済みユーザー
2018/06/01 22:44
2018/06/02 00:35 編集
2018/06/02 00:30
退会済みユーザー
2018/06/07 04:26