質問編集履歴
4
INSERT文(10行のみ抜粋)を追加しました。
title
CHANGED
@@ -1,1 +1,1 @@
|
|
1
|
-
PostgreSQL "似ている"ユーザーを探したい
|
1
|
+
PostgreSQL Yelpで"似ている"ユーザーを探したい
|
body
CHANGED
@@ -6,7 +6,8 @@
|
|
6
6
|
今回はそのYelpのデータセットを多少加工したデータセットを使っております。(以下のURLは加工前のデータセットです。)
|
7
7
|
[Yelp Dataset](https://www.yelp.com/dataset/documentation/main)
|
8
8
|
|
9
|
-
テーブルは全部で4つで
|
9
|
+
テーブルは全部で4つです。
|
10
|
+
|
10
11
|
```
|
11
12
|
yelp=> \d
|
12
13
|
List of relations
|
@@ -18,9 +19,8 @@
|
|
18
19
|
public | users | table | postgres
|
19
20
|
(4 rows)
|
20
21
|
```
|
21
|
-
それぞれのテーブルの中身は以下の通りです。
|
22
22
|
|
23
|
-
|
23
|
+
それぞれのテーブルのCREATE文は以下の通りです。
|
24
24
|
|
25
25
|
```PostgreSQL
|
26
26
|
-- Table Definition ----------------------------------------------
|
@@ -41,15 +41,9 @@
|
|
41
41
|
-- Indices -------------------------------------------------------
|
42
42
|
|
43
43
|
CREATE UNIQUE INDEX business_pkey ON business(business_id text_ops);
|
44
|
-
```
|
45
44
|
|
46
|
-

|
47
45
|
|
48
46
|
|
49
|
-
|
50
|
-
- reviewテーブル
|
51
|
-
|
52
|
-
```PostgreSQL
|
53
47
|
-- Table Definition ----------------------------------------------
|
54
48
|
|
55
49
|
CREATE TABLE review (
|
@@ -69,15 +63,9 @@
|
|
69
63
|
CREATE UNIQUE INDEX review_pkey ON review(review_id text_ops);
|
70
64
|
CREATE INDEX review_bus_id ON review(business_id text_ops);
|
71
65
|
CREATE INDEX review_user_id ON review(user_id text_ops);
|
72
|
-
```
|
73
66
|
|
74
|
-

|
75
67
|
|
76
68
|
|
77
|
-
|
78
|
-
- tipテーブル
|
79
|
-
|
80
|
-
```PosrgreSQL
|
81
69
|
-- Table Definition ----------------------------------------------
|
82
70
|
|
83
71
|
CREATE TABLE tip (
|
@@ -92,15 +80,9 @@
|
|
92
80
|
|
93
81
|
CREATE INDEX tip_bus_id ON tip(business_id text_ops);
|
94
82
|
CREATE INDEX tip_user_id ON tip(user_id text_ops);
|
95
|
-
```
|
96
83
|
|
97
|
-

|
98
84
|
|
99
85
|
|
100
|
-
|
101
|
-
- usersテーブル
|
102
|
-
|
103
|
-
```PostgreSQL
|
104
86
|
-- Table Definition ----------------------------------------------
|
105
87
|
|
106
88
|
CREATE TABLE users (
|
@@ -117,10 +99,62 @@
|
|
117
99
|
CREATE UNIQUE INDEX users_pkey ON users(user_id text_ops);
|
118
100
|
```
|
119
101
|
|
120
|
-
|
102
|
+
INSERT文の内、10行を抜粋したものは以下になります。
|
121
103
|
|
104
|
+
```PostgreSQL
|
105
|
+
insert into business
|
106
|
+
values
|
107
|
+
('-000aQFeK6tqVLndf7xORg', 'CoolCatAutoRepair', '', '6348N27thAve', 'Phoenix', 'AZ', '85017', '33.531105', '-112.11761', 'TRUE'),
|
108
|
+
('0010xnFOCyJZeMAuTtiv5w', 'HennaShoppe', '', '7235E1stAve', 'Scottsdale', 'AZ', '85251', '33.49402', '-111.92512', 'TRUE'),
|
109
|
+
('001jVKJHdhU2z_m9xTgOrg', 'AgaveChiropractic', '', '3040N44thSt,Ste3', 'Phoenix', 'AZ', '85018', '33.483635', '-111.98701', 'TRUE'),
|
110
|
+
('002Gv4JE2bAfXkGJVM1IQw', 'AirgunsofArizona', '', '1970WElliotRd,Ste109', 'Gilbert', 'AZ', '85233', '33.35031', '-111.83239', 'TRUE'),
|
111
|
+
('002ISUJGzG_5ejVrIqsPFA', 'SalonAtmosphere', 'Dormont', '3000WLibertyAve', 'Pittsburgh', 'PA', '15216', '40.393173', '-80.03695', 'TRUE'),
|
112
|
+
('003b6f4PdppnakGqwo0fUQ', 'SolaSalon', 'Southwest', '7355SBuffalo,SteD', 'LasVegas', 'NV', '89113', '36.05418', '-115.262375', 'TRUE'),
|
113
|
+
('003QzJjq0FYALjyFxKT2tA', 'HarbourBar', '', '1-3Sandside', 'Scarborough', 'NYK', 'YO111PE', '54.283997', '-0.39249977', 'TRUE'),
|
114
|
+
('003wb6vvUFyNgDfD-2dPcw', 'AlterReality', '', '15601DetroitAve', 'Lakewood', 'OH', '44107', '41.48493', '-81.806206', 'TRUE'),
|
115
|
+
('0044Q4cVBcHBgXPmhGgtcQ', 'TheKingsLanding', '', '5946MainStreet', 'Whitchurch-Stouffville', 'ON', 'L4A3A1', '43.969337', '-79.256386', 'TRUE'),
|
116
|
+
('005XmZKuJZuNbl5tGXc5SA', 'TonyRomas', 'Downtown', '620ESaharaAve', 'LasVegas', 'NV', '89104', '36.14431', '-115.14569', 'FALSE');
|
122
117
|
|
118
|
+
insert into review
|
119
|
+
values
|
120
|
+
('0005v4K5iZM3QAfImf_Ugw', 'hH74Tvfd-nzqT6jKDerMTw', 'S63nehkM27Zr77YxN2bA0Q', '1', '2016-08-11', 'ImsoupsetIwontevenreturnwithmyteenageboys.', '0', '0', '0'),
|
121
|
+
('0006hhVjawuXu097INsiIw', '9CyNha8NE-7HEgjvUZFmnQ', 'TNLPYG78zJjjZPYTyeOZyA', '4', '2010-12-11', 'Youwillhaveagreattime!', '4', '0', '2'),
|
122
|
+
('0008P7Cb7U-dpPchjamFWw', '-od707p4FHGul0gte29AoQ', 'XtJbDZODXi3mXHLoScGtwg', '5', '2015-09-11', 'ThepancakeistheyummiestIveeverhadandImdefinitelygoingback.', '2', '1', '1'),
|
123
|
+
('0008uFuu1Sr5yqXeDN8RFw', 'Jb_QTIjDm5zbfrdk11R4fg', 'NaZVUOzqk5b-l0mlki-9Og', '5', '2016-09-10', 'Hadleftoverforthenextdayanditwasevengoodcold.', '2', '0', '1'),
|
124
|
+
('0008zUEB-cuVAR4JZhXwlg', '5MPAZiYotUqgxkbXYY0c_Q', '1_qcKXfm8H8zecygxHjeWw', '2', '2014-02-20', 'Theyhadtherightidea!', '7', '2', '1'),
|
125
|
+
('000AYfflyggMLAtTR6zdaA', 'taTF-fXetRbziIl80xPFjw', 'J-yULQA56PXaphJNA1RKGQ', '1', '2010-03-09', 'Einmalundniemehr...', '0', '0', '0'),
|
126
|
+
('000BqmhDAkCYVa_MfJntpg', '-PfcLYFMW9ZXc1DEWSqw-g', 'gTlDDzDEHyDQ6iwjNhpI6A', '5', '2013-01-12', 'Andtheyofferedanaccommodationforourdisabledsonwithoutouraskingforit,whichwasverykind.Wellbebackagainsoon.', '1', '0', '0'),
|
127
|
+
('000dJwYh7sr5xnsTFNlP5g', '7fzppFRWw-GyPVKqNlC5Eg', 'O7ZvoH_ONGNKbXvHDSZlwg', '1', '2017-10-09', 'Yapaquelesigonoregreso.,', '1', '0', '0'),
|
128
|
+
('000DSSWY_UiSSdm2V4yJUQ', 'o9XzWtzTuV2X9fyYevXmkw', 'CESgogUugOYph4p12qvzFg', '4', '2016-07-01', 'Thewashroomwastinybutsqueakyclean.', '3', '1', '3'),
|
129
|
+
('0-00GgzKPd9ik-X_6r4lBg', 'Oy_5I50HRZ1vXA5bnTPjHg', 'RxFxenmxZ_NUvSdkwPcY4Q', '5', '2013-11-21', 'Awesomeplace!', '3', '1', '1');
|
123
130
|
|
131
|
+
insert into tip
|
132
|
+
values
|
133
|
+
('Greatbreakfastlargeportionsandfriendlywaitress.Ihighlyrecommendit', '2015-08-12', '0', 'jH19V2I9fIslnNhDzPmdkA', 'ZcLKXikTHYOnYt5VYRO5sg'),
|
134
|
+
('Niceplace.Greatstaff.Afixtureinthetownshipforever', '2014-06-20', '0', 'dAa0hB2yrnHzVmsCkN4YvQ', 'oaYhjqBbh18ZhU0bpyzSuw'),
|
135
|
+
('Happyhour5-7Monday-Friday', '2016-10-12', '0', 'dAa0hB2yrnHzVmsCkN4YvQ', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
136
|
+
('Parkingisapremium,keepcircling,youwilleventuallyfindagreatspot', '2017-01-28', '0', 'ESzO3Av0b1_TzKOiqzbQYQ', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
137
|
+
('Homemadepastaisthebestinthearea', '2017-02-25', '0', 'k7WRPbDd7rztjHcGGkEjlw', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
138
|
+
('Excellentservice,staffisdressedprofessionally,polite,mannered,andwelltrained', '2017-04-08', '0', 'k7WRPbDd7rztjHcGGkEjlw', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
139
|
+
('ComeearlyonSundaystoavoidtherush', '2016-07-03', '0', 'SqW3igh1_Png336VIb5DUA', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
140
|
+
('Lovetheirsoup!', '2016-01-07', '0', 'KNpcPGqDORDdvtekXd348w', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
141
|
+
('Soupsarefantastic!', '2016-05-22', '0', 'KNpcPGqDORDdvtekXd348w', 'ulQ8Nyj7jCUR8M83SUMoRQ'),
|
142
|
+
('Thursdaynightis$5burgernight', '2016-06-09', '0', 'KNpcPGqDORDdvtekXd348w', 'ulQ8Nyj7jCUR8M83SUMoRQ');
|
143
|
+
|
144
|
+
insert into users
|
145
|
+
values
|
146
|
+
('000AJVuwnwpGL8hHQUVLYg', 'Randy', '2013-04-21', '1', '0', '0'),
|
147
|
+
('000JFML-9-W2-TGBTS0oaA', 'Deshone', '2014-07-01', '0', '0', '0'),
|
148
|
+
('000JgS1HGrjvIxCn-BrpSw', 'Teresa', '2014-09-28', '0', '0', '0'),
|
149
|
+
('000M3Xl73OIPztL97c3FSg', 'Todd', '2012-02-10', '0', '1', '0'),
|
150
|
+
('000tGHVWdNNkjLk_jWJX5w', 'Megan', '2014-09-01', '0', '0', '0'),
|
151
|
+
('000TZpy1bjaDzwMIaZxmlw', 'Jen', '2015-02-01', '0', '0', '0'),
|
152
|
+
('-0012EkX22eeb2AiW_RkcQ', 'Jake', '2013-11-17', '0', '0', '0'),
|
153
|
+
('0012OgDoCUa0o2icjVgwmg', 'Andrew', '2010-04-25', '30', '15', '27'),
|
154
|
+
('0017YLRTmdhG5m8qggAlPw', 'Edward', '2008-03-14', '1', '0', '0'),
|
155
|
+
('0019WdoIywMw3imBqtSZgg', 'Caitlin', '2015-07-27', '0', '0', '0');
|
156
|
+
```
|
157
|
+
|
124
158
|
#### 条件
|
125
159
|
|
126
160
|
①review数が200以上のユーザーのみ扱います。
|
3
条件の説明に例を追加しました。
title
CHANGED
File without changes
|
body
CHANGED
@@ -2,7 +2,8 @@
|
|
2
2
|
|
3
3
|
#### データセット
|
4
4
|
|
5
|
+
Yelpとは、アメリカ版の食べログ+ホットペッパービューティーみたいなアプリです。いろんな分野の口コミレビューアプリになります。
|
5
|
-
Yelpのデータセットを多少加工したデータセットを使っております。(以下のURLは加工前のデータセットです。)
|
6
|
+
今回はそのYelpのデータセットを多少加工したデータセットを使っております。(以下のURLは加工前のデータセットです。)
|
6
7
|
[Yelp Dataset](https://www.yelp.com/dataset/documentation/main)
|
7
8
|
|
8
9
|
テーブルは全部で4つで、
|
@@ -125,6 +126,15 @@
|
|
125
126
|
①review数が200以上のユーザーのみ扱います。
|
126
127
|
②最も"似ている"2人のユーザーを探したいです。ここでいう"似ている"とは、それぞれのユーザーのreviewとtipの中で、被っているbusiness_idが一番多い2人のユーザーが最も似ているということになります。
|
127
128
|
|
129
|
+
例えば、Aさん(user_id=a)とBさん(user_id=b)がいて、reviewテーブルに、
|
130
|
+
(user_id=a, business_id=1234)
|
131
|
+
(user_id=b, business_id=1234)
|
132
|
+
というタプルがあれば、一つ"似ている"ということになります。さらに、tipテーブルに、
|
133
|
+
(user_id=a, business_id=XXX)
|
134
|
+
(user_id=b, business_id=XXX)
|
135
|
+
もあるとすると、2つ"似ている"ということになります。
|
136
|
+
この"似ている"数が、最も多いユーザーのペアを一つ探したいです。要するに、Yelpで同じ場所を訪れる傾向のあるユーザーを見つけたいです。
|
137
|
+
|
128
138
|
### 試したこと
|
129
139
|
|
130
140
|
とりあえず、tipは置いといて、reviewだけで似ているユーザーを探そうとしたのですが、さっぱり分かりませんでした。
|
2
テーブルの定義の確認をCREATE文にし、中身をスクショで載せました。
title
CHANGED
File without changes
|
body
CHANGED
@@ -2,10 +2,10 @@
|
|
2
2
|
|
3
3
|
#### データセット
|
4
4
|
|
5
|
-
Yelpのデータセットを多少
|
5
|
+
Yelpのデータセットを多少加工したデータセットを使っております。(以下のURLは加工前のデータセットです。)
|
6
6
|
[Yelp Dataset](https://www.yelp.com/dataset/documentation/main)
|
7
7
|
|
8
|
-
テーブルは全部で4つで、
|
8
|
+
テーブルは全部で4つで、
|
9
9
|
```
|
10
10
|
yelp=> \d
|
11
11
|
List of relations
|
@@ -18,75 +18,108 @@
|
|
18
18
|
(4 rows)
|
19
19
|
```
|
20
20
|
それぞれのテーブルの中身は以下の通りです。
|
21
|
+
|
22
|
+
- businessテーブル
|
23
|
+
|
24
|
+
```PostgreSQL
|
25
|
+
-- Table Definition ----------------------------------------------
|
26
|
+
|
27
|
+
CREATE TABLE business (
|
28
|
+
business_id character varying(30) PRIMARY KEY,
|
29
|
+
name character varying(150) NOT NULL,
|
30
|
+
neighborhood character varying(100),
|
31
|
+
address character varying(200),
|
32
|
+
city character varying(100),
|
33
|
+
state character(3),
|
34
|
+
postal_code character(10),
|
35
|
+
latitude real,
|
36
|
+
longitude real,
|
37
|
+
is_open boolean
|
38
|
+
);
|
39
|
+
|
40
|
+
-- Indices -------------------------------------------------------
|
41
|
+
|
42
|
+
CREATE UNIQUE INDEX business_pkey ON business(business_id text_ops);
|
21
43
|
```
|
22
|
-
yelp=> \d business
|
23
|
-
Table "public.business"
|
24
|
-
Column | Type | Collation | Nullable | Default
|
25
|
-
--------------+------------------------+-----------+----------+---------
|
26
|
-
business_id | character varying(30) | | not null |
|
27
|
-
name | character varying(150) | | not null |
|
28
|
-
neighborhood | character varying(100) | | |
|
29
|
-
address | character varying(200) | | |
|
30
|
-
city | character varying(100) | | |
|
31
|
-
state | character(3) | | |
|
32
|
-
postal_code | character(10) | | |
|
33
|
-
latitude | real | | |
|
34
|
-
longitude | real | | |
|
35
|
-
is_open | boolean | | |
|
36
|
-
Indexes:
|
37
|
-
"business_pkey" PRIMARY KEY, btree (business_id)
|
38
|
-
```
|
39
44
|
|
45
|
+

|
46
|
+
|
47
|
+
|
48
|
+
|
49
|
+
- reviewテーブル
|
50
|
+
|
51
|
+
```PostgreSQL
|
52
|
+
-- Table Definition ----------------------------------------------
|
53
|
+
|
54
|
+
CREATE TABLE review (
|
55
|
+
review_id character varying(30) PRIMARY KEY,
|
56
|
+
business_id character varying(30),
|
57
|
+
user_id character varying(30),
|
58
|
+
stars smallint,
|
59
|
+
review_date date,
|
60
|
+
review_text text,
|
61
|
+
useful_votes integer,
|
62
|
+
funny_votes integer,
|
63
|
+
cool_votes integer
|
64
|
+
);
|
65
|
+
|
66
|
+
-- Indices -------------------------------------------------------
|
67
|
+
|
68
|
+
CREATE UNIQUE INDEX review_pkey ON review(review_id text_ops);
|
69
|
+
CREATE INDEX review_bus_id ON review(business_id text_ops);
|
70
|
+
CREATE INDEX review_user_id ON review(user_id text_ops);
|
40
71
|
```
|
41
|
-
yelp=> \d review
|
42
|
-
Table "public.review"
|
43
|
-
Column | Type | Collation | Nullable | Default
|
44
|
-
--------------+-----------------------+-----------+----------+---------
|
45
|
-
review_id | character varying(30) | | not null |
|
46
|
-
business_id | character varying(30) | | |
|
47
|
-
user_id | character varying(30) | | |
|
48
|
-
stars | smallint | | |
|
49
|
-
review_date | date | | |
|
50
|
-
review_text | text | | |
|
51
|
-
useful_votes | integer | | |
|
52
|
-
funny_votes | integer | | |
|
53
|
-
cool_votes | integer | | |
|
54
|
-
Indexes:
|
55
|
-
"review_pkey" PRIMARY KEY, btree (review_id)
|
56
|
-
"review_bus_id" btree (business_id)
|
57
|
-
"review_user_id" btree (user_id)
|
58
|
-
```
|
59
72
|
|
73
|
+

|
74
|
+
|
75
|
+
|
76
|
+
|
77
|
+
- tipテーブル
|
78
|
+
|
79
|
+
```PosrgreSQL
|
80
|
+
-- Table Definition ----------------------------------------------
|
81
|
+
|
82
|
+
CREATE TABLE tip (
|
83
|
+
tip_text text,
|
84
|
+
tip_date date,
|
85
|
+
likes integer,
|
86
|
+
business_id character varying(30),
|
87
|
+
user_id character varying(30)
|
88
|
+
);
|
89
|
+
|
90
|
+
-- Indices -------------------------------------------------------
|
91
|
+
|
92
|
+
CREATE INDEX tip_bus_id ON tip(business_id text_ops);
|
93
|
+
CREATE INDEX tip_user_id ON tip(user_id text_ops);
|
60
94
|
```
|
61
|
-
yelp=> \d tip
|
62
|
-
Table "public.tip"
|
63
|
-
Column | Type | Collation | Nullable | Default
|
64
|
-
-------------+-----------------------+-----------+----------+---------
|
65
|
-
tip_text | text | | |
|
66
|
-
tip_date | date | | |
|
67
|
-
likes | integer | | |
|
68
|
-
business_id | character varying(30) | | |
|
69
|
-
user_id | character varying(30) | | |
|
70
|
-
Indexes:
|
71
|
-
"tip_bus_id" btree (business_id)
|
72
|
-
"tip_user_id" btree (user_id)
|
73
|
-
```
|
74
95
|
|
96
|
+

|
97
|
+
|
98
|
+
|
99
|
+
|
100
|
+
- usersテーブル
|
101
|
+
|
102
|
+
```PostgreSQL
|
103
|
+
-- Table Definition ----------------------------------------------
|
104
|
+
|
105
|
+
CREATE TABLE users (
|
106
|
+
user_id character varying(30) PRIMARY KEY,
|
107
|
+
name character varying(150),
|
108
|
+
yelping_since date,
|
109
|
+
useful_votes integer,
|
110
|
+
funny_votes integer,
|
111
|
+
cool_votes integer
|
112
|
+
);
|
113
|
+
|
114
|
+
-- Indices -------------------------------------------------------
|
115
|
+
|
116
|
+
CREATE UNIQUE INDEX users_pkey ON users(user_id text_ops);
|
75
117
|
```
|
76
|
-
yelp=> \d users
|
77
|
-
Table "public.users"
|
78
|
-
Column | Type | Collation | Nullable | Default
|
79
|
-
---------------+------------------------+-----------+----------+---------
|
80
|
-
user_id | character varying(30) | | not null |
|
81
|
-
name | character varying(150) | | |
|
82
|
-
yelping_since | date | | |
|
83
|
-
useful_votes | integer | | |
|
84
|
-
funny_votes | integer | | |
|
85
|
-
cool_votes | integer | | |
|
86
|
-
Indexes:
|
87
|
-
"users_pkey" PRIMARY KEY, btree (user_id)
|
88
|
-
```
|
89
118
|
|
119
|
+

|
120
|
+
|
121
|
+
|
122
|
+
|
90
123
|
#### 条件
|
91
124
|
|
92
125
|
①review数が200以上のユーザーのみ扱います。
|
1
リンクを修正しました。
title
CHANGED
File without changes
|
body
CHANGED
@@ -3,7 +3,7 @@
|
|
3
3
|
#### データセット
|
4
4
|
|
5
5
|
Yelpのデータセットを多少修正したデータセットを使っております。(以下のURLは加工前のデータセットです。)
|
6
|
-
https://www.yelp.com/dataset/documentation/main
|
6
|
+
[Yelp Dataset](https://www.yelp.com/dataset/documentation/main)
|
7
7
|
|
8
8
|
テーブルは全部で4つで、(今回はbusinessテーブルは使わないかもしれませんが、、)
|
9
9
|
```
|