常連

## テーマ、知りたいこと
データの可視化の効率化について

## 背景、状況

背景
業務で色々なデータを可視化する必要があるため、jupyter notebookで、matplotlibやplotlyなどを使用して可視化をしております。
毎回、微妙に確認したい項目が違うので、折れ線グラフや散布図なども微妙に設定を変えて表示しています。

やりたいこと
高頻度で、可視化するので効率化をしたいと考えています。
現状は毎回可視化するための関数を作り直しています。ある程度ベースの関数を作っておくなど、効率化の方法はありそうなのですが具体的な方法がわからず今に至ります。

質問
データ分析の仕事をされている方や、可視化作業を多くされている方はどのようにされていますか？
可能であれば、普段から実施されている具体的な方法を教えていただけないでしょうか？

データの可視化の効率化について

### 前提・実現したいこと

エクセルにおいて、2つのデータの一致率を出したいです。

### 発生している問題・エラーメッセージ

エクセルで2つのデータがあります。

データ1
商品　　実績
A　　　　2
C　　　　3
E　　　　1
D　　　　5

データ2
商品　　実績
A　　　　3
B　　　　4
C　　　　3
D　　　　4
F　　　　2

この2つのデータにおける、商品出現の一致率かつ商品実績の一致率を
出したいと考えています。

### 該当のソースコード



### 試したこと

SUMPRODUCT関数を使うと商品出現の一致率は出せそうですが、かつ実績の一致率は
出せないようでした。

### 補足情報（FW/ツールのバージョンなど）

エクセルで2つのデータの一致率を求めたい

### 実現したいこと
店舗名、電話、住所、レビュー…などの情報を一括収集したいです

### 発生している問題・分からないこと
pythonとかは難しくて無理です



### 該当のソースコード

```
スクレイピング google map
```

### 試したこと・調べたこと
- [ ] teratailやGoogle等で検索した
- [ ] ソースコードを自分なりに変更した
- [x] 知人に聞いた
- [ ] その他

##### 上記の詳細・結果
ノーコードスくレイピングツールがあるらしいです

### 補足
特になし

Googleマップから店舗情報を収集したいのですが、コード不要でできる方法はありますか？

以下のコードを実行して特定の列を抜粋しようとしたところ、エラーが発生しました。
解決への方法ご教示いただきたいです。
実行できなかったため一度一つ目のbig_sizeの部分だけ出力して試そうとしているところです。

```
import csv 
import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv("/Users/uematsuyuuki/Desktop/kousaten_001_houkou.csv",encoding="cp932")

print(df.loc[:,['上り大型乗用','上り大型貨物']])

def big_size():
    big_vehicle = []
    big_vehicle.append(df.loc[:,['上り大型乗用','上り大型貨物']])
    return big_vehicle

def middle_size():
    middle_vehicle = []
    middle_vehicle.append(df.loc["上り普通乗用","上り普通貨物"])
    return middle_vehicle

def small_size():
    small_vehicle = []
    small_vehicle.append(df.loc["上り四輪計","上り二輪車"])
    return small_vehicle

big_size()
middle_size()
small_size()
```

#現在の状況
print関数を使ってcsvの内容を見てみた結果→
![![イメージ説明](4cc16c7749cc82fd994818922a05dede.png)](2123b4f4dc5715e5dbf16cdff4d1605f.png)
この通り列と行がバラバラな状態になってしまっています。
自分が思うにこれが原因で正確な列を認識することができず、列からデータが取り出せないと出力しているのかなと思っています。ですがこれが原因の場合どのような手を打てば良いかわかりません。。。。。

KeyError: "None of [Index(['上り大型乗用', '上り大型貨物'], dtype='object')] are in the [columns]"

以下のような2つのデータフレームが与えられたとします。

### items

|item_id|item_category_id|
|-------|----------------|
| 1 | 51 |
| 2 | 11 |
| 3 | 42 |

### transactions

|id|item_id|item_num|
|-------|----------------|
| 1 | 3 | 10 |
| 2 | 2 | 9 |
| 3 | 2 | 22 |

ここで　transactions に item_category_id の列を新設したいです。
つまりitem_idの列に対応するitem_category_idを調べながら、列に追加していきたいです。

|id|item_id|item_num| item_category_id |
|-------|----------------|-------------|
| 1 | 3 | 10 | 42 |
| 2 | 2 | 9 | 11 |
| 3 | 2 | 22 | 11|

**これを実現する最もスマートな方法は何でしょうか？**

以下は私が試したコードですが、異様に計算時間がかかる上、エラーが出ました。

＊＊追記＊＊＊
エラーが起こったのは、DataFrameのindexが異なっているからだったようです。
一度右辺をリストにした後、pd.Seriesにし、さらにpd.concatでDataFrameを結合することで一応、目的は達成しました。

しかしながら、結構時間がかかるので、より良い方法があるのではないかと考えております。
またint()などとしているあたりも鈍重に感じます。

```python
transactions['item_category_id'] =
    [ int(items[items['item_id']==ID]['item_category_id']) for ID in transactions['item_id'].tolist() ]
```

よろしくお願い致します。

Pandasで他のdfを参照しながら新しい列を作る方法

scikit-learnのLabelEncoderに関する質問です。

####実行内容・疑問点

まず以下のようにしてLabelEncodingを行いました。（ jupiter notebookを用いています。）

``` python
from sklearn.preprocessing import LabelEncoder

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["yama"]) )
#出力結果=>[3]

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["yama"]))
#出力結果=>[3]
```

ここで、１度目の出力の後、もう一度

```
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
```

として、LabelEncoder()を定義し直し、再びfit()を行なっている訳ですが、le.transform(["yama"])の出力結果が１度目と等しくなります。

次に、

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["tokyo"]))
#出力結果=>[1]

le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto"])
print(le.transform(["tokyo"]))
#出力結果=>[1]
```

を行いましたが、やはりle.transform(["tokyo"])の出力結果が等しくなりました。

ここで、ラベル名が等しければ、LabelEncoder()を定義し直し、再度fit()を行なっても、出力結果が必ず等しくなるのかな？と思ったのです。

しかし、以下のコードを実行したところ、

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto","mori"])
print(le.transform(["tokyo"])) 
#出力結果=>[2]
```

le.transform(["tokyo"])の出力が、[1]ではなく[2]になりました。
変更点は、fit()に用いるラベルを１つ追加したことです。

さらに、以下も実行しました。

```python
le = LabelEncoder()
le.fit(["umi", "yama", "tokyo", "kyoto","mori","mori","mori","mori"])
print(le.transform(["tokyo"])) 
#出力結果=>[2]
```

今度は１つ前の出力結果と等しくなります。一体どういう仕組みでラベルの数値化が行われているのか、とても気になっています。

####質問
LabelEncoderを用いた際、ラベル名を数値に変換する際にどういったルールがあるのか、詳しい方がいたら教えていただきたいです。

scikit-learnのLabelEncoderの仕組みについて

pythonやmecabを使って文章内に出現する改行数をカウントしたいのですが、良い方法が見つかりません。
教えていただけませんでしょうか？

例：
これはサンプルです。
これはサンプルです。

pythonで文章内の改行数を数える方法

こういった時系列データがあったとして、これを年、月、日、時、分、秒というカラムに分割したいです。

df
0         2016-01-01 00:00:00
1         2016-01-01 00:00:00
2         2016-01-01 00:00:00
3         2016-01-01 00:00:00
4         2016-01-01 00:00:00
...                       ...
20216095  2016-12-31 23:00:00
20216096  2016-12-31 23:00:00
20216097  2016-12-31 23:00:00
20216098  2016-12-31 23:00:00
20216099  2016-12-31 23:00:00

pandasにはpd.to_datetimeというメソッドがあり、これで文字列をdatetime objectにするところまではできたのですが、

df_time = pd.to_datetime(df)
df_time.year()として年のカラムを抽出しようとしたら
 'Series' object has no attribute 'year'というエラーがでて、抽出できませんでした。
どのようにしたら分割できるのでしょうか。

データマイニング