データの並びを比較して正答率（スコア）を算出する方法

Question

あるデータを元に算出したA,Bの集団があります。そのデータをスコア順で並べた時、理想（正解）は以下の様になります。
```
A,A,A,A,B,B,B,B
```
Aのデータは左に寄ってBのデータは右に寄るのが理想です。

しかし、実際にこのA,Bを並べてみると
```
B,A,A,B,A,A,B,B
```
の様に並んだとします。この時、正解の並びから実際に並んだAとBのスコア（正答率）を出したい時、どの様に計算すればよいかわかりません。
イメージとしては、正解の並び通りに並ぶとA,B共に正答率100%、Aが右かBが左にズレるほどスコアが小さくなり正答率が落ちる様にしたいです。
使用している言語はPythonです。

Accepted Answer

[バブルソート](https://ja.wikipedia.org/wiki/%E3%83%90%E3%83%96%E3%83%AB%E3%82%BD%E3%83%BC%E3%83%88)してスワップした回数を数えるのはいかがでしょうか（大きいほど正答率は低い）。
数え方は[How to count number of swaps in a bubble sort?](https://stackoverflow.com/questions/29288367/how-to-count-number-of-swaps-in-a-bubble-sort)が参考になるかと。
```Python
# 「スワップ率」
def swap_rate(l):

    # 必要スワップ回数
    def swap_count(l):
        count = 0
        for j in range(len(l)):
            for i in range(1, len(l)-j):
                if l[i-1] > l[i]:
                    count += 1
                    l[i-1], l[i] = l[i], l[i-1]
        return count

    # 最悪スワップ回数
    def max_count(l):
        from collections import Counter
        c = Counter(l)
        assert len(c.values()) == 2 # ２種類のみで構成されたリスト

        l_len = len(l)
        max_cnt = 1
        for v in c.values():
            max_cnt *= l_len - v

        # 検算
        #l2 = sorted(l,reverse=True)
        #assert swap_count(l2) == max_cnt

        return max_cnt

    swap_cnt = swap_count(l)
    max_cnt = max_count(l)
    return 1 - (swap_cnt/max_cnt)


for s in ['AAAABBBB','BBBBAAAA','AAABABBB','BAAABBBA','BAABAABB']:
    r = swap_rate(list(s))
    print(s,r)
"""
AAAABBBB 1.0
BBBBAAAA 0.0
AAABABBB 0.9375
BAAABBBA 0.5625
BAABAABB 0.625
"""
```

Answer

Bの位置が右側にあるほど高い値…ということで，
簡単に，データ列内のBの位置のindexの総和とかを考えるとどうでしょう．
（indexが0から始まるとして）
最良の
A,A,A,A,B,B,B,B の場合，総和は 4+5+6+7 = 22
最悪の
B,B,B,B,A,A,A,A の場合，総和は 0+1+2+3 = 6

↓
6～22の範囲を適当に正規化する

Answer

ド単純で恐縮ですが。

基礎を100％として、
一番左にB もしくは 一番右にA がある場合⇒それぞれ -21.875 ％
左から２番目にB もしくは 右から２番目にA がある場合⇒それぞれ -15.625 ％
左から３番目にB もしくは 右から３番目にA がある場合⇒それぞれ -9.375 ％
左から４番目にB もしくは 右から４番目にA がある場合⇒それぞれ -3.125 ％

値は４番目と５番目の間(言わば4.5番目)を中央(0)としてその距離で取り、
全て足すとマイナス１００％になるようにしています。

can110さんの例を借ります。
'AAAABBBB' 100％
'BBBBAAAA'   0％ (100-21.875-15.625-9.375-3.125-3.125-9.375-15.625-21.875)
'AAABABBB'  93.75％ (100-3.125-3.125)
'BAAABBBA'  50％ (100-21.875-3.125-9.375-15.625)
'BAABAABB'  62.5％ (100-21.875-3.125-3.125-9.375)

Answer

素直に正解率の計算でいいと思います。一致箇所の数を長さで割るだけです。

関連した質問