性能評価について(分類)

性能評価の指標・手法

  • 機械学習の分類において、性能を評価する指標・手法・尺度・観点として、以下などが挙げられる.

    • 混合行列 ( Confusion Matrix )

    • 正解率(Accuracy)

    • 真陽性率、偽陽性率 ( TPR, FPR )

    • ROC曲線

    • 実行時間、学習時間

  • 以下では、 "スパイの判別" を例として記載する.

混合行列

  • 学習後の分類器における出力値が、ラベルとどの程度一致しているかを、ラベルの真偽と出力の真偽ごとに整理した表(行列). (図はAI Academyの画像を引用.)

    ../../_images/confusionMatrix.jpeg
  • 評価サンプルは次.

    confuseMat = sklearn.metrics.confusion_matrix( labels_test, labels_pred )
    

正解率

  • 学習後の分類器における出力値が、ラベルとどの程度一致しているかを表す指標.

  • スパイ判定の総合的に見た正解率.

    Accuracy = \dfrac{ TP + TN }{ TP + FP + FN + TN }

真陽性率

  • すべての”本当はスパイ”である人の中から、”何人のスパイ”をもれなく、敏感に、見抜けるか?

  • スパイへの嗅覚の強さ.

  • 再現率(recall)、感度(precision)とも呼ばれる.

    TPR = \dfrac{ TP }{ TP + FN }

偽陽性率

  • 偽陽性として、無実の人間をスパイに仕立て上げてしまう率.

  • すべての”スパイ”でない人の中から、”何人間違ってスパイ”にしてしまうか? 誤検挙率の高さ.

  • 真陽性率を敏感にしようとすると、偽陽性率も上がってしまいがち.

    FPR = \dfrac{ FP }{ FP + TN }

ROC曲線

  • ROC曲線(Reciever Operating Characteristic curve:受信者動作特性曲線)とは、真偽がはっきりとわからない情報の特性を示す曲線.

  • もとは、レーダーシステムなどの通信工学で使われていた特性線図らしい.

  • 縦軸に真陽性率、横軸に偽陽性率をとったプロット. 真陽性率と偽陽性率は相関関係にあることが多いので、これらの相互の特性を表した図である. + e.g.1 ) 真陽性率を高いけど、続々とスパイを検挙してて、偽陽性率も高いシステムなのか. + e.g.2 ) それとも、明らかなスパイ以外なかなか検挙しないけども、無垢の一般市民の自由を奪うことなどあってはならないことを目指したシステムなのか

学習時間・予測時間

  • 学習に要する時間、もしくは、予測に要する時間

  • 勿論、短いほうが良い