SMOTE:人工的マイノリティクラスのオーバーサンプリング手法

SMOTE: Synthetic Minority Over-sampling Technique

Journal of arti cial intelligence research,pp.321-357,2002.
20150909_tsato.pdf

不均衡データから分類器を構築する手法を述べる.分類の各クラスにおけるサンプル数がおおよそ等しくない場合,データセットは不均衡である.しばしば現実世界のデータセットは,大多数を占める正常サンプルとほんのわずかなパーセンテージを占める異常サンプルもしくは関心を寄せるサンプルによって構成されている.異常(関心を寄せる)サンプルを正常サンプルと誤識別するコストはこの逆のコストよりもはるかに高い.マジョリティ(正常)クラスのアンダーサンプリングは分類器における少数クラスの精度を向上させる手法として提案されている.本稿では,マイノリティ(異常)クラスのオーバーサンプリングとマジョリティ(正常)クラスのアンダーサンプリングを組み合わせることで,マジョリティクラアスのアンダーサンプリングのみよりもROC空間においてより良いパフォーマンスを達成した.さらに本稿では我々の手法がナイーブベイズにおいて,リッパーの損失率やクラスの事前確率を変化させるよりも、ROC空間において優れた分類器の性能を達成することができたことも示す.マイノリティクラスをオーバーサンプリングする我々の手法は人工的にマイノリティクラスのサンプルを作成する必要がある.実験はC4.5とリッパーと単純ベイズの分類器を使用した.この手法の評価は曲線下の面積(AUC)とROC曲線を用いて行った.