特徴選択のための進化的計算手法の調査

A Survey on Evolutionary Computation Approaches to Feature Selection
IEEE Transactions on Evolutionary Computation, Vol.20, No.4, pp.606-626, 2016
20170424harada

特徴選択は,データの次元を減らし,分類アルゴリズムといったアルゴリズムの性能を向上させるために,データマイニングおよび機械学習において重要な課題である.
しかし,特徴選択は主に探索空間が膨大なために困難な課題である.
特徴選択問題を解決するために,様々な方法が適用されている.
そのうち近年では,進化的計算技術が注目され,成功を収めている.
しかし,代替手法の長所と短所に関する包括的なガイドラインは存在しない.
これは分離・断片化された分野に対して,最終的に性能を改善しアプリケーションの成功させる機会の損失につながる.
本稿では,特徴選択のための進化的計算技術に関する最先端の内容について包括的に述べ,様々なアルゴリズムの貢献を特定する.

正規化されたセンサ共分散行列の分類:CSP の代替

Classifying Regularized Sensor Covariance Matrices: An Alternative to CSP
IEEE TRANSACTIONS ON NEURAL SYSTEMS AND REHABILITATION ENGINEERING,VOL. 24, NO. 8, AUGUST 2016
20161222_tishihara

一般的な空間パターン(CSP)は, 運送想起タイプのブレインコンピュータインタフェース(BCI)データセッ トを分類するために一般的に使用される技術である. 基本的なテクニックについて多くの拡張と改良を加えてきた により, 多方面で利用されている. しかしながら,CSP の欠点は, 信号処理パイプラインが,2 つの教師付き学習段階 を含むことである. 第 1 はクラス別の空間フィルタが学習され, 第 2 は分類器がフィルタリングされた分散を分類 するためである. これにより潜在的なオーバーフィット問題が発生する可能性があります. これは CSP をほんの数 のフィルタに限定することで一般的に回避可能である. この研究では, 監督された学習段階を 1 つだけ必要とする 代替アプローチが必要であると主張している. この手法の重要なステップは, 白色化された空間共分散行列を特徴 として使用し, 線形分類器を使用して空間フィルタと分類器の重みを同時に学習することである. しかし不幸なこ とに, このアプローチは過適合問題にもつながる. 私たちは白色化計算を適切に正則化することによって, これ らの問題に対処する方法を示す. リッジ正則共分散は, 白色化空間共分散,CSP、および 2 つの正規化 CSP 分類法 より, 正則化法の BCI の有用性を示す運動想起データセットにおいて優れている. トレースノルムの正則化は、結 果の解釈可能性に役立つ.

静的および動的なレスティングステイト fMRI の脳コネクティビティを用いた統合失調症と双極性患者の分類

Classification of schizophrenia and bipolar patients using static and dynamic resting-state fMRI brain connectivity
NeuroImage, Vol.134, 645-657, 2016
20161018 rhagiwara

最近,機能的ネットワークコネクティビティ(空間的に離れた脳内ネットワーク間の時系列相関として定義され た,FNC)が,様々な精神疾患における脳内ネットワークの機能的な構成を調べるために使用されている.動的 な FNC は,時間の短い期間にわたって FNC の変化を考慮する従来の FNC 解析の最近の拡張である.このよう な動的 FNC 計測は,コネクティビティの様々な側面について利益となるかもしれないが,複雑な精神疾患におい て分類するために静的および動的 FNC の性能の詳細な直接的な比較はない.本論文では,静的および動的 FNC の特徴に基づいて,統合失調症,双極性患者および健常者の自動分類のためのフレームワークを提案する.また, 静的および動的 FNC 間の交差検定分類性能を比較する.結果は,動的 FNC からの特徴が分類目的のための静的 FNC より明確な利点を示し,動的 FNC が予測精度の面で静的 FNC よりもより優れていることを示す.また,静 的および動的 FCN の特徴の組み合せは,動的 FNC の特徴だけであるより分類性能を大幅に改善することなく, 静的 FNC は分類目的のために動的 FNC を組み合わせたとき重要な情報を追加しないことを示す.静的および動 的 FNC の特徴に基づいた 3 つの分類方法は,高い精度で適切な症状のグループに個々の対象を判別する.提案し た分類のフレームワークは,追加の精神疾患に潜在的に適用可能である.

ワイヤレスカプセル内視鏡におけるクローン病病変の評価

Assessment of Crohn’s Disease Lesions in Wireless Capsule Endoscopy Images
IEEE Transactions on biomedical engineering vol.59.2 pp.355-362, 2012
20160803_nishida

カプセル内視鏡は,小腸の大部分へ非侵襲的なアクセスを提供する.そうでなければ,外傷や侵襲無しではア クセスすることはできない.しかし,それは臨床医によって手動で検討されなければならない大量のデータ(約 5 万枚の画像)を生成する.このような大量のデータの生成は,画像解析および,教師あり学習法を適用するための 機会を提供する.カプセル内視鏡画像による自動分析は,まれに見られる出血の検出に焦点を当ててきた.これ らの検出方法と比較し,我々は,クローン病による粘膜炎症によって作成された病変について個別の疾患の評価 を検討した.我々の仕事は,クローン病病変のための体系的な教師有り学習,個別の病変を分類する分類器,並 びに病変の重症度の定量的評価についての最初の研究である.我々は,これらの方法の評価を行うために,よく 発達した 47 のデータベースを使用した.この開発された手法は,手動で専門家によって評価された重症度分布の 正解と高い一致を示し,精度は病変の 90%,再現率は 90%以上を示した.

Wireless Capsule Endoscopy(WCE), classification, Content-based image processing, endoscopy

子宮内画像におけるコンピュータ支援診断

Computer-Aided Diagnosis in Hysteroscopic Imaging
IEEE Journal of Biomedical and Health Informatics, pp.1129-1136,vol.19,2015
20160524_nishida

本稿は,子宮内膜癌の早期発見のための CAD システム開発を目的とする.提案システムは,テクスチャの標 準化を行い,それらの特徴量を選択,医師に抽出されたテクスチャ特徴の比較分布を提供する事で再現性を支援 している.提案システムは,52 人の被験者から得られた対象領域 516 カ所を用いて検証を行った.ROI(Region of interest)は正常部位,異常部位間で均等に分布していた.再現性を支援するために,まず初めに,RGB 画像 に対してガンマ補正を行い,HSV,YCrCb 画像に変換した.我々はガンマ補正された RGB,HSV,YC r Cb 画 像のそれぞれのチャンネルから,以下のテクスチャ特徴量を取得した. 1. 統計的特徴量(SFs) 2. 空間諧調依存性マトリクス(SGLDM) 3. グレーレベルの統計的特徴量(GLDS)
そして,得られたテクスチャ特徴量を SVM,確率的ニューラルネットワーク(PNN)に入力した.多重比較の 処理後,異常部位の ROI から得られたテクスチャ特徴量は,正常部位から得られたそれとはかなり異なっている ことが分かった.正常部位の ROI から得られたテクスチャ特徴量と比べると,異常部位の ROI から得られた特 徴量は画像強度が低く,一方で分散とエントロピー,コントラストは高い値を取っていた.ROI の分類の面では, SF と GLDS を用いて SVM で識別した時が最もいい結果となった.この組み合わせにおいて,提案システムは, 81%の識別率を得た.

Classification, Computer-aided diagnostic(CAD), computer-aidede hysteroscopy, endometrial cancer, endoscopy, hysteroscopy, texture features

医療データセットを用いた不均衡クラス問題に対する学習メソッド

A learning method for the class imbalance problem with medical data sets
20160115_tsato

医療データセットにおいて,データは圧倒的に多い正常なサンプルと数パーセントの異常サンプルで構成され, 不均衡問題を引き起こす.不均衡データ問題において,学習モデルを作成するために全てのデータを学習器に入れ ることはマジョリティクラスの方へ学習の偏りが生じる.この問題を扱うために,マイノリティクラスのオーバー サンプリングとマジョリティクラスのアンダーサンプリングを行いデータセットのバランスをとる戦略をとる.マ ジョリティクラスに対して,ガウシアン型ファジーメンバーシップファンクションとアルファーカットをデータサ イズの削減のために使用する.マイナークラスに対してはメガトレンドディフュージョンメンバーシップ関数をサ ンプルの作成のために使用する.さらに,クラスのデータサイズのバランスを整えた後に,識別精度を向上させる ためにデータの次元をより高い次元に写した.本稿ではインド人の糖尿病データセット,肝疾患のデータセットの 2つのデータセットを例に示す.結果提案手法では,SVM,C4.5 アルゴリズムとくらべて,よい識別率を得た.