遺伝的アルゴリズムによる,顔認識アプリケーションのためのconvolutional neural networkの構造最適化

Genetic algorithm-optimised structure of convolutional neural network for face recognition applications
IET Computer Vision, vol.10, no.6, pp.559-566, 2016
20161103_ttamaki

バイオメトリックとコンピュータビジョンのアプリケーションにおいて,顔認識のための適切な手法を提案す ることは未だに困難な課題である.いくつかの信頼性の高いシステムは比較的制御された条件のもとで導入され たが,その認識率は一般的な条件で満足のいくものではない.これは特にポーズや照明,そして表情の変化があ るときに当てはまる.これらの問題を軽減するために,CNNとSVMの両方の優位性をもったハイブリッド顔認 識システムが提案されている.この目的のために,まず,遺伝的アルゴリズムをCNNの最適な構造を見つけるた めに用いる.そして,そのシステムの性能はCNNの最終層とアンサンブルSVMを置換することにより改善され る.最後に,誤り訂正の概念を用いて決定境界が決まる.学習可能な特徴抽出器として,CNNがポーズや照明の 変化を伴う顔認識を可能とする柔軟な認識システムを提供する.シミュレーション結果はシステムが良好な識別 率を達成し,表情,重なり,ノイズそして照明の条件の変動に対してロバストであることを示している.

等強度の複数撮像手段における幼児脳画像分割深層畳み込みニューラルネットワーク

Deep convolutional neural networks for multi-modality isointense infant brain image segmentation
NeuroImage, vol.108, pp.214-224, 2016
20161015_ttamaki.pdf

白質 (WM),灰白質 (GM),と脳脊髄液 (CSF) への幼児の脳組織画像の分割は,初期の脳発達における健康と 病気を調べる上で重要な役割を果たす.等強度段階 (生まれて 6 8ヶ月程度) において,白質と灰白質は T1 と T2 の MR 画像ともに同程度の信号強度を示す.そのため,この段階の幼児の脳の組織分割は非常に困難である.ご く少数の既存手法は,この等強度段階の組織分割のために設計されている.しかしながら,これらの既存手法は, T1 または T2 画像のどちらか一方の画像,または T1 と T2 画像の組み合わせのみを用いていた.本稿で,我々は 複数の撮像手段で得られるMR画像を用いて,等強度段階の脳組織を分割するために深層畳み込みニューラルネッ トワーク (CNN) を利用することを提案する.CNN は,訓練可能なフィルタと局所受容野的役割を持つプーリン グ作用は生の入力画像に交互に適用され,結果的に複雑な特徴の階層構造が生じる Deep Learning モデルの一種 である.具体的に,我々は入力として T1 と T2 と異方性比率 (FA) 画像から成る複数の撮像手段の情報を用いて, 出力として分割マップを生成した.複数の中間層には,入力と出力の間の非常に非線形な特徴マップから特徴を 捉えるために,畳み込み,プーリング,正規化やその他の処理を適用した.我々は,我々の提案手法と従来手法の 性能を 1 組の等強度段階の脳画像を手動で分割したものを用いて比較した.結果は,我々の提案手法が従来手法 よりもかなり性能が優れていた.これに加えて,我々の結果は,複数の撮像手段の画像の統合は等強度段階の脳 画像の分割の大きな性能向上につながることを示した.

特徴とアンサンブルに基づく階層型の網膜血管セグメンテーション

Hierarchical retinal blood vessel segmentation based on feature and ensemble learning
Neurocomputing vol. 149, pp. 708-717, 2015
20160524 ntanaka

網膜血管のセグメンテーションは,糖尿病性網膜症,高血圧及び新血管疾患のような多くの疾患の診断のため に実際の臨床において重要である.本稿では,網膜血管セグメンテーションの問題を解決するために,畳み込み ニューラルネットワーク(CNN)及びランダムフォレスト(RF)の二つの優れた分類器を組み合わせた教師あり学 習を提案する.この手法では,CNNは学習可能な階層的特徴抽出器,RFは学習可能な分類器としての役割を担 う.特徴の学習と伝統的な分類器のメリットを統合する事により,提案手法は自動的に元画像の特徴量を学習し, パターンを予測する事が可能である.実験は二つの公開されている網膜画像データベース(DRIVEとSTARE)を 利用して行い,同じデータベース上の他の主な研究と比較して,提案手法のパフォーマンスと有効性を実証する

手書き文字分類の複数の畳み込みニューラルネットワーク

Convolutional Neural Network Committees for Handwritten Character Classi cation
International Conference on Document Analysis and Recognition (ICDAR), pp.1135-1139, 2011
20151126_rtamura

長年の停滞の後,2010年に,手書き数字認識のベンチマークであるMNISTの最高記録は,誤認識率が0.4%から0.35%まで減少した.ここでは,グラフィックスカードを用いて7層のCNNs(ConvolutionalNeuralNetworks)で我々は0.27%を記録する.これはヒトの識別成績に近づいている.我々は,同じCNNsモデルをNISTSD19にも適用する.これは,小文字や大文字を含んだ識別がより難しくなったデータセットである.7層構造のCNNsは,これまで発表されてきた中で,NISTデータセットの数字,文字ともに最高の成績を得る.我々の手法の構造安定性は,78125通りの異なる7層ネットワークを分析することによって確認される.

階層的な表現の拡張可能な教師なし学習のための Convolutional Deep Belief Networks

Convolutional Deep Belief Networks for Scalable Unsupervised Learning of Hierarchical Representations
Proceedings of the 26th Annual International Conference on Machine Learning, pp.609-616, 2009

DeepBeliefNetworkのような階層的な生成モデルの教師なし学習に多くの関心がある.標準サイズのまま,高次元の画像にそのようなモデルを拡張することは,難題なままである.この問題に対処するために,我々は,ConvolutionalDeepBeliefNetworks(実画像サイズに比例する階層的な生成モデル)を提案する.このモデルは変換-不変量で,効果的なボトムアップとトップダウンの確率推論を支援する.我々のアプローチの鍵は,確率的なMaxプーリングである.それは,確率論的に安定した方法でより高次の層の表現を縮小する新しい技術である.物体と自然の場面のラベルのない画像から,アルゴリズムが有益な高水準の視覚の特徴(例えば物体のパーツ)を学ぶことを,我々は実験で示す.我々はいくつかの視覚の認識課題に関して優れたパフォーマンスを示し,モデルが標準サイズの画像について階層的な(ボトムアップとトップダウンの)推測を行うことが可能であることを示す.

20151103_rtamura

手書き郵便番号認識に誤差逆伝播法を適用

pdf

Backpropagation applied to handwritten zip code recognition

Neural Computation,Vol.1,No.4,pp.541-551,1989
単純な数字画像の認識に関する先行研究では複雑な課題の良い汎化はタスクに関する事前知識の一定量を含むネットワークアーキテクチャを構築することにより得ることができる.その基本的な設計原理は,過度の計算能力を低下させることなく,可能な限りネットワーク内の自由パラメータの数を減らすことである.この原理の適用は正確な汎化能力の確率を増加させる.なぜなら,それは次元とエントロピーを減らす特殊なネットワークアーキテクチャをもたらす.本稿では,私たちはUS メールから得られる手書き数字認識の実世界の問題に誤差逆伝搬法のアルゴリズムを適用する.この問題で私たちのグループによって報告された以前の結果とは異なり,学習するネットワークには特徴ベクトルというよりは直接画像を取り入れる.従って,低レベルの大量の情報を扱う誤差逆伝搬法を適用したネットワーウの能力を示すことになる.

Back propagation,Handwritten digits recognition,Convolutional neural network