概要

 画像認識は Deep Learning などでも中心課題となっています。しかし、Deep Learning でもいろいろの大小のサイズの複数のカテゴりーの画像が複数個または重なって存在し、かつそれらが変形をもっている場合、識別が困難である状況にあります。

  その理由は、Deep Learning (SSD, Semantic segmentation etc.) では現在のところ「階層性」の導入が困難なためと言われています。1つの画面にサイズの異なる複数カテゴリの画像が重なって入っていると、入っている複数の画像は階層性によって扱かわねばならないのに、それができなくて、正確な識別ができないことが生じています。

 Deep Learning では、サイズの異なる多数のカテゴリの画像が、学習段階で多層階層の結合係数の中では、サイズを強制的に合わせて融合させてしまっています。そこで形成された特徴抽出は学習した多数の画像に共通して使うことが可能ですが、入力パターンにある、1つの大きい画像の中に重なっている他の小さいパターンの分節を良好に担えるものではありません。

 言い換えると、入力画像にある小さいパターンは、大きなパターンとサイズの異なりに応じた扱いがされないということです。従って、特に小さいパターン同士で類似していて、少しの違いがカテゴリーを分けている場合に、この弱点が顕著にでます。これは、階層性がないことで生じるのです。
 
 1つの画像に、多くの種類のものが重なって入っている場合の画像認識には,分節(segmentation) の本質的な解決を必要とします。認識と分節は、「ニワトリと卵」の関係にあり、分節ができれば認識は容易になり、認識ができれば分節も容易になるというものです。
従って、それを解決するアルゴリズムは、「ニワトリと卵」の関係を直接的、かつ明示的に解決していることが必要です。

それ以上に重要なことは、Deep Learning では画像へのラベリングを必要とします。しかし、画像には適切なラベルが付けられない場合もおおくあります。自然言語でラベルをつけるとしても、画像と言語記述にはおおきな隔たりがあります。

我々が必要とするのは、自然言語を含むラベルではなく、参照画像と類似する画像を事前の切り出しを行わずに取り出すことです。類似するとは、大きさや形の非線形の変形を許容することであり、また、切り出しは、occlusion (遮蔽)や背景や他の画像との重なりをもつものからの類似画像の切り出しです。ここのおける頑健さが評価の基準です。

  我々は、2次元の連続DPとよぶものを提案していますが、これがまさにその解決を直接的に行っているものです。2次元連続DPは、岡と、長年に渡る他の研究者との、一連の共同研究の結果、現在の極めて、完成度の高いversion に至ったものです。岡との共同研究者を行った方々は、西村拓一さん(現、産総研)、岩佐有弥さん(現、セイコーエプソン)、矢口勇一さん(現、会津大)です。

 2次元連続DPは、1次元連続DPを2次元に拡張したものです。1次元連続DPは、1978年に岡によって提案されたもので、これは、時系列のような1次元のパターンのsegmentation-free の認識を実現しています。

2次元連続DPでは、個別識別対象ごとに対象画像について、独立に適用され, segmentation-free の認識を行います。これは、個別識別対象がそれぞれカテゴリに依存する1つの階層を外部的に構成しており、Deep Learning のようなカテゴリが内部的に多重になっている階層ではありません。

2次元連続DPとDeep Learning との最大の方式の異なりは、以下の点です。

 Deep Leaning はsegmentationを実現するために、カテゴリー間に本来ある階層を扱うに際し、CNN 内でその階層を無くす方向(画像サイズをそろえるなど)での学習を行なわねばならない。しかし、その階層をなくす方向は、認識の劣化を招く方向でもあるという矛盾を抱えています。

一方、2次元連続DPは、個別カテゴリーごとにsegmentation-free の認識が独立してでき、外部的に階層を扱っても、認識性能を落とさずsegmentation-free 機能は維持されます. つまり,2次元連続DPはDeep Leaning のように,segmentation を行わせるために階層への毀損を必要としないのです.

さらに、2次元連続DPには、個別対象画像の拡大縮小を含む形の非線形変形を吸収していますので、つまり参照パターン(「学習データ」)は1つとなります。

2次元連続DPは、このような独立の階層構造をもち、学習を不要とすることで、画像パターンの識別で有用なものとなっています。

Deep Learning(convolution 演算を含む)と2次元連続DPも、階層ネットワークのfeed-forward and local 計算であるところは共通しています。DLのlocalityはconvolution 演算によって生じていますが、2次元連続DPのlocalityはdynamic programming の局所化によって生じています。

1次元の連続DPは、以下の文献が多方面で引用されています。

[1] "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998)。

「2次元連続DP」についてはすでに特許取得済です。

講座・グループ

研究カテゴリー

活動分野
画像処理
関連キーワード