基本情報

所属
産学イノベーションセンター
職位
特任教授(教育研究特別顧問)
E-Mail
oka@u-aizu.ac.jp
Webサイト
http://www.u-aizu.ac.jp/research/faculty/detail?cd=90001

教育

担当科目 - 大学
フーリエ解析
担当科目 - 大学院
無し

研究

研究分野
パターン認識、人工知能、ロボット
略歴
1. 東京大学工学系研究科修士了 2. 電気試験所(現,産総研)入所 3. National Research Council of Canada (Visiting Scientist) 4. Real World Computing (国家プロジェクト,研究部長兼研究室長)
現在の研究課題
動画からの広領域3次元画像復元、自動運転のためのビデオから3次元距離動画再構成,動画像からのセグメンテーションなしの動作認識、カクテルパーティ音声の認識、動画によるスポーツ競技自動判定、動画における多数個体群の個々の動き,導線抽出、移動ロボット、ドローンネットワーク(「ドロネット」)
研究内容キーワード
動画認識、音声認識、動作認識,連続DP、カクテルパーティ効果、マッチング、自動運転,移動ロボット、ドロネット、ゴローン
所属学会
IEEE, 電子情報通信学会,日本音響学会,人工知能学会

パーソナルデータ

趣味
音楽鑑賞,読書,旅行(海外の美術館巡り)
子供時代の夢
理学的工学研究者になること
これからの目標
会津大学をより魅力的にすること, 工学的新アルゴリズムの発見とその有効性を実証すること.
座右の銘
「あらゆる創造は少年のこころが行う」(司馬遼太郎)
愛読書
塩野七生,志村五郎,加藤周一,内田樹,武谷三男,司馬遼太郎,エマニュエル・トッド, ユヴァル・ノア・ハラリ,の著作.
学生へのメッセージ
岐路にあってはより積極的と思われる方向を選ぶ
その他
学長挨拶
会津大リレーエッセー 35号 「大震災と大学のこれから保証ない社会の復元力
会津大リレーエッセー 68号 「新しい市場創造 IT教育で人材を育成

主な研究

カクテル・パーティ音声の認識

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://www.youtube.com/watch?v=idVIuhmTq7Y


 我々は,複数話者が同時的に音声を発声し,また,ノイズ雑音も同時に存在している環境で,1つのマイクロフォンで収録される連続音声波形から,波形の分離なしに,特定話題音声が認識できる方式を提案しています.ここで,認識すべきカテゴリーの入力は合成音声となっています.従って,不特定話者に認識となっています.

 人間がもっている音声の認知機能の1つに,「カクテルパーティー効果」というものがあります.これは、人間が、多数の話者の同時会話している状況で,自分が興味をもつ話題について、認識できる,という能力です.

  これを工学的に解決しようという研究があります.その典型は,ICA( Independent Component Analysis,独立成分解析) というものです.ICAの機能は,混合した話者音声波形から,個人ごとの波形の分離を行うものです.しかし,音声の認識は行いません. また、ICAでは,通常,話者の数以上のマイクロフォンの数で収集した音声群を必要とします.

複数話者からなる単一音声から識別する試みもいくつかありますが,これらは,音声の話者による分離と認識を合体したものがほとんどです.従って,問題を本質的に解決していないといえます.特に音声の部分認識に課題が残ります.

  一方、人間は、カクテルパーティ効果の問題を実際に解決していますが,人間は両耳以外にマイクロフォンに対応しているものを使っていません.また,人間は,無意識に,あるいは意識的に会話話題の部分音声を選択して,部分認識することを行っています.別の表現をすると,会話音声の注意がいった,特定部分のスポッティング認識を行っています.

  人間の両耳効果は、音源の立体的把握が主目的で、2つの音源をとらえるためのものではないといわれています.このことは,単一のマイクロフォンで収集した音声波形からカクテルパーティ問題を解決するアルゴリズムが存在しうることを示唆しています.

 従って,話者数以上の本数のマイクロフォンを必要とするICA は,波形の分離が目的であって,不特定話者音声の認識も含む本来のカクテルパーティ問題の解決法とはいえません.ICAで波形を分離しても,その後の不特定話者の連続音声からの認識は,それ自体別途の研究課題となっています.つまり、複数の異なるアルゴリズムを必要としています.さらに,カクテル・パーティー音声の部分音声を選択的に認識することが実際のカクテル・パーティ音声の認識といえます.

  われわれの提案は,1つのアルゴリズムで,また1つのマイクで収集される音声から,個人ごとの波形を分離しない人間のように、かつ部分音声の不特定話者認識を行う,本来のカクテル・パーティー効果という人間の認知機能を実現しています.

添付の画像では,英語,日本語,中国語,ドイツ語が4人の話者が同時に発話したものとノイズが加算したものを,1つのマイクで録音したものから,キーワードや一部のフレーズを切り出すことなく認識している様子を示している.ここで,キーワードやキーフレーズは合成音声で作成され,これを事前切り出しなしの検索,かつ,不特定話者認識を行っている.



この方式については、現在特許出願中です.   

この研究を見る

重なりと任意個数からなる画像の切り出しなし画像認識:2次元連続DP

 画像認識は Deep Learning などでも中心課題となっています。しかし、Deep Learning でもいろいろの大小のサイズの複数のカテゴりーの画像が複数個または重なって存在し、かつそれらが変形をもっている場合、識別が困難である状況にあります。

  その理由は、Deep Learning (SSD, Semantic segmentation etc.) では現在のところ「階層性」の導入が困難なためと言われています。1つの画面にサイズの異なる複数カテゴリの画像が重なって入っていると、入っている複数の画像は階層性によって扱かわねばならないのに、それができなくて、正確な識別ができないことが生じています。

 Deep Learning では、サイズの異なる多数のカテゴリの画像が、学習段階で多層階層の結合係数の中では、サイズを強制的に合わせて融合させてしまっています。そこで形成された特徴抽出は学習した多数の画像に共通して使うことが可能ですが、入力パターンにある、1つの大きい画像の中に重なっている他の小さいパターンの分節を良好に担えるものではありません。

 言い換えると、入力画像にある小さいパターンは、大きなパターンとサイズの異なりに応じた扱いがされないということです。従って、特に小さいパターン同士で類似していて、少しの違いがカテゴリーを分けている場合に、この弱点が顕著にでます。これは、階層性がないことで生じるのです。
 
 1つの画像に、多くの種類のものが重なって入っている場合の画像認識には,分節(segmentation) の本質的な解決を必要とします。認識と分節は、「ニワトリと卵」の関係にあり、分節ができれば認識は容易になり、認識ができれば分節も容易になるというものです。
従って、それを解決するアルゴリズムは、「ニワトリと卵」の関係を直接的、かつ明示的に解決していることが必要です。

それ以上に重要なことは、Deep Learning では画像へのラベリングを必要とします。しかし、画像には適切なラベルが付けられない場合もおおくあります。自然言語でラベルをつけるとしても、画像と言語記述にはおおきな隔たりがあります。

我々が必要とするのは、自然言語を含むラベルではなく、参照画像と類似する画像を事前の切り出しを行わずに取り出すことです。類似するとは、大きさや形の非線形の変形を許容することであり、また、切り出しは、occlusion (遮蔽)や背景や他の画像との重なりをもつものからの類似画像の切り出しです。ここのおける頑健さが評価の基準です。

  我々は、2次元の連続DPとよぶものを提案していますが、これがまさにその解決を直接的に行っているものです。2次元連続DPは、岡と、長年に渡る他の研究者との、一連の共同研究の結果、現在の極めて、完成度の高いversion に至ったものです。岡との共同研究者を行った方々は、西村拓一さん(現、産総研)、岩佐有弥さん(現、セイコーエプソン)、矢口勇一さん(現、会津大)です。

 2次元連続DPは、1次元連続DPを2次元に拡張したものです。1次元連続DPは、1978年に岡によって提案されたもので、これは、時系列のような1次元のパターンのsegmentation-free の認識を実現しています。

2次元連続DPでは、個別識別対象ごとに対象画像について、独立に適用され, segmentation-free の認識を行います。これは、個別識別対象がそれぞれカテゴリに依存する1つの階層を外部的に構成しており、Deep Learning のようなカテゴリが内部的に多重になっている階層ではありません。

2次元連続DPとDeep Learning との最大の方式の異なりは、以下の点です。

 Deep Leaning はsegmentationを実現するために、カテゴリー間に本来ある階層を扱うに際し、CNN 内でその階層を無くす方向(画像サイズをそろえるなど)での学習を行なわねばならない。しかし、その階層をなくす方向は、認識の劣化を招く方向でもあるという矛盾を抱えています。

一方、2次元連続DPは、個別カテゴリーごとにsegmentation-free の認識が独立してでき、外部的に階層を扱っても、認識性能を落とさずsegmentation-free 機能は維持されます. つまり,2次元連続DPはDeep Leaning のように,segmentation を行わせるために階層への毀損を必要としないのです.

さらに、2次元連続DPには、個別対象画像の拡大縮小を含む形の非線形変形を吸収していますので、つまり参照パターン(「学習データ」)は1つとなります。

2次元連続DPは、このような独立の階層構造をもち、学習を不要とすることで、画像パターンの識別で有用なものとなっています。

Deep Learning(convolution 演算を含む)と2次元連続DPも、階層ネットワークのfeed-forward and local 計算であるところは共通しています。DLのlocalityはconvolution 演算によって生じていますが、2次元連続DPのlocalityはdynamic programming の局所化によって生じています。

1次元の連続DPは、以下の文献が多方面で引用されています。

[1] "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998)。

「2次元連続DP」についてはすでに特許取得済です。

この研究を見る

動く背景や遮蔽もある環境で同時多種類の動作を認識

YouTube に公開した技術紹介の動画は以下にあります。

ロボットが相手の動きで自分の動きを知る。一人称ビジョン。
技術紹介動画(学外リンク)
https://youtu.be/kAL1dxEZtSw

ジェスチャの時間切り出しなし、任意位置の許容、個数に制約のない、ジェスチャ認識。
技術紹介動画(学外リンク)
https://youtu.be/HdrJn5MJr7I

ジェスチャの速度変化、大きさの変化に頑健な認識
技術紹介動画(学外リンク)
https://youtu.be/ylmmJnJlGgM

動く背景、遮蔽(occlusion) に頑健なジェスチャ認識。
技術紹介動画(学外リンク)
https://youtu.be/2OmeSz3nEGg



 ロボットは通常,人間が日常生活する場所で動くことが自然なことといえます.このロボットの動く環境を考えてみると,周りには動くものが沢山あります.人々がロボットの周りを歩いていたり,近くを車が通っていたり,扇風機がその首を振っていたり,犬や猫が動いていたりしているのが普通です.これらはロボットが普通に見る風景です.また,ロボットは自分でも動きますので,ロボットの目には,それだけで外界が動いているように映ります.

 このような環境で,ロボットは,相手をする人間の動作を認識して,自分の動きを決めたり,音声での適切な返事をすることが求められます.

 このようなことが出来ないロボットは,人間とうまく環境の中で協調できないとして,自然に人間社会に受け入れてくれなくなります.

 我々が,すでに開発した動画像認識のアルゴリズム「時空間連続DP (Time-Space Continuous Dynamic Programming (TSCDP)」[1] は,上に述べた機能を実現しています.すなわち,動くカメラ(ロボットについている目に当たります)で,背景にいろいろの動くものあって,それらがロボットの目に入るという環境で,相手である人間などの動作を良好に認識できます.

 さらには,程度問題がありますが,相手としている人間の動作を遮るものが,ロボットのカメラの前にあるときでも良好に動作を認識できるものとなっています.

  下図の1つは,背景に人が動いており,カメラ自体も動いている状況で,人間が"S"の字を動作してところを認識している様子をショット図で示しています.実際は動画となっています.

 では,動画中にある全ての動くものをどのように区別されて識別されているのでしょう.

TSCDPでは,識別したい動きを時空間の一筆書きで表現します.これを標準パターンといいます.いま,下図では,TSCDPで分離できる様々な標準パターンを始点を合わせて表示しています.この中で,動くカメラと動く背景の動きは,標準パターンとしてみると単純なものに属します.これら以外の動きを標準パターンにすれば(ジェスチャなど),それらが識別できます.

 TSCDPは,この標準パターンそれぞれを動画中のピクセルの時空間系列を最適にマッチングして,時空間の切り出しなしに認識します.

 すなわち,動きの始点と終点の時点は,TSCDPでは事前に指定する必要はありません.空間的な位置,つまり動画中のどこでも識別対象は存在してもかまいません.このときのTSCDPでの識別の様子も下図1つで示しています.

 ロボットが人工知能をもつというのは,具体的にこのような機能をもつことです.Deep Learning や他の手法でも,ここで示した機能は得られていないといえます.

TSCDP はすでに特許取得済です。

本研究は,以下の論文で提案されたアルゴリズムの1つの応用です.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.




 

この研究を見る

多数の人や車の個別移動軌跡を上空カメラの動画から検出

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://youtu.be/hMqvXtndIlU
 

 災害時などにおける人や車の動き,またその混雑状況の把握は,災害の人的被害を最小化するために必要な情報の1つです.災害時に飛行機やドローンをとばし,搭載のカメラの映像を解析することによって,その情報の取得の努力が,これまでさまざまに試みられてきました(optical flow, particle filter, Kalman filter, 時空間voxel code の統計処理、など).しかし,従来の手法では,個別の人や車の多様な動きを検出して,状況を把握するまでの性能がでていません.特に,人や車の動画からの切り出し問題が良好に解決されていません.さらに,災害時には広範囲の地上をとらえる動画映像からリアルタイムで処理する必要があります.

 災害時では,屋外の広い領域が対象ですので,狭い街中をレーザーなどで人混みを検出するのでは間に合いません.

 求められている新アルゴリズムとは,広い領域において、迅速に、容易に,持続的に、自動的に,実時間で,また,個々の人や個々の車の動きを,動画像から人や車を切りだすことなく,良好に検出できるものです."切り出し"と"認識"を同時的に行うことで,この問題を解決しています.
 
 われわれの開発した「時空間連続DP」[1]という手法は,人や車の写っている動画からの,時間と場所について切り出し不用なことを含めて,上記の必要される様々な機能をもつものであり,人や車の動きが実時間で検出できるものです.

   ここでは,災害時ではありませんが,この手法を別の動画に適用した2種類の実験例を下図に示します.いずれもビデオカメラによる動画映像から,個々の人や個々の車の動きを良好に検出しているものです.1つは,サッカーの試合をとっているビデオ映像から,各選手がどのように動いているかの様子を検出したものです.1つは,町の道路で,各々の歩いている人や,各々の動いている車の様子をビデオ映像から検出したものです.ここでは,歩道を歩いている人も検出されています.それぞれの図中で,色の違いは動きの違いを表現しています.

 これらの結果から,「時空間連続DP」 は,確かに,個々の人や個々の車の動きを検出していることがわかります.それ故,災害時にも先に述べた目的に利用できる可能性を示しています.
 
 近年,利用が盛んになっているドローンには,様々なセンサーが搭載できますが,これらからどのような有用な情報が検出できるかに,ドローンの有効性がかかっています.そのため,良好なアルゴリズムの開発とその実装,評価に関するソフトウエアが,実際的なドローンの利用価値を決めることにもなります.

この技術はすでに特許取得済です.

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.


 

この研究を見る

フィギュア・スケートの放送動画像から演技の自動認識と演技評価

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://youtu.be/zdxXkEQ7B3E


 ビデオ動画から,フギュアスケートの演技運動,空中手書き漢字などの複雑な人間の動作や動物やものの動きの認識を行
う方式として,「時空間連続DP(TSCDP)」と呼ぶものを提案します [1].

  従来の,ビデオ動画からの人間の動作認識方式では,

1) カメラ映像中の対象動作である指などにマーカーや色のついたキャップをつける必要があった,
2) 1つの画面には1つの動作のみが存在すると仮定してきた,1つの画面に多数の同一動作や多種の動作は無いとされてきた,
3) 動作の始まりと終わりの時刻の検出問題を抱えていた,
4) 画面の任意の位置での動作を許してはいなかった,
5) 漢字などの複雑な動作が認識できなかった,
6) 識別対象動作の背景シーンに他の動くものの存在が許されなかった,
7) 動作の前に遮るものの存在が許されなかった,
8) 撮影カメラの動いていることが許されなかった、

 などの困難さがありました.また,風景中の車など、ものの動きを動画から認識するとき、従来技術(HMMなど)は,上記と類似した困難さがありました.

 また、従来技術には,ビデオ映像からではなく,Kinect などのような赤外線やレーザーのセンサーを用いるもの,加速度センサーを用いるものがありました.しかし,これらのセンサーを使っても,上記の機能の実現の困難さは依然として存在しています.

  これらの従来方式の困難な課題をすべて解決するものが,われわれの提案する「時空間連続DP」というマッチング方式です.

 この方式は,動画から,識別対象の動作している時間区間や,動作の画像内での空間位置の,双方について,事前の切り出しを必要としません.これは大きな機能です.

 その結果,フィギュア・スケートなどのスポーツの長時間の,あるいは実時間のビデオ映像から,演技の自動採点や勝負の自動判定を行うシステムの実現にも使えます.スポーツ中継では、必ずしもカメラは固定されていませんので、これも本手法では許されます.

 フィギュアスケートでは,理想的な演技からのズレが採点のポイントとなります.理想的な演技動作を標準パターンとして,時空間連続DPは,それを識別し,理想的な演技動作からの非線形的なずれも抽出できます.これを採点のパラメータします.

 さらには,1つの画面に任意の個数の動作があっても,また開始と終了時間の任意であっても,それらを全部認識できます.TV実況のような動画では、演技者の背景が動いていますが、このような動画データでも問題ありません。

 下図では,「時空間連続DP」のフギュアスケートの演技に認識を含む,上述した様々の動画への適用や,時空間の非線形性の変動を捉える様子など,得られている認識機能を示しています.
 
 また,この技術はすでに特許取得済みです。

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.





 

この研究を見る

主な著書・論文

1) "A new cellular automaton structure for macroscopic linear-curved features extraction": Ryuichi Oka, p.654, Proc. 4-th International Joint Conference on Pattern Recognition (1978).
コメント:セル特徴は方向性パターンの提案でもあり,以後文字認識分野の主流となる.

2) "Continuous Words Recognition by Use of Continuous Dynamic Programming for Pattern Matching": Ryuichi Oka, Technical Report of Speech Committee, Acoustic Society of Japan, Vol.S78-20, pp.145-152, June (1978)(in Japanese).
コメント:連続DPの最初の提案である日本語論文である. 連続DPによるスポッティング認識 (切り出し不要の認識)の機能は,1次元系列,2次元画像,時空間パターン,へと拡張されている。

3) "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998).
コメント:連続DPでは海外ではこれが引用される.

4) "Hierarchical labeling for integrating images and words": Ryuichi Oka, Artificial Intelligence Review, Vol. 8, pp. 123-145 (1994).
コメント:画像理解で最も提案が少ないmiddle vision についての提案である. vision 研究は、early,middle,highと分けられている。

5) On Spotting Recognition of Gesture Motion from Time-varying Image: Ryuichi OKA, Takuichi Nishimura, Hiroaki Yabe, Transactions of Information Processing Society of Japan, Vol.43, No.SIG 4 (CVIM 4), pp.54-68 (2002).
コメント:コンピュータと人間におけるMulti-media の実時間統合アーキテクチャの提案である。

6) Image-to-word transformation based on dividing and vector quantizing images with words: Y.Mori, H.Takahashi and R.Oka, First International Workshop on Multimedia Intelligent Storage and Retrieval Management (MISRM'99), December 1999. (1999)
コメント:画像と言語の統合関連研究では海外でよく引用されている.この分野のさきがけの1つである。

7) Time-segmentation and position-free recognition of air-drawn gestures and characters in videos, Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka, Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.

コメント:時空間連続DPについて,英語論文ではもっとも詳しく書かれている。この技術は実用化が試みられている。