基本情報

所属
産学イノベーションセンター
職位
特任教授(教育研究特別顧問)
E-Mail
oka@u-aizu.ac.jp
Webサイト
http://www.u-aizu.ac.jp/research/faculty/detail?cd=90001

教育

担当科目 - 大学
フーリエ解析
担当科目 - 大学院
無し

研究

研究分野
パターン認識、人工知能、ロボット
略歴
1. 東京大学工学系研究科修士了 2. 電気試験所(現,産総研)入所 3. National Research Council of Canada (Visiting Scientist) 4. Real World Computing (国家プロジェクト,研究部長兼研究室長)
現在の研究課題
動画からの広領域3次元画像復元、自動運転のためのビデオから3次元距離動画再構成,動画像からのセグメンテーションなしの動作認識、カクテルパーティ音声の認識、動画によるスポーツ競技自動判定、動画における多数個体群の個々の動き,導線抽出、移動ロボット、ドローンネットワーク(「ドロネット」)
研究内容キーワード
動画認識、音声認識、動作認識,連続DP、カクテルパーティ効果、マッチング、自動運転,移動ロボット、ドロネット、ゴローン
所属学会
IEEE, 電子情報通信学会,日本音響学会,人工知能学会

パーソナルデータ

趣味
音楽鑑賞,読書,旅行(海外の美術館巡り)
子供時代の夢
理学的工学研究者になること
これからの目標
会津大学をより魅力的にすること, 工学的新アルゴリズムの発見とその有効性を実証すること.
座右の銘
「あらゆる創造は少年のこころが行う」(司馬遼太郎)
愛読書
塩野七生,志村五郎,加藤周一,内田樹,武谷三男,司馬遼太郎,エマニュエル・トッド, ユヴァル・ノア・ハラリ,の著作.
学生へのメッセージ
岐路にあってはより積極的と思われる方向を選ぶ
その他
学長挨拶
会津大リレーエッセー 35号 「大震災と大学のこれから保証ない社会の復元力
会津大リレーエッセー 68号 「新しい市場創造 IT教育で人材を育成

主な研究

重なりと任意個数からなる画像の切り出しなし画像認識:2次元連続DP

 画像認識は Deep Learning などでも中心課題となっています。しかし、Deep Learning でもいろいろの大小のサイズの複数のカテゴりーの画像が複数個または重なって存在し、かつそれらが変形をもっている場合、識別が困難である状況にあります。

  その理由は、Deep Learning (SSD, Semantic segmentation etc.) では現在のところ「階層性」の導入が困難なためと言われています。1つの画面にサイズの異なる複数カテゴリの画像が重なって入っていると、入っている複数の画像は階層性によって扱かわねばならないのに、それができなくて、正確な識別ができないことが生じています。

 Deep Learning では、サイズの異なる多数のカテゴリの画像が、学習段階で多層階層の結合係数の中では、サイズを強制的に合わせて融合させてしまっています。そこで形成された特徴抽出は学習した多数の画像に共通して使うことが可能ですが、入力パターンにある、1つの大きい画像の中に重なっている他の小さいパターンの分節を良好に担えるものではありません。

 言い換えると、入力画像にある小さいパターンは、大きなパターンとサイズの異なりに応じた扱いがされないということです。従って、特に小さいパターン同士で類似していて、少しの違いがカテゴリーを分けている場合に、この弱点が顕著にでます。これは、階層性がないことで生じるのです。
 
 1つの画像に、多くの種類のものが重なって入っている場合の画像認識には,分節(segmentation) の本質的な解決を必要とします。認識と分節は、「ニワトリと卵」の関係にあり、分節ができれば認識は容易になり、認識ができれば分節も容易になるというものです。
従って、それを解決するアルゴリズムは、「ニワトリと卵」の関係を直接的、かつ明示的に解決していることが必要です。

それ以上に重要なことは、Deep Learning では画像へのラベリングを必要とします。しかし、画像には適切なラベルが付けられない場合もおおくあります。自然言語でラベルをつけるとしても、画像と言語記述にはおおきな隔たりがあります。

我々が必要とするのは、自然言語を含むラベルではなく、参照画像と類似する画像を事前の切り出しを行わずに取り出すことです。類似するとは、大きさや形の非線形の変形を許容することであり、また、切り出しは、occlusion (遮蔽)や背景や他の画像との重なりをもつものからの類似画像の切り出しです。ここのおける頑健さが評価の基準です。

  我々は、2次元の連続DPとよぶものを提案していますが、これがまさにその解決を直接的に行っているものです。2次元連続DPは、岡と、長年に渡る他の研究者との、一連の共同研究の結果、現在の極めて、完成度の高いversion に至ったものです。岡との共同研究者を行った方々は、西村拓一さん(現、産総研)、岩佐有弥さん(現、セイコーエプソン)、矢口勇一さん(現、会津大)です。

 2次元連続DPは、1次元連続DPを2次元に拡張したものです。1次元連続DPは、1978年に岡によって提案されたもので、これは、時系列のような1次元のパターンのsegmentation-free の認識を実現しています。

2次元連続DPでは、個別識別対象ごとに対象画像について、独立に適用され, segmentation-free の認識を行います。これは、個別識別対象がそれぞれカテゴリに依存する1つの階層を外部的に構成しており、Deep Learning のようなカテゴリが内部的に多重になっている階層ではありません。

2次元連続DPとDeep Learning との最大の方式の異なりは、以下の点です。

 Deep Leaning はsegmentationを実現するために、カテゴリー間に本来ある階層を扱うに際し、CNN 内でその階層を無くす方向(画像サイズをそろえるなど)での学習を行なわねばならない。しかし、その階層をなくす方向は、認識の劣化を招く方向でもあるという矛盾を抱えています。

一方、2次元連続DPは、個別カテゴリーごとにsegmentation-free の認識が独立してでき、外部的に階層を扱っても、認識性能を落とさずsegmentation-free 機能は維持されます. つまり,2次元連続DPはDeep Leaning のように,segmentation を行わせるために階層への毀損を必要としないのです.

さらに、2次元連続DPには、個別対象画像の拡大縮小を含む形の非線形変形を吸収していますので、つまり参照パターン(「学習データ」)は1つとなります。

2次元連続DPは、このような独立の階層構造をもち、学習を不要とすることで、画像パターンの識別で有用なものとなっています。

Deep Learning(convolution 演算を含む)と2次元連続DPも、階層ネットワークのfeed-forward and local 計算であるところは共通しています。DLのlocalityはconvolution 演算によって生じていますが、2次元連続DPのlocalityはdynamic programming の局所化によって生じています。

1次元の連続DPは、以下の文献が多方面で引用されています。

[1] "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998)。

「2次元連続DP」についてはすでに特許取得済です。

この研究を見る

フィギュア・スケートの放送動画像から演技の自動認識と演技評価

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://youtu.be/zdxXkEQ7B3E


 ビデオ動画から,フギュアスケートの演技運動,空中手書き漢字などの複雑な人間の動作や動物やものの動きの認識を行
う方式として,「時空間連続DP(TSCDP)」と呼ぶものを提案します [1].

  従来の,ビデオ動画からの人間の動作認識方式では,

1) カメラ映像中の対象動作である指などにマーカーや色のついたキャップをつける必要があった,
2) 1つの画面には1つの動作のみが存在すると仮定してきた,1つの画面に多数の同一動作や多種の動作は無いとされてきた,
3) 動作の始まりと終わりの時刻の検出問題を抱えていた,
4) 画面の任意の位置での動作を許してはいなかった,
5) 漢字などの複雑な動作が認識できなかった,
6) 識別対象動作の背景シーンに他の動くものの存在が許されなかった,
7) 動作の前に遮るものの存在が許されなかった,
8) 撮影カメラの動いていることが許されなかった、

 などの困難さがありました.また,風景中の車など、ものの動きを動画から認識するとき、従来技術(HMMなど)は,上記と類似した困難さがありました.

 また、従来技術には,ビデオ映像からではなく,Kinect などのような赤外線やレーザーのセンサーを用いるもの,加速度センサーを用いるものがありました.しかし,これらのセンサーを使っても,上記の機能の実現の困難さは依然として存在しています.

  これらの従来方式の困難な課題をすべて解決するものが,われわれの提案する「時空間連続DP」というマッチング方式です.

 この方式は,動画から,識別対象の動作している時間区間や,動作の画像内での空間位置の,双方について,事前の切り出しを必要としません.これは大きな機能です.

 その結果,フィギュア・スケートなどのスポーツの長時間の,あるいは実時間のビデオ映像から,演技の自動採点や勝負の自動判定を行うシステムの実現にも使えます.スポーツ中継では、必ずしもカメラは固定されていませんので、これも本手法では許されます.

 フィギュアスケートでは,理想的な演技からのズレが採点のポイントとなります.理想的な演技動作を標準パターンとして,時空間連続DPは,それを識別し,理想的な演技動作からの非線形的なずれも抽出できます.これを採点のパラメータします.

 さらには,1つの画面に任意の個数の動作があっても,また開始と終了時間の任意であっても,それらを全部認識できます.TV実況のような動画では、演技者の背景が動いていますが、このような動画データでも問題ありません。

 下図では,「時空間連続DP」のフギュアスケートの演技に認識を含む,上述した様々の動画への適用や,時空間の非線形性の変動を捉える様子など,得られている認識機能を示しています.
 
 また,この技術はすでに特許取得済みです。

[1] Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka:"Time-segmentation and position-free recognition of air-drawn gestures and characters in videos", Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.





 

この研究を見る

移動ロボットの人のジェスチャによる走行制御

  YouTube に公開した技術紹介の動画は以下にあります。

ロボットが相手の動きで自分の動きを知る。一人称ビジョン。
技術紹介動画(学外リンク)
https://youtu.be/kAL1dxEZtSw

ジェスチャの時間切り出しなし、任意位置の許容、個数に制約のない、ジェスチャ認識。
技術紹介動画(学外リンク)
https://youtu.be/HdrJn5MJr7I

ジェスチャの速度変化、大きさの変化に頑健な認識
技術紹介動画(学外リンク)
https://youtu.be/ylmmJnJlGgM

動く背景、遮蔽(occlusion) に頑健なジェスチャ認識。
技術紹介動画(学外リンク)
https://youtu.be/2OmeSz3nEGg




 現在,われわれは,”ゴローン”とよぶ移動ロボットを開発している.この”ゴローン”の機能の1つとして,”ゴローン”のカメラの動画映像を無線で計算機に送信し,計算機でジェスチャ認識した結果をリアルタイムで”ゴローン”に送信し,それによって”ゴローン”を操作するようにしている.ジェスチャ識別は「時空間連続DP」というアルゴリズムで行っているが,その部分を,FPGAなどで実装すれば”ゴローン”ト内でジェスチャ識別を行わせることもできる.

  「時空間連続DP」は以前にわれわれが,開発したものであるが,それを移動ロボットに搭載された単一カメラの動画像からのジェスチャ認識を行わせた.ジェスチャの指示は,移動ロボットの右回り,左回りの指示,また,ロボットに搭載されたライトのスイッチのつけと消しを指示する4つの動作の認識である.現在は識別するジェスチャの数は少ないが,今後その数を増やしていきたい.
 
 通常,移動ロボットは,その動きを,自律的に決めるか,あるいは人間の指示で決めるかの,2つのどちらか,または双方によって行われている.自動運転自動車は前者である.他方,介護ロボットなど,人間と関わる移動ロボットは,人間の指示によって動いて欲しい場合も多い.そのとき,人間側は指示の方法には通常2つがある.音声とジェスチャである.音声は便利ではあるが,ロボットと人間が離れているときは人間側に近いマイクを使わなければならないという制約が,現在の技術ではある.一方,ジェスチャはそのような制約はないが,ロボットと人間が共に,動いている状況で,人間のジェスチャをうまく認識する技術はまだ確立していない.

  従来は,レーザや超音波のセンサーやキネクトセンサなどを搭載した移動ロボットが,周辺にいる静止している人物を検知し,それに追随するというものである.単一のカメラの動画像を搭載した移動ロボットが,周辺にいる移動する人間のジェスチャを認識して,それによって操作をされるという研究はほとんどないといってよい.その理由は,動く背景で,また,不特定多数の動く人間がいる環境で,特定のジェスチャを,その始めと終わりの時刻を指定せずに認識する技術がないためである.

この研究を見る

ビデオから広域都市風景の3D画像化 --- 市街地や室内のウォーク・スルー・データのビデオ動画から作成---

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://youtu.be/7bw2Lof3Zv8


 室内に限らず,都市や街,山岳,里山の広範囲の風景を,長時間のビデオ動画として取得することは容易です.ここでは,これらの長時間のビデオ動画に写っている室内外の広域のシーン全体を,高密度かつ距離のdynamic range の極めて大きい3次元シーンで自動復元する手法を提案します.この課題は,実世界の3次元復元技術のフロンティアといえるものです.

  このようなシーンの3次元画像復元ができれば,室内外でのロボットの作業支援(Visual SLAM技術)や,室内,あるいは室外の広域の3次元シーンに人間が任意に入り込むVR体験(walk through)システムの構築など,の実現に寄与します.更には,自動車の屋根に360度カメラをつけ,移動する車からのビデオ動画像から周辺の3Dシーンを再構成するとき、これは自動運転にも利用できます.

  3次元復元の従来技術として,超音波,赤外線やレーザの距離センサーを用いるものや,視覚を使うものも,ステレオの2眼以上のカメラを用いるもの、シルエットで空間のvoxel を埋めるもの、など多様な方法(image-based, voxel-based, object-based algorithmsに分類される)がありました.しかし,従来技術では,扱える対象のシーンは,距離範囲や画素の稠密性の限定や,広域性,対象物の反射特性の制約がされたものとなっています.さらには,SIFTなどの特徴抽出,factorization, RANSAC, Kalman filter など複数の技術を総合する必要もありました.そのため,一般のユーザが普通にとるビデオ動画から、簡単に3次元画像をうる技術が従来,提供されてこなかったといえます.

   本研究では,室内外や広域のシーンを対象に,特段の制約なしに,普通に得られる単一の長時間ビデオから,高密度、距離範囲の広い3次元シーンの復元を行っています.その簡単さのために,一般の各種目的への供用が容易なものとなっています.ここでいうシーンは,必ずしもカメラの直下の風景に限らず,任意のカメラ方向が撮る風景を意味します.

   都市,建物,道路,川,森などでは、大きなもの同士を区別する3次元情報があり、また,個々の大きなものの構成部分を区別する3次元情報があります.ここでは,前者の3次元情報を取り出したものを示します.個々の内部を区別することも同じ手法で抽出が可能です.

 ここでは,前者のみを以下の画像で示します.

 下の画像は、(1) 市街地を撮った ビデオの1フレーム画像(静止画)、 (2) 前記(1)の画像のR,G,Bと距離値を合わせた3次元画像を斜め方向から見たもの、 (3)  会津大学の庭園をドローンで10m の高さから撮った下方の動画からの3次元復元を示している.

  なお,提案方式の内容の一部については,Ryuichi Oka and Ranaweera Rasika, Region-wise 3D Image Reconstruction from Video Based on Accumulated Moton Parallax, MIRU2017,PS1-5,August 2017 で発表している.

また,この手法は,特許出願中です.
 

この研究を見る

「ドロネット」の提案-- 有線ケーブルでつながったドローン群による新機能実現 --

YouTube に公開した技術紹介の動画は以下にあります。

技術紹介動画(学外リンク)
https://www.youtube.com/watch?v=8e7CfzgtE9Q


有線ケーブルで繋がれたドローンのネットワークを「ドロネット」とよび,この概念を提案します.

 従来のドローンは,単体が通常であり,また,それらの群を考える場合でも,単体ドローン運動の協調動作は一部実現されていますが,ドローン群の実現する機能は限られていました.

 提案する「ドロネット」は,有線ケーブルでドローン間を結合してネットワークを構成しています.ドロネットの各ドローンは,近傍の結合有線ケーブル群に依存する,分散制御の新アルゴリズムで,外力で生じる不安定状態の安定化を実現します.ドロネットの目的地への飛行は,仮想外力の設定により,安定化の機能の中で実現します.その他,以下で述べる,単体の群では実現できない機能を実現しています

 また,ドロネットには,各ドローンへの給電が,自分のもつバッテリーによるものと,地上から有線ケーブルによるもの,の2種類があります.その結果,

1) 地上から有線ケーブルで給電するドロネットは長時間飛行を可能とする,
2) 単体ドローンでは運べなかった重い荷物を,ネット全体が負荷分散として,運ぶことができる,
3) ネットワークを形成することで,風などの外乱や,故障したドローンは荷物扱いされ落下せず.故障について頑健となる,
4) 線状のドロネットは,建物や橋梁の複雑な構造物内部に,空中ヘビのように入り込むことができ,そこでの計測機器を,地上からの有線給電で,長時間に動作させることができる.
5) 地上からの有線給電をしないドロネットには,飛行用のみのバッテリーを搭載する部分ドローン群により,長時間飛行を行う.

 など,ドローンが群をなすことで実現する新しい機能を生じさせています.

 下の画像は,ドロネットの,飛行,荷物の運搬,一部のドローンの故障,線状ドロネット飛行のシミュレーションと,製作中の実機を示しています.

[参考]  岡 隆一、畠 圭佑,"ドロネット -- 有線結合ドローン・ネットワーク ---",  計測と制御,Vol.56, No.1, pp.40--43 (2017).

 なお、この技術は特許出願中です.


 

この研究を見る

主な著書・論文

1) "A new cellular automaton structure for macroscopic linear-curved features extraction": Ryuichi Oka, p.654, Proc. 4-th International Joint Conference on Pattern Recognition (1978).
コメント:セル特徴は方向性パターンの提案でもあり,以後文字認識分野の主流となる.

2) "Continuous Words Recognition by Use of Continuous Dynamic Programming for Pattern Matching": Ryuichi Oka, Technical Report of Speech Committee, Acoustic Society of Japan, Vol.S78-20, pp.145-152, June (1978)(in Japanese).
コメント:連続DPの最初の提案である日本語論文である. 連続DPによるスポッティング認識 (切り出し不要の認識)の機能は,1次元系列,2次元画像,時空間パターン,へと拡張されている。

3) "Spotting Method for Classification of Real World Data": Ryuichi Oka, The Computer Journal, Vol.41, No.8, pp.559-565 (1998).
コメント:連続DPでは海外ではこれが引用される.

4) "Hierarchical labeling for integrating images and words": Ryuichi Oka, Artificial Intelligence Review, Vol. 8, pp. 123-145 (1994).
コメント:画像理解で最も提案が少ないmiddle vision についての提案である. vision 研究は、early,middle,highと分けられている。

5) On Spotting Recognition of Gesture Motion from Time-varying Image: Ryuichi OKA, Takuichi Nishimura, Hiroaki Yabe, Transactions of Information Processing Society of Japan, Vol.43, No.SIG 4 (CVIM 4), pp.54-68 (2002).
コメント:コンピュータと人間におけるMulti-media の実時間統合アーキテクチャの提案である。

6) Image-to-word transformation based on dividing and vector quantizing images with words: Y.Mori, H.Takahashi and R.Oka, First International Workshop on Multimedia Intelligent Storage and Retrieval Management (MISRM'99), December 1999. (1999)
コメント:画像と言語の統合関連研究では海外でよく引用されている.この分野のさきがけの1つである。

7) Time-segmentation and position-free recognition of air-drawn gestures and characters in videos, Yuki Niitsuma, Syunpei Torii, Yuichi Yaguchi & Ryuichi Oka, Multimedia Tools and Applications, An International Journal, ISSN 1380-7501, Volume 75, Number 19, pp.11615--11639.

コメント:時空間連続DPについて,英語論文ではもっとも詳しく書かれている。この技術は実用化が試みられている。