dorivenの日記

気がついたら社会人。気になる技術的なことについて少しずつ書いていけたらと思っております。

自分のやっている研究分野のお話

どうも、海外から帰ってきました。やっぱり言葉が通じるっていいですね。

日本人は海外に行くと中国人と勘違いされて中国語で話しかけられたりするので、なんて反応して良いか困りますね。

少し投稿まで待っていただいたのですが、せっかく学会にも行ってきたのでたまには自分の研究が何をやっているのか、という説明をします。

研究に関する理解があれば、どの分野が出来る出来ないがはっきりしますし。

研究分野



私がやっている分野は広いカテゴリで言えば「画像処理」になります。
ですが、画像処理といっても色々と分野があったりします。

  1. 圧縮系(動画とかで使われるH.264とか、JPEGminiとか)
  2. 認識系
  3. 医療系
  4. etc

医療系は認識系が入ってたりします。
実を言うと画像処理でほとんどが認識・識別・判別を行う研究がほとんどだったりします。

最近の画像処理の流行りの技術だと「Deep Learning」がありますが、あれもニューラルネットワークという学習技術を応用し、画像を入力のみから識別するという革新的な技術です。

自分の研究はこの認識系の中でも特に難しいとされている「ジェスチャ認識」というものです。
今回はこの認識系のついて多少掘り下げて話をしていきましょう。

認識系について



何故、ここまで認識系が研究されているのか?
それは、コンピュータには人間と同じように画像を認識させようという動きがあるからです。
人間と同じような物の見え方を「Computer Vision」と画像処理の分野では呼ばれています。
このComputerVisionがなりたつことで何が嬉しいか、ということはわざわざ語る必要もないと思います。

人間には物を見ると、その光を目が捉え、最終的に脳で程度の処理をした結果が「見え」として表現されます。
それは人間が今まで生きてきた経験によるものであったり、必要としない情報を削るなど、複雑な処理を行った上で「見え」という形で表現されます。

この脳内で行われている複雑な処理をどのようにコンピュータに行わせれば人間と同じような物の認識が出来るか、ということを研究するのが認識系の分野です。

認識系の難しさ



しかし、人間と同じ見方をコンピュータに提供するというのは非常に難しいのです。

人間には生まれてきてから今まで生きてきた経験という非常に膨大なデータベースを持っています。
この膨大なデータベースを元にそれらが何であるか、というのを判断します。

近年では、コンピュータで電子化された情報のデータベースから「どういった物がどんな特徴」を持っているか、ということを学習し、認識しようという試みが盛んに行われていました。

しかし、この「学習」という手法には大きな問題がいくつか存在します。

学習の難しさ



先ほど、「どういった物がどんな特徴」を持っているか、という事を学習すると触れました。
実は画像処理の非常に面倒な部分が「どういった物」という情報を人間が付与してあげる必要性があるからです。

学習にはどんなに少なくても100以上のデータを要します。
この100以上のデータに人間が「わざわざ画像を見て」、「どんな物かを認識し」、「正解を付与する」という工程が生まれるのです。

つまり学習という手法は「データに人間が与えた答え」が必要なのです。
この問題を解決するために、学習の分野では「教師なし学習」や「半教師有り学習」というものについて研究も盛んに行われてきたのです。

他にも学習データによって反応する特徴が偏ってしまい、学習データのみに反応する「過学習」という問題もあり、学習が銀の弾丸になりえないということが分かります。

現れた革命児



しかし、近年で大きな革命を読んだある手法が研究者の間で非常に話題になっています。
それが先程も触れた「DeepLearning」です。
Googleから発表された論文で使われたDeepLearningは当時の画像認識系の研究を大いに驚かせました。

それは2011年の音声認識、2012年の画像認識において、二位とは10%も認識率を離して認識したからです。

そして、DeepLearningは本来人間が与える必要のある「正解の情報(特徴)」をデータベースから学習し、正解の特徴を自動的に抽出することが出来ます。
つまり、人間から知識をほとんど与えられずに高い認識率を叩きだしたのです。
従来、特徴抽出というのは人間にしか出来ない言ってしまえば「神の領域」とも取れる、非常に難しい処理でした。
それをコンピュータが人間とまったく同じように「それがどんなものか」というものを「自動的に」「正解に近い物をを導き出した」ということを行い、この認識率を叩きだしのはまさに革命とも言える手法だったでしょう。

しかし、そんなDeepLearningも欠点などはありますが、私の専門から大きく離れるのでここでは触れないでおきます。

最後に



最後まで呼んで頂きありがとうございました。
次回?(というより明日かな)は自分のやっている研究のお話をします。