Initiatives

AAAI-20

画像処理技術領域(人認識技術)

2020年7月17日

姿形動きの観点から人認識研究に着目し、単眼2D画像から3D Human Pose推定、特定の人物を検索・追跡、行動認識の3つのトピックでAAAI-20に発表された深層学習研究を7つ紹介します。

Topic1:単眼画像から3D Human Pose推定

一枚の2D画像から深層学習により人一般を認識するOpenPose*1に代表される2D人体スケルトン推定技術は次元が拡張され、3D人体スケルトンを推定する技術が多く提案されるようになっています。2D画像から3D人体スケルトンを推定することが困難な理由は二つ挙げられます。一つ目はデータセットの問題です。一般的な教師あり学習により十分な推定精度を達成するためには、十分なスケールの2D画像とそれに対応した3D人体スケルトンのデータセットが必要です。しかし、そのようなデータを大量に作ることは難しいのが現状です。また二つ目の問題は、2D画像から推定したい人体構造がすべて分かるとは限らず、他の物や自分自身により遮蔽された人体箇所も自然に予測しなくてはならない点です。以下の論文はこれら課題を解決するための手法を提案しています。

[1]Kinematic-Structure-Preserved Representation for Unsupervised 3D Human Pose Estimation

この研究では、3D人体スケルトンの教師データが少ない問題点に着目し、既存のデータセットや手法を工夫することで、足りないデータに対応する提案がされています。2D画像のみを学習用のデータセットとして使い、ネットワーク構造の中で2D画像からのスケルトン推定及びスケルトンから元の2D画像を復元させるオートエンコーダーを学習させます。教師データにスケルトン情報を持たない手法ですが、教師あり学習と同等の性能を達成しました。

[2]Chained Representation Cycling: Learning to Estimate 3D Human Pose and Shape by Cycling Between Representations

この研究でも、3D人体スケルトンの教師データが少ない問題点に着目し、既存のデータセットや手法を工夫することで、足りないデータに対応する提案がされています。画像と3D人体スケルトンの間に先行研究*2で成果のでている中間表現への変換を挟むことによって少ない教師データを補い、問題の複雑さを減らすことに成功しました。

[3]Deep Reinforcement Learning for Active Human Pose Estimation

この研究では、遮蔽された人体部分の推定に対して、見えない部分を如何に推定させるかの課題に対しユニークなアイデアを提案しています。移動可能なカメラを想定し、対象が遮蔽されているのであれば、カメラ自らが遮蔽されず撮影できる位置に移動することを強化学習により獲得させます。そして、実際に特定の人物が遮蔽なくより良く推定できる地点にカメラが移動して撮影することに成功しています。

Topic2:Re-ID person search

次に、人一般の推定ではなく、特定の人物を検索、追跡する研究についての報告です。ここで取り上げる人物推定は顔ではなく全身が対象です。人一般を画像から検索するタスクとは異なり、特定人物の推定のため服装の差異などが有力な情報となります。また、動画から人物を追跡する場合、人は急に出たり消えたりしないため、動画の推定対象となるフレームの前後時間も使えます。このような特定タスクで推定に有効な特徴を以下に紹介する論文ではより明示的に学習できるような工夫を行っています。

[4]Pose-Guided Multi-Granularity Attention Network for Text-Based Person Search

この研究では、テキストに該当する人物を画像から検索する目的に対し、二つの異なる詳細度で人を捉えるネットワークモデルを提案しています。テキストにより特定の人物を説明する場合、テキストには腕など個々のパーツに紐づく特徴の説明が多く含まれることから、大まかに全体を捉えるCoarse Alignment Networkのほか、詳細に6点(Head, Upper Torso, Arm, Hand, Leg, Foot)のパーツを捉えるFine-Grained Alignment Networkを提案し、二つのネットワークにより検索を最適化しています。

[5]Hierarchical Online Instance Matching for Person Search

この研究は、動画から特定の人物をトラッキングするタスクに対する提案です。人物にIDラベルが付与されている動画データセットにはIDラベルが付与されていない人物も相当数含まれていることに着目しています。IDラベルが付与されていない人物が動画に登場した場合、IDラベルとは別の一時的なラベルに格納しそのラベル推定も通常のIDラベル推定と同時に学習させることで、性能を向上させています。また、従来の学習では、動画の背景も有効に活用されていなかった点に対し、上記と同様一時的なラベルを背景に付与することで人物と背景の分離も同時に学習させます。背景からの人認識とID認識を別々に行う手法を統合して、シンプルに推定しながらも別々に推定を行う手法以上の精度を達成しました。

[6]Rethinking Temporal Fusion for Video-Based Person Re-Identification on Semantic and Time Aspect

この研究も、動画から特定の人物をトラッキングするタスクに対する提案です。同様のタスクに対し、動画の時間方向に着目しています。動画から人物推定をCNNで行う場合、推定に用いる特徴量は時間と意味の二つの方向を持っていて、意味方向はCNNの層数、時間方向は動画のフレームに対応します。動画の各フレームにおけるCNNの各層の特徴量に対し、それぞれの層が推定に重要なフレームのものとなるようフレーム間のアテンションから各層の特徴量を決定し、それを一つの特徴量として用いることで推定しています。複数の特徴量を使う手法やアテンション系の手法と比較することで、フレーム間のアテンションを考慮し推定することが有効であることが分かりました。

Topic3:Action recognition

最後に人自体ではなく、人の行動に焦点を当てた行動認識技術についての研究も一つ紹介します。行動認識では人の動きの分類がタスクになります。例えば、行動認識用データセットであるNTU RGB+D*3では日常動作として82クラスを持ち、これらの分類を行います。

[7]Part-Level Graph Convolutional Network for Skeleton-Based Action Recognition

この研究では、人体をグラフ構造とみなしGraph CNNで学習する手法に対し、腕などパーツ間の関係性を学習するPart Relation Block(PR)とどこのパーツに着目するかをアテンションするPart Attention Block(PA)を提案しています。そして、パーツ間の関係性、どこに着目するかを人が明示するのではなく、学習によりデータドリブンに学習させることで、行動認識において高い精度を達成しました。

まとめ

人認識は他の物体認識などに対し、応用的な側面が強く、他の分野で提案された手法などが上手くアイデアに取り入れられ、動きなどの人認識技術も高い性能は発揮するようになってきています。一方で、精度が高まるほど人認識技術がプライバシーに密接に関係することは明らかです。今後のプライバシー観念の変化も鑑みながら、適切にアプリケーション応用として推定結果を活用していくことが重要になると思います。

*1 OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
*2 Neural Body Fitting: Unifying Deep Learning and Model-Based Human Pose and Shape Estimation
*3 LSMB19: A Large-Scale Motion Benchmark for Searching and Annotating in Motion Data Streams

レポーター

名前 : 佐藤 哲朗
専攻 : 機械システム工学
現在の仕事 : 機械学習モデルの開発
職種 : ソフトウェア・信号/情報処理

関連記事