Person Re-Identificationの全体像を把握してみた

今回、エンジニアアルバイトとして携わっている会社株式会社HULIX | 人流解析でPerson Re-Identificationに関する技術調査を行ったので、その内容を記事にまとめてみました。

この記事では具体的な研究の内容、例えばどのような手法が使われているかなどには深入りせずに、Person Re-Identification(以降Person Re-Id)は何を行っているかと、Person Re-Idを取り入れたシステムは現実的に実装可能なのかという視点で、記事を書いていこうと思います。

Person Re-Idとは

f:id:yuichinagapan:20210308140148p:plain:h100:right Person Re-Id(日本語では人物再同定)とは、簡単にいうと、とあるカメラに映った人物が、別のカメラに映った場合に、その人物同士を同一人物として結びつけるようなタスクのことです。Person Re-Idの実システムへの導入が可能になれば、例えば大型商業施設などの空間における個人を識別し、人々の動線の解析が可能になったりします。

技術的な難しさ

技術的な観点から見ると、カメラだけから人物を識別し、特定することは、今のディープラーニングの技術でもってしてもかなり難しいタスクとされています。理由としては、大きく分けて二つあります。

一つ目は、単純な画像処理の難しさです。具体的には、以下のようなものが挙げられます。

視点の多様性
照明条件の変化
人のオクルージョン
低解像度

"視点の多様性"とは、カメラごとに視点が異なるので、同一人物だったとしても、姿勢や見た目の特徴が、異なってしまうという問題です。"照明条件の変化"とは、特にRGBカメラにおいて、照明の具合が時間と場所によって変化してしまうといった問題です。"人のオクルージョン"とは、識別したい人物が物陰などに隠れてしまったりすることで、カメラからの認識が容易ではなくなってしまうといった問題です。"低解像度"とは、監視カメラから得られる映像は低解像度であることが多いので、低解像度でも人物を識別できるようにしなければならないという問題です。これらの課題に対応するために、近年ではディープラーニングの活用が進んでおり、精度改善のために様々な手法が提案されています。

Person Re-Idの難しさの理由の二つ目は、実用的なシステムの構築にあります。実際に、Person Re-IDのシステムを構築するとなると、”生データを入力としたend to endなシスタム”を構築しなければなりません。カメラから得られるのは、生のデータ、つまり、動画データであるので、Person Re-Idを行うためには、人物検出を行った上で、識別を行うなど、複数のタスクを同時に行わなければならないということです。実用的なシステム構築は、研究のフェーズでもあまりなされておらず、この部分が極めて難易度の高いものとなっています。

Person Re-Idの前提

Person Re-Idの外観を理解するために、基本的な前提について触れたいと思います。下の図¹を見てください。

f:id:yuichinagapan:20210308145207p:plain — データの構成

Person Re-IDには大きく分けて、GalleryとQueryと呼ばれる2種類のデータが存在します。Galleryは、人物の見た目の特徴が格納された登録データベースのようなもので、既に個人の画像(特徴量)とそれに対応するIDが割り振られています。一方で、Queryは照合したい人物のことです。照合したい人物(Query)は大規模なデータベース(Gallery)に問い合わせて、マッチする人物を検索するというような流れになっています。このように、Person Re-Idは、検索したい人物をデータベースの中から探し出すというようなタスクであることを踏まえた上で話を進めていきたいと思います。

実用的なPerson Re-Idの全体的な流れ

実用場面において、Person Re-Idはどのようなステップを踏む必要があるのか、大雑把な流れを理解したい思います。下の図²を見てください。

f:id:yuichinagapan:20210308154210p:plain — Person Re-Idの流れ

4つのステップを踏む必要があります。それぞれについて見ていきます。

1.データの収集

まずは、生データの収集から始まります。生データというのは、敷地内に設置された複数のカメラから得られる動画データのことです。

2.人物検出 andトラッキング

2つ目のステップとして、データを収集したのちには、得られた動画から人物検出、場合によっては人物のトラッキングを行ってやる必要があります。具体的には、人物を囲うバウンディングボックスと呼ばれる長方形を人物検出器によって検出します。

3.人物の特徴量の抽出

3つ目のステップとして、得られたバウンディングボックスから、人の見た目の特徴ベクトルを訓練済みのニューラルネットワークにより取得します。要するに、人が切り取られた画像が与えられた時に、その画像をニューラルネットワークに入力することで、最終的に人の見た目の特徴を表したベクトルを獲得するというようなイメージになります。人の見た目の特徴表現をどのように得るかが、Person Re-Idにおいて主眼となるタスクであり、多くの研究はここの部分に焦点を当ています。

4.歩行者の検索(実行段階)

人の見た目の特徴表現を得た後には、既に登録されているデータ(Gallery)と、検索したい人物(Query)の特徴量の比較して、類似度の計算を行うことで、検索したい人物が登録データにおいてどの人物に対応するかを算出します。最終的に、Queryは類似度が最も大きいものをGalleryの中から選出して、QueryとGalleryを結びつけるというようなことを行っています。

実用と研究のギャップ

実は研究レベルで行われている最先端の手法を直接実用場面に応用できるかと言われるとそうでもなくて、実用と研究にはかなりのギャップ存在します。下の表を見てください。

f:id:yuichinagapan:20210308162906p:plain — 研究と実用のギャップ

研究よりの環境のことをclosed settings、実用よりの環境のことをopen settingsと呼びます。黄色に塗られた部分が注意して欲しい重要な違いです。順に解説していきます。

ステップ

研究では、前の項目で"ステップ3のみ"、つまり、人の特徴表現をどのようにニューラルネットワークを用いて獲得できるかというところに主な着眼点がある一方で、実用場面では、生データの収集をして、人物を検出して、人の特徴表現を獲得して、検索の行う、というように、"ステップ１"から"ステップ4"まで一気通貫して行う必要があります。

モダリティ

研究では、RGBデータを用いて実験の評価を行うことが多い一方、実用場面では、複数のセンサーから人の識別を行う必要も出てきそうです。最近では複数のセンサーを使ってPerson Re-Idを行う論文も出てきていますが、まだまだデータ整備が十分になされておらず、研究のフェーズにおいても発展途上といった感じです。

入力データ

研究で用いられるデータでは、評価を統一するために既に人物検出されたバウンディングボックスが与えられている一方、実用場面での入力データは、生のデータです。よって、実用場面では生のデータを処理してあげる必要があります。

訓練データ

研究においては、アノテーション付きの訓練データが十分にあるため、それらを用いてモデルを学習することができます。一方で、実用場面では、場合によっては、その環境に適した特徴抽出モデル用意する必要があるため、モデルの再訓練を行わなければなりません。この場合、学習を行うためのアノテーションが必要ですが、生のデータにアノテーションを行うとなると、それにかかるコストは膨大になってしまいます。

アノテーション

しっかり整備されたデータセットが使える研究においては、アノテーションは常に正確と言えますが、実用場面において、アノテーションを行う場合、必ずしも正確とは言えず、ノイズを含んだアノテーションになってしまう恐れがあります。

検索方法

最も大きな違いです。検索したい人物(Query)は照合先のデータベース(Gallery)の中から探索するというような操作でPerson Re-Idを行いますが、実環境においては検索したい人物が必ずしもデータベースに存在するとは限りません。初めてある人物ががカメラに映る場合には、Galleryに登録されていないので、既にGalleryに登録されているかを確認した上で、もしGalleryに登録していなければGalleryに登録するといった操作が必要になります。

Person Re-Idにおけるデータセット

Person Re-Idが一体どのくらいの精度を出しているかを把握するために、一般的なPerson Re-IDで用いられるデータセットの構成について触れていきます。Person Re-IDのデータセットは、以下のように大きく分けて、Training setとGalleryとQueryから構成されています。(画質荒くてごめんなさい)

f:id:yuichinagapan:20210308170916p:plain — 研究で用いられるデータセットの構成

人の見た目の特徴量の獲得のためのニューラルネットワークの学習はTraining setにより行われ、GalleryとQueryにTraining setと同一人物が含まれるということはありません。よって、トレーニングセットで人物がどのような見た目の特徴を持っているかを学習し、GalleryとQueryで学習されたモデルがどのくらいの精度を出すのかを評価することができます。いわば、GalleryとQueryは機械学習におけるテストデータセットになるということです。この構成は、研究(Closed settings)で用いられるデータセットに対しては、共通で当てはまるのですがが、Open settingsではそのデータセットも大きく異なってきます。Closed settingsではQueryに対応するGalleryが必ず存在するという構成になる一方で、Open settingsでは、Queryに対応するGalleryが存在するとは限らないという構成になります。

既存モデルでの大まかな精度(2020年)

Closed settingsとOpen settingsそれぞれの場合におけるモデルの評価についてみていきます。

f:id:yuichinagapan:20210308174914p:plain — モデル評価の手順

上の表のようにClosed settingsとOpen settingsではとるべき手順が違うことがわかります。続いて、それぞれ場合について、現時点でのモデルの精度を確認します。まずはClosed settingsからです。

f:id:yuichinagapan:20210308171455p:plain — 最新モデルの精度

上の図はMarket-1501³と呼ばれるデータセットでの評価です。縦軸のRank-1(%)は、詳しくは述べませんが精度のようなものだと思ってもらって大丈夫です。最新のモデルのRank-1は95%以上というとても高い数値を残しています。この95%という精度を直感的に表現すると、とある検索したい人物がモデルに入力された時に、95%以上の確率で正しいIDを返すことができるというような感じです。特定のデータセットに対しては現時点でのモデルでも非常に高いパフォーマンスを発揮できていると言えそうです。

一方で、Open settingsを仮定すると、先ほどの95%以上の精度が著しく下がってしまうということがわかっています⁴。Open settingsを仮定した研究は現時点であまりなされておらず、評価指標がまだはっきりと定まっていないので、定量的な数値を与えることはできないないのですが、精度は実用場面では使えないくらいに著しく低下してまいます。もし、実用場面でPerson Re-Idを行いたいのであれば、あらかじめ個人のデータを取得しておき、登録データベースに保存することで、Closed settingsにタスク変換をしてあげる必要がありそうです。

まとめ

この記事では、Person Re-Idは何を行っているかと、現実的なシステム構築を行うために考慮しなければならないことについて述べてきました。Person Re-Idの研究がもっと進んでいけば、いずれは監視カメラネットワークだけで個人を追跡できるようなシステムを作ることができるかもしれないですね。今後も継続して、この分野の最新の研究を追っていきたいと思います。

参考文献

Zhang, Z., & Huang, M. (2018). Learning local embedding deep features for person re-identification in camera networks. EURASIP Journal on Wireless Communications and Networking, 2018(1), 1-9.↩
Ye, M., Shen, J., Lin, G., Xiang, T., Shao, L., & Hoi, S. C. (2020). Deep learning for person re-identification: A survey and outlook. arXiv preprint arXiv:2001.04193.↩
Zheng, L., Shen, L., Tian, L., Wang, S., Wang, J., & Tian, Q. (2015). Scalable person re-identification: A benchmark. In Proceedings of the IEEE international conference on computer vision (pp. 1116-1124).↩
Leng, Q., Ye, M., & Tian, Q. (2019). A survey of open-world person re-identification. IEEE Transactions on Circuits and Systems for Video Technology, 30(4), 1092-1108.↩