Feature Pyramid Network(FPN)とは?構造・役割・効果・実装時の注意点を整理
物体検出やセグメンテーションを学んでいくと、モデルの性能は単にバックボーンの深さだけでは決まらないことが分かってきます。実際には、画像の中に存在する大小さまざまな対象を、どの解像度の特徴で、どれだけ意味の強い状態で扱えているかが大きく影響します。大きな物体であれば深い層の粗い特徴でも捉えやすい一方、小さな物体や細い境界は高解像度の情報がなければ不安定になりやすくなります。しかし、高解像度の特徴だけを使えばよいわけではなく、今度は意味の強さが不足しやすくなります。つまり、ビジョンタスクでは、解像度と意味抽象度をどう両立させるかが本質的な問題になります。
Feature Pyramid Network、いわゆる FPN は、この問題に対して非常に実用的な答えを与えた設計です。FPN は、異なる段階の特徴をただ並べて使うのではなく、深い層にある意味的に強い情報を上から下へ戻しながら、浅い層が持つ細かな位置情報と結び付けることで、複数スケールで使いやすい特徴群を作ります。ここで重要なのは、FPN の目的が単に特徴マップを増やすことではなく、各スケールで意味の質をある程度そろえた特徴表現を用意することにある点です。この設計思想が、物体検出でもセグメンテーションでも強く効きます。
EN
JP
KR