てがみ: qatacri at protonmail.com | 統計 | 2020

202022501

ICG - AFLW
CASIA-WebFace DATABASE RELEASE AGREEMENT

データセットのライセンスがけっこう厳しい。顔認識関係の訓練済みモデルはかなり引っかかる気がする。もちろん自分でトレーニングしてもこのデータセットを使うなら同様。

元の画像データが Flickr から取得したもの (ALFW の方) であること、アノテーションには大変な労力が必要なこと、商用された場合に人種の偏りなどが問題になる可能性などを考えれば妥当だとは思う。ただ商用やら金銭面やらと関係なく、データのライセンスに縛りがあるのは色々面倒なのだよな。例えばデータの再配布が禁止されている場合、これで訓練したモデルは配布していいのか、とか。安全側に振るなら、再配布禁止のデータで訓練したモデルを含むプログラムは、たとえオープンソースであっても配布不可能になってしまう。

明確にクリーン (というか、問題があっても Google が対処してくれそう) なのは MediaPipe の訓練済みモデルくらいしかないかも。