Briswell Tech Blog

ブリスウェルのテックブログです

動画の人物をホネホネ化

今回のAIブログは、骨格検出(通称:ホネホネ化)についてご紹介いたします。
骨格検出とは、動画または写真の中から人物の骨格を検出する技術となります。
サクッとどのようなものなのか、見ていきましょう。

【下北ラヴァーズ】スマートスピーカー

こちらの弊社Uri&Yuki漫才コンビ「下北ラヴァーズ」のダンス動画について骨格検出をしてみます。

微妙にシンクロしていないですね...(いや微妙というか全然かも!?)
骨格検出を利用すれば、実際にどのくらいシンクロしていないかを数値で定量的に評価することもできます。

骨格検出には「tf-pose-estimation」というモデルを使用します。
これは以下の「OpenPose」という骨格検出アルゴリズムを「TensorFlow」用に移植したものとなります。

github.com

では、早速ですが検出結果を見ていきましょう!

youtu.be

ほぼ完璧にホネホネ化できていますね。素晴らしいです。
骨格の位置を可視化するだけでなく、骨格の各ポイントについてXY座標で出力することもできます。

例えば、右腕の座標位置の推移を見てみると

f:id:KenjiU:20200901185451p:plain
Uri(立ち位置左)の右腕の座標位置推移

f:id:KenjiU:20200901215246p:plain
Yuki(立ち位置右)の右腕の座標位置推移

f:id:KenjiU:20200901185550p:plain
UriYukiの差分

X座標の差分が徐々に大きくなってきてますね...
このように「微妙にシンクロしていない」というのを数値で評価することができるようになります。面白いですね!

次は具体的にシンクロ度「何%」と出せる仕組みも作っていきたいなと思っております。

Briswell AI Team