Photoshop：AI/ニューラルフィルター・表情処理の課題と問題点

⚠︎ ページの作成日を確認のうえご覧ください。
内容が古くなっている場合があります。

Photoshopにβ版ながら実装された［ニューラルフィルター］の使用例を先日報告した。ニューラルフィルターには画像補修や人着効果、拡大時の画像の劣化をリカバリーする効果など様々な機能が含まれるが、やはり目玉は人物の表情変えや視線方向、顔の向きの変更機能ではないだろうか。このポートレイト機能に注目して報告した前回の記事以後、さらに多様なポートレイトに効果を試用してみた結果を、当記事にまとめてみようと思う。

はじめに

［ニューラルフィルター］はAIの機械学習を利用するPhotoshopのフィルター機能で2020年10月現在β版が提供されている。クラウドサーバーで処理される［ニューラルフィルター］は人物の皮膚感を理想的に改善する効果（名称＝肌をスムーズに）、ポートレイトの表情やポージングやライティングを変更する効果（スマートポートイレト）、メイクを施す（メイクアップ）、拡大時に画像劣化をリカバリーする効果（スーパーズーム）、モノクロ画像への人着効果（カラー化）等々が用意され、今後さらに機能が増える見込みだ。

これら効果のうち［ニューラルフィルター］の予告時から前面に打ち出されていたのが「ポートレイトの表情やポージングやライティングを変更する効果」だ。また他の効果よりAIに任せるのがより最適な分野であるだろうし、人物の表情が変わるというだけでもキャッチーであり、写真の歴史のターニングポイントに成り得る技術ではないだろうか。

実際に使用しても考えさせられる点が多いので、前回の記事に引き続き［ニューラルフィルター］のポートレイト機能を実験、考察する。

まず［ニューラルフィルター］のポートレイト効果の適用で気になったのは、モデルの人格権にいかに配慮するかだった。現段階のβ版以降、確実に処理は高度化するし、Photoshop以外のソフトやサービスで同種の機能やサービスが登場するのは確実で、現状の使い勝手やアウトプットの完成度についての不満は解消される。だからこそ現在［ニューラルフィルター］が持っている能力よりも、まず機能の本質と影響を考えざるをえなかった。

これまでも美肌化加工はあったし、Photoshopに既に実装されている［ゆがみフィルター］で顔のパーツを変形させたり顔幅等を修正して理想化させることも可能だった。美肌化は別として、［ゆがみフィルター］にも当人に無断でどこまで修正がゆるされるのかぼんやりした懸念があった。いくら理想化するとはいえ「それでよいのか」という懸念だ。また理想化、美麗化とは逆にいわゆる変顔をつくり出すのも簡単なのが［ゆがみフィルター］だ。

Photoshopの［ゆがみフィルター］に限らず、他の美麗化、理想化、もしくは変顔化ソフトやサービスを被写体本人や被写体となった人と意識を共有する人が使用するのは、これまでほとんど問題になっていない。SNOWなどのアプリは支持され浸透している。

しかし赤の他人が［ゆがみフィルター］を使って加工したポートレイトを勝手に公開するのはどうだろうか。そして［ニューラルフィルター］でかなり自然かつ微妙にも大胆にも表情が変えられ、見かけの年齢もまた変えられるようになり、これもまた本人の意思に反していたらどうだろうか。

［ニューラルフィルター］で加工・修正することで美麗化、理想化だけでなくグロテスクな表情にだってなり得る。ディープフェイク動画による捏造が問題化したのと同じように、［ニューラルフィルター］による表情、年齢の見えかた、視線や顔の向きの変更が被写体の意思に反したものだったら「捏造」であり、被写体の人格権を損ねるものになる。

まず冒頭でこの大問題について触れ、ここから先［ニューラルフィルター］使用の実例と制作上の課題を考えていくことにする。

［許可なく事例をダウンロードまたはキャプチャすること、これらを転載することを固く禁じる］

何が可能で何が無理なのか

β版［ニューラルフィルター］のスマートポートイレトはすべての顔写真に使用できる訳ではない。

［ニューラルフィルター］が人間の顔であると認識できても、顔に手や他の何かが重なっている場合、エラーが出て処理が止まるか、処理できても画像の崩壊や矛盾が生じがちだ。表情を変えるため顔のパーツや表情筋は自由に動かすことができても、その他の要素はたとえ手指であってもうまく対処できないらしい。

表情の変更をさまざまな画像で試してみると、顔にかかる指の例に限らずAIが得意とするある種のポートレイト、不得意なポートレイトがあるのに気づく。

被写体の年齢には幅広く対応できるようだ。

子供/笑顔化

年配者/笑顔化

子供/年齢変化

年配者/年齢変化

この事例で年齢変化のスライダーを（成長・高齢化）へ最大量移動させたとき、子供が老女化し表現が過剰でグロテスクだったため掲載を見合わせた。また、いずれの年齢であっても過剰に効果を使ったとき公開に倫理的疑問が伴うだけでなく画像そのものが人物像として成立しないケースが多々あった。

試用を繰り返して、顔として認識できない画像、認識できるが処理できない画像、処理できるが不自然さが際立つ画像、あらゆる変更に幅広く対応できる画像の違いがわかってくると、［ニューラルフィルター］にとって「典型」となる標準的なポートレイトがあるのではないかと感じられた。

［ニューラルフィルター］が「典型的」なものとするポートレイトとは、ある種の顔かたち、顔まわりの状態のことではないのかという推論に行き着き、確実かつ無理のできる元画像がどのようなものかもわかるのだった。次は、その典型と言えると思われる画像を使ってスマートポートイレト機能の例を挙げて行くことにする。

典型的なポートレイトの例を挙げ、［ニューラルフィルター］のスマートポートイレト機能を適用してみる。

まず［笑顔］［元画像］［怒り］の例。あまり極端な効果の適用はグロテスクであり非現実的なだけでなく、顔面が崩壊するケースが発生しがちなため（2020年10月段階のβ版）、効果の強さは±20の幅にしている。

この程度の変化では表情や画像そのものの大きな崩壊はないが、細かな部分に矛盾、崩れが生じる場合があった。適用量を増やせばあたりまえだが更に顕著な不具合が出がちになる。実際に試用して実感して理解してもらいたい点だ。

このポートレイトは後ほど説明する「典型的」な状態であり、「典型的」顔貌の持ち主を写したもので、表情項目を最大量適用しても他の例のようにひどいことにならなかった（自分の顔写真で試してみるとよいだろう）。前掲の各表情はひかえめで差が小さいと感じたかもしれないが、以下に紹介する最大量に変化させたものは過剰であり、ある種の演技っぽいものを感じるし、いろいろおかしな部分がある。また表情の問題だけでなく画像そのものが崩壊したり辻褄があわなくなっている。そして操作している私ですら写真の加工ではなくイラストを描いている気がしてきた。

年齢を若年化、高齢化させた例を示す。

この機能はAIが若年化＝肌のキメや凹凸感を消し、なめらかな輪郭（もしくは丸みを帯びた輪郭）にする、高齢化＝肌のキメを粗めにしたりほうれい線を強調し、顔の輪郭にごつさやたるみを加え、髪色を白髪化させる、といった処理をしている。目鼻が顔の下側に寄り額が広くなると幼く見えるものだが、そこまで低年齢化させるものではないようだ。

なお元画像の状態と肌のキメを消す処理の強度にもよるが、写真的リアリズムが消えてイラスト的になりすぎるケースがあった。また白髪化がうまく適用されず、前髪など部分的に色が抜けるケースがあった。

見かけで年齢を変えるうえで肌感、丸み、髪色を変えると効果がわかりやすいのだろう。だが、わかりやすいだけに月並みであったり漫画的誇張さえ感じられ、肌のキメを消してなめらかにしすぎるのは元画像の調子からかけ離れすぎている。イラスト調に変わるのはSNOW等の美肌効果アプリユーザーの願望は適えられても写真表現上は扱いにくい。

またここに示したケースでは前述の課題があるとしてもうまく変化していると言え、元画像の被写体の個性、写真の調子など条件が変わるとまったく見られたものではない写真も生成された。

表情だけでなく若年化や加齢を試してみたくなるが、いたずら以上のメリットを生み出すのは難しいかもしれない。

欧米人と比較して童顔であるとされるアジア系の若年化、高齢化を例示する。

若年化-20では差がつかず、高齢化+40で前掲の欧米系モデルの+20相当かと思われる。いずれも成功しているとは言い難い。

視線の向きの変更。

効果の強さは±20の幅にしている。かなり自然に見えるが、これは正面向きかつ顔が上向き下向きではないポートレイトを元画像にしているからだ。また瞳と白目の分離が明確かつ、ライティングで極端な明暗がない点も自然な画像をつくるうえで重要になる。

なお元画像にあった瞳への照明の写り込みは左右に視線を振ることで消えた。他の例でも、こうした結果になるものが多かった。ライティングが一定なら瞳へのキャッチライトまで瞳といっしょに移動することがないので、これをAIが認識できているならかなり賢いと言える。

顔の向きの変更。

今回例示している元画像で予想外の結果が生じたのが顔の向きの変更だった。もしかすると元画像を熟知している私だから覚えた違和感かもしれないが、被写体の左右の目の大きさの違いがやけに強調され、顔のつくりそのものも別人じみているように思われてならない。

これは他の画像では違和感が生じなかった点であり、元画像次第で大きく結果が変わるのを思い知らされた。

上掲の４カットはいっけんうまく顔の向きが変わっているように見えるかもしれないが、方向-20の変更でさえ左右の目のサイズに極端すぎる違いが感じられ、効果を最大にかけた-50では違和感は更に強い（と私は感じる）。

もともと元画像の段階で左右の目の大きさが違い、向かって右側の目が小さいのだ。

向かって左向きへの（向かって右側の目が手前にくる）変更［－（マイナス）側への操作］を加えると、向かって左側が大きく右側が小さい比率のまま顔の向きが変わり、左右の目の大きさに逆遠近のような感覚が生じる（または本来手前にきて大きくなるべきものが小さ過ぎて違和感が生じる）。

この推論の根拠は、向かって右向きへの変更を最大にした［+50］の画像では左向きと比べ違和感がないからだ。向かって右向きでは、向かって左側の目が手前、右の目が奥行き側になる。元画像のままのサイズ比（大きい向かって左の目、小さい右の目）であっても、手前なり奥行き側なりの遠近の差として感じられるのだろう。

左右の目の大きさに目立つ違いがないなら、ここまで違和感はなく仕上がる。

また顔の向きが変われば、正面では見えていなかった側面を描画しなければならなくなる。このため毛髪がおかしくなっている。ただし、向きが変わり見えなくなるべき耳などが見えなくなっているのは賢い処理と言えるだろう。

存在するものを変形させるより、ないものを描くのは難易度が高いので顔の向きの変更はまだ未完成の領域と言ってよいだろう。

照明の方向の変更。

この例では、過剰にしなければかなりうまくいっている。AIが顔の凹凸、顔と首の関係を理解しているのがわかる。

照明の方向もまた元画像の状態に結果が大きく左右され、当例が成功した理由は左右の明暗差がすくなかったからだ。左右の明暗差が大きい例は後述するが、こうしたケースで明るい側をさらに明るくするのも、暗い側をもちあげて明るくするのも機能があまり効果的に作用しない。また暗くトーンが欠如しがちな箇所を明るくしても美しくない場合が（あたりまえだが）多い。

屋外で撮影したポートレイトでは顔は明暗差がきれいに出ていても首回り等にまだらな明暗が生じていたりする場合がある。こうした不規則？な明暗があると、やはり機能が効果的に作用しない、作用することで美しくない仕上がりになると思ったほうがよい。

こうしたところに左右に明るさのグラデーションをつけるだけではないAIによる処理の特徴が表れていて、むしろ手作業でグラデーション処理したほうが（実際にライティングを変更した状態と違っていても）違和感がないケースがあるのは憶えておいてよいと思う。

典型的であるか否か

Photoshopの［ニューラルフィルター］はポートレイト機能＝表情とディレクションの変更以外もすべてAIの機械学習をもとに効果が作用するよう設計されている。

機械学習は膨大なサンプルから特徴を抽出して傾向を割り出す。特徴を抽出して傾向を割り出すのだから、AIは典型的な例を蓄積して行くことになる。人間の顔は様々だし表情もまたさまざまだが、それらの典型が導きだされ、ユーザーが用意した顔画像に変更を加える際に参照される。

顔とはどのような輪郭、立体、パーツの配置等々なのか、［笑顔］［驚き］［怒り］という表情の定義があるとき顔貌はどのように変化するか典型例が用意されている。ユーザーが用意した顔画像をパーツごと、部分ごと認識してマッピングして、これらを表情の定義にあわせて変形させる。

顔がどのような立体であるかも学習されているから、顔が多少左右向き、上下向きでも［ニューラルフィルター］は追随できる。ただし［顔の向きの変更］の実例を挙げる際に指摘した左右の目の大小までは解決できなかった。

次に示す（先日紹介した）例は、前記事で説明したように正面向き、上下に振っていない頭、陰影が穏やかといった典型を避けて意図的に画像を選択している。正面向きではなく更に傾いている、やや上向き、瞳の位置が向かって右に寄っている、陰影が強すぎ、さらにフィルム（ポジ）撮影の写真からの切り出しだ。そしてスタジオフォトとしてつくりこんだ前掲の例とちがい、さまざまな面で生々しさがそのまま残っている。生々しさについてはデジタルではなくフィルム、しかもスキャンしっぱなしのままというのも大きい。つまり［ニューラルフィルター］が典型的とする人物像からかけ離れているのではないかと想定して選択した写真だ。

夏至の女 — 別カットがこのような写真に仕上げられたことからも、撮影意図が「標準的かつ平均的」な写りを求めていなかったのがわかると思う。

典型から離れれば離れるほど違和感のすくない表情をつくるのが難しくなる。論より証拠、さまざまな画像を各自が［ニューラルフィルター］で処理してみることを勧める。

視線の方向の変更は他を元画像にした場合ほとんど問題なく効果があらわれたが、この例ではモデルさんに失礼なくらいの仕上がりになった。

glance-20Smile15anger-15 — **笑顔化＋視線を向かって左へ移動**

元画像とかけ離れて視線が宙に浮き、目元の解像が極端に劣化してピンボケ状態になっているためモデルさんの生命感や意志の働きといったものが消え失せたかのようになっている。顔つきからして別人になってしまった。

正面向きとは言い難いものの、上下に振っていない頭、陰影が穏やかと［典型］に近い画像を使用した場合、以下のように自然な視点移動が可能だった。

次のカットは顔として認識されクラウド上で処理ははじまるが、エラーが出て作業が止まり表情づけができなかった。

［ニューラルフィルター］が真横向きの顔に表情をつけられないのはフルカラー、モノクロの違いを問わない。［ニューラルフィルター］のAIは人間の横顔も学習している。しかし、左右の目、鼻、口が揃っていない真横向きの顔にどうやって表情をつけたらよいか現段階では知らないと言える。

冒頭から掲出している次の画像のような特徴 / 十分な解像度、ソフトフォーカスや極端な被写界深度の浅さがない、極端な表情をしていない、正面向き、上下に振っていない頭、陰影が穏や（スタジオライティングが施されているなら文句なし）＝これが［ニューラルフィルター］が典型的とするポートレイトだ。そしてティーンエイジャーから壮年の幅に収まる年齢なりの顔が絶好の素材になるが、例示したように幼児、老人であっても素材しだい変化のさせしだいで十分素材に成り得る。

表情をつける難しさ

［ニューラルフィルター］でつける表情のうち、もっとも難しいのが微笑みではないかと思う。［怒り］［驚き］より日常的な表情であり、これらがともすると変顔であっても通用するのに対して［笑顔］はリアリティーがないと不自然さばかりが際立つ。

最初に挙げた表情変化の例を再度掲出する。

左が［笑顔］のみ+20にした表情だ。口とともに目元も変化してみえるが目元はまったく変化していない。

次の画像は屋外撮影の元画像からかなりトリミングして人物を抜き出したものだ。真正面向きでなく、切り出しからの解像感にあまり余裕がない画像からも、両眼がはっきり認識できフラットな配光であれば無理なく表情を変えられる。

左から元画像　｜　［笑顔］項目のみプラス方向　｜　さらに［怒り］項目をマイナス方向へ操作　したもの。

［笑顔］項目のみプラス方向では、目が笑っていない、表情がかたい印象を受ける。このため［怒り］をマイナス方向へ操作して、表情筋の緊張を抜いている。

微笑んでいる元画像からの笑顔化では［笑顔］項目のみ調整でも十分だが、やはり［怒り］をマイナスにすると更に柔和な表情になる。

image2-Smile比較 — **元画像・笑顔20・笑顔20 怒り-20**

AIが学習した［笑顔］なのか、Adobeの技術者が定義した［笑顔］なのか真実は藪のなかだが、欧米人は口元を表情を読み、日本人（もしくはアジア系？）は目元で表情を読むという文化的違いを思い出さざるをえない。それゆえ欧米人はマスクを嫌うとも言われている。目元が変化しない笑顔では何かが足りないと思う心理が、［怒り］項目をマイナス方向へ操作させているのは上掲の画像だけではない。

前出のこの笑顔化画像も、［笑顔］項目の操作だけでなく［怒り］項目をマイナス方向に操作している。このように目の周辺から顔面全体の緊張を解く操作をした場合、私（またはアジア系？）と表情についての感度、価値観が異なる人が見たときどのような感想を抱くのだろうか。また表情変化の例に挙げている欧米系女性モデルの場合、口元の変化だけで十分な気がするのは私がそう感じているに過ぎないだけか、欧米系の人々の顔貌の特徴ゆえの結果かなんともいえないものがある。

憶測を重ねたくないが、［ニューラルフィルター］の表情づけは欧米人の価値観が反映されたものかもしれない。もちろん、ちがうかもしれない。表情変化の例で使用した欧米系女性モデルの画像では目元がまったく変化していなかったが、同じ欧米系女性の写真を使用したとき目元周りに表情の違いが生じているので、かならずしも目元に変化がない訳ではない。いずれにしても［笑顔］［驚き］［怒り］の各項目のスライダーを単独で動かすだけでは、なかなか満足の行く表情にならない。

現状の［ニューラルフィルター］はクラウドとのやりとりで処理にタイムラグがあり、スライダーを動かすにつれリアルタイムにサムネイルが変化するのを目視しつつ最適化をはかることができない。これが［笑顔］［驚き］［怒り］のブレンドを更に難しくしている。

実際に作業してみなくては理解できないだろうが、ポートレイトの表情を操作する操作は写真的な感性や技術とまったく別のものを要求されるし、あたりまえだが撮影とも現像ともまったく違う、なんだったら写真そのものとも違う何かをしている気持ちになる。絵を描くのとも違うが、どちらかと言えば絵画寄りの思考とセンスを要求される。シャッターチャンスを見極める責任には慣れっこだが、ディスプレス上で表情を適切化して決定するのに実に臆病になり、どこで手を止めて決定稿にすべきかやればやるほどわからなくなるだろう。

そして、こういう行為を行うのが「写真」だったろうか？　と疑問を抱くはずだ。撮影した写真を自分が操作するにしても、別のスタッフが表情を操作するにしても釈然としない気持ちになる人は多いだろう。

今後［ニューラルフィルター］の表情づけは高度化するだろうが、まだしばらく使用者の操作のさじ加減が要求されるだろうと思われる。私たち撮影者は撮影時にシャッターチャンスを選択しているし、撮影済みの写真からベストカットを選択することもできるが、ここで述べてきたような表情をつくり出す作業はまったく異なる技術が要求され、それは一朝一夕では獲得できるものではない。デッサンを学ぶとき解剖学の理解が技能を高めるように、人体や顔面の構造を理解しなければならないのではないかとさえ感じる。

またこうした操作が、今までの写真や写真撮影をまるで違うものに変えてしまうだろうし、そうなったとき写真とは写真撮影とは何かが問われるだろう。理想像を描くため素材をサンプリングするのが写真撮影、素材はAIで最適化するのが当然と解釈する人が現れても不思議ではない。このように考えるのは撮影者自身だけとは限らず、写真を見る人、使う人、撮影者と共同作業する人の意識も変わるのは間違いない。

Photoshop：AI/ニューラルフィルター・表情処理の課題と問題点

関連

Hiro.K / 加藤文宏

コメントを残すコメントをキャンセル

関連

Hiro.K / 加藤文宏

コメントを残す コメントをキャンセル

プライバシーとCookie

コメントを残すコメントをキャンセル