2004/10/17 第8回 Res: もの研究会

似顔絵の哲学

岩本 真行

■ 1. はじめに 〜私と似顔絵〜

私は数学を専攻する大学院生だが趣味として似顔絵を描いている。そして最近では<路上似顔絵>に挑戦している。今回の発表では私がとりつかれている似顔絵という<もの>を多面的に考察した.

■ 2. 似顔絵へのアプローチ

私は今回、以下の3点から似顔絵にアプローチした.

  1. 似顔絵はなぜ他の絵に比べて難しいのか?
  2. <よい似顔絵>とはいったいどんなモノか?
  3. なぜ似顔絵はポピュラーなのか?

各アプローチの概要

1について

描いてみればわかるが,似顔絵は難しい.その難しさは顔というモデルの<複雑性>にではなく,ある種の<特殊性>にあると考えられる.その特殊性は生物学的観点(主として進化論)からあきらかになることを解説した.

2について

<よい似顔絵>の満たすべき条件を私は以下のようにまとめた.

  • 必須条件:一見してその人だとわかること.すなわち,似ていること.

これは似顔絵と呼ぶからには不可欠であろう.更に付加条件として以下の二つを採用した.

  • 付加条件:
    A. モデルの内面や雰囲気が絵に表現されている
    B. 絵に生命感がある.

ここで内面,雰囲気,生命感という3つのキーワードが出てくるが,これらの関係は下図のようになると考える.すなわち,生命感は内面,雰囲気よりも広い概念であると捕らえた.このような図式を踏まえた上で,本論では特に付加条件Aについて考察を深めた.そもそも内面,雰囲気とは何か?というところから始め,これらは本人の属性という絶対的なものではなく,人と人との関係性において生じる相対的なものであり,似顔絵を描く際にはこの関係性を考慮する必要があると結論した.

3について

少なくとも日本においては、似顔絵は大衆文化に浸透している。新聞の政治風刺画、雑誌の表紙、を筆頭にあらゆるメディアに似顔絵は登場する。似顔絵は芸術作品の中においてもっともポピュラーなものといえる.本論ではこの理由を論じた.

■ 3. 本論

以下で上に提示した3つの疑問それぞれについて論じていく.

1. 似顔絵はなぜむずかしいのか?

顔という器官の生物学的意義

我々はコミュニケーションをとるとき主に相手のどの部位をみるだろうか?それは<顔>である。なぜ<顔>なのか?

一般に霊長類は視覚が発達しているといわれる。従って視覚的なコミュニケーションを多用する傾向にある。コミュニケーションの手段としてはこのほかに触覚によるコミュニケーション(例:サルの毛づくろい、人間の母子間のスキンシップ)、嗅覚によるコミュニケーション(例:マーキング)、音声によるコミュニケーション(例:犬の遠吠え)があるが、視覚信号は他のモノに比べエネルギーコストが小さいので霊長類では多用される。そして霊長類が用いる代表的な視覚信号が<顔の表情>なのである。なぜ<顔>が信号源になったのだろうか?これは顔に目、鼻、口、耳といった感覚器官が集中していることによると思われる。中でも目は重要である。目をみることによって相手が自分に注意を払っているか否かが判断される。従って相手の目を見ることは生存競争を勝ち抜く上での、またはコミュニケーションをとる上での一番の基礎になると考えられる。

他の例を挙げると、犬や霊長類には恐怖感を感じると顔の筋肉が緊張するという反射現象がみられる。それによって口が開き牙をむく。従って口も相手の感情を読みとる情報源になりうる。馬も敵対心や恐怖心を持ったときは耳を伏せる傾向がある。このように感覚器官と感情との間には強い相関があり、従ってそれらが集中する<顔>が重要な対象になったのだろう。個体同士は徐々に互いの顔を注視しあうようになりそこから顔から感情を読みとる仕組みが発達し、同時に顔を感情表現のツールに用いるようになっていったのだろう。人間は霊長類の中でもっとも進化した種であるが、その表情ももっとも多様である。我々は意図的にあらゆる表情を作ることができるが、これは進化適応の結果なのである。

人間が如何に顔というものに敏感に反応するかは次のような例からもわかる。<心霊写真>の代表的なタイプとして、壁といった背景に霊の顔が浮かび上がっているというものがある。このタイプの心霊写真は実に多い。しかしこれは霊でも何でもなく、人間が顔に似た形状に対して敏感に反応してしまう結果と考えるべきである。実際古ぼけた壁をじっと見つめていればいくつかの顔が浮かび上がってくるだろう。

このように顔の認知能力が向上してくると次に顔が<個体識別>の指標として用いられるようになる。こうしてますます<顔>という器官の特異性が際だってくるのである。

以上をまとめると、次のようになる。顔とは、

  • 相手の感情、意志を読みとるための情報源
  • 相手に感情、意志を伝えるためのツール
  • 個体識別の指標

→ <顔>=<視覚コミュニケーションを行う上での最重要ツール>
→ 顔の認知能力が異常に発達

以上で<顔>というモデルの特異性は明らかになった。次に問題とすべきは<顔の認知構造がどのような仕組みになっているのか?>である。これは<視覚心理学>や<脳科学>に属する問題である。<似ている似顔絵>は<人間の顔の認知構造に適合している絵>と言い換えることができるので、<顔の認知構造>を解明すればより似ている似顔絵を描くための大きな指針となるだろう。次の節では<顔認識の構造>に迫る。

顔認識の構造

我々の<顔認識>の特性は、大きく以下の二つである。

特性1:我々は知人の顔を瞬時に判別することができる(実験データによれば250ミリ秒で認識される)。しかも前、斜め、横、というように見る角度が変化してもその人だと認識できる。

特性2:我々は顔を目、鼻、口といったパーツの大きさや形状(例:口が大きい、目がたれている)といった<局所的特徴>、またそれらの配置やバランス(例:目が離れている、鼻の下が長い)といった<全体的特徴>に敏感に反応し認識する。そしてそれが顔認識の基礎をなしていると考えられる。

特性3:顔には<表情>があり形状がダイナミックに変化する。しかし我々はそれに左右されることなくその人の顔と認識することができる(笑い顔のAさんと怒り顔のAさんの顔の形状は異なるが、同じAさんだと認識する)。

特性1について
(発表では3次元形状認識の原理を視覚心理学の立場から解説した.顔認識に限定されない一般的な形状認識の話なので省略する.)

特性2について
我々は人の顔を写真のようにインプットしているのではないと推察される。というのも、前述のとおり知人の顔を思い浮かべるときそのイメージはおぼろげで、「目が大きかったな」とか「面長だったな」といった<あいまいな特徴>が想起されるからだ。仮に写真のようにインプットされているならば、頭の中で鮮明なイメージが浮かぶはずである。ではいったい<顔>はどのようにしてインプットされているのだろうか?

この問題に対しては「だいたいこのような情報処理が行われているのではなかろうか?」というモデルは提示されている。これは「人工ニューラルネットワーク」と呼ばれるもので、機械学習の重要なツールとして用いられている。

特徴空間
顔を<特徴の集まり>として認識していると仮定すると、<特徴空間>という概念が自然に出てくる。例えば極端に単純化して顔の特徴は<唇の厚さ>、<両目の間隔>、<鼻の幅>の3つしかないとする 。このとき、顔の特徴は3つの数値の組み合わせで表現され、したがって3次元座標空間の1点として表される。この座標空間のことを、座標値が特徴を表す数値であることから、<特徴空間>と呼ぶ。ここで次のような疑問を持たれる方がいるだろう。「特徴の中には数値化されないものもあるのでは?」と。確かに、<目の形の特徴>(たれ目、つり目など)が数値化されるとは思えない。とりあえずこの疑問は保留しておく。後に顔認識モデルを提示するが、そのときに「人間は顔の特徴をどう認識しているのか?」が判明するだろう。

さて、一般に人の顔の特徴は20個程度あるとされている 。従って特徴空間は20次元になる。私の顔もあなたの顔も、この20次元空間の1点として表されるのである。

「A,B2人の顔が似ている」

ということを特徴空間の言葉で表現するとどうなるだろうか?それは、

「A,Bの特徴空間における位置が近い」

となる。

特徴空間の概念を用いると、似ている似顔絵をどのように描いたら良いかが具体化される。ここで改めて、「特徴とはいったい何か?」を考えてみよう。「Aさんは目が大きくて特徴的だね。」というとき、何を基準にして「大きい」といっているのだろうか?それは<平均的な目>に比して<大きい>といっているのである。すなわち、特徴とは平均からのずれだといえる。従って特徴を把握するには平均的な顔を構成しなくてはならない。これは次の操作で数学的にできる。これはひとえに、特徴を数値化したから可能なのである。

先ほどの3次元の例で説明しよう。A,Bという二人の顔を特徴空間にプロットする。簡単のため、

  • 唇の厚さを<特徴1>
  • 両目の間隔を<特徴2>
  • 鼻の幅を<特徴3>

とし、Aの座標を(A1,A2,A3)、Bの座標を(B1,B2,B3)とする。

さて、AとBの特徴1の平均<P1>はどうきめればよいだろうか?これは、A1とB1の算術平均

P1=(A1+B1)÷2

をとるのが妥当だろう。同様に

P2=(A2+B2)÷2,  P3=(A3+B3)÷2

とする。さて、これらを座標値に持つ点<P=(P1,P2,P3)>がどんな点かといえば、それは「線分ABの中点」である。ベクトルの言葉を使えば、ベクトルPはベクトルAとベクトルBの算術平均である。

これを拡張すると、n人の人物A1,A2,・・・,Anの場合、それらの顔の平均Pは右図となる。

さてこうして平均顔Pが構成された。<平均顔P>と<人物Aの顔>が与えられたとき<Aの顔を強調>するにはどうすればよいだろうか?それは次の操作を行えばよい。

PとAを直線で結び、Aの側には延長する(図参照)。その延長線上にある点Aをとれば、これが<Aの強調>になっている。そしてAから離れれば離れるほどその強調は激しくなる。逆にAの特徴を抑えたいときには、半直線のAとPの間の部分に点Aをとればよい。このように特徴空間においては顔の強調という操作が実に簡単に行える。

より似ている似顔絵を描くためには、まずは顔の<特徴空間>を体でもって体得し、平均顔Pとモデルの顔Aとの位置関係を正確に把握し、その上で強調操作を的確に行える技術を身につけなければならない。

ではここで、<誤った強調>とは何かを私の体験を元に説明しよう。<誤った強調>を特徴空間で記述すれば、下図のようになるだろう。

私は最近練習のため有名人の似顔絵をひたすら描いているのだが、人気アイドルの「小野真弓」の似顔絵が非常によい教訓を与えてくれた。私はいつも描いた似顔絵をある友人(仮にDとしておく)に見せて評価をしてもらっているのだが、小野真弓の似顔絵を見たDは、「これ、久本雅美??」と宣ったのだった。このようなとんでもない錯誤が起きた理由は、ひとえに私が<誤った強調>を行ったからに他ならない。図式的には以下のようになる。

さて、<特徴空間>が如何に有用な概念であるかがおわかりいただけたと思う。しかし、先ほども少し指摘したように、我々はまだ重要な問題を無視している。それは、

特徴空間はいかにして形成されるのか?すなわち、どのような特徴が座標成分として選ばれるのか?

という問題である。先ほどの3次元の例では唇の厚さ、目の間隔、鼻の幅というまさに特徴と呼ぶべきわかりやすいものが座標成分に採用されたが、考えてみると、我々が認識している顔の特徴はもっと微妙で全体的なものである。確かに上記のような具体的な特徴も認識しているのではあるが、それ以上に、パーツ全体のバランス感や質感のようなもので理解しているように思われる。先ほど顔にはだいたい20個程度の特徴があると述べたが、その<20個の特徴>とは具体的にどのようなものなのだろうか?これは非常に興味深い問題である。この問題を、<人工ニューラルネットを用いた顔認識モデル>を考察することで探っていきたい。

(ここで脳の情報処理の原理を解説する予定だったが,時間の制約上省略された.)

脳の情報処理過程を人工的に実現したものが<人工ニューラルネットワーク>と呼ばれるものである。すなわちニューロン(神経細胞)と同じ反応特性をもつ人工素子を用意し、それらを接続してネットワークを構成し、情報処理や学習を行わせるのである。<顔認識>もまさしく学習だが、以下では人工ニューラルネットワークを用いた<顔認識モデル>を考察し、実際の脳がどのようにして認識しているかを考えるための布石としたい。このモデルがある程度妥当であるとすれば、人間が<顔の特徴>をどのような形で認識し、そして<特徴空間>がいかなるものか、という先ほど提示した問題に答えることができる。

表を見ていただきたい。これが人工ニューラルネットによる顔認識モデルの概念図である。まずモデルの概要を説明しよう。

モデルの概要
たくさん並んでいる<○>は(人工)ニューロンを表している。ニューロンは3層構造になっている。第一層は「入力層」であり、人間の網膜に対応する部分である。その素子数(網膜上のニューロンの数)は64×64であり、ここに顔写真を入力するのである。ここでは簡単のため<カラー写真>ではなく<白黒写真>を想定する。そうすれば各ニューロンの発火規模は対応する<画素>の<明度>によって決まる。第一層の発火が第二層、第三層に伝播し、その過程で情報処理が行われる。第三層は出力層であり、ここの発火パターンで顔のデータ(性別、人名)が特定される。

このモデルを使って、顔の認識(学習)を実現したいのである。たとえば100人分の顔写真を用意する。そして各写真のモデルの<性別>と<人名>をコード化する。コード化は以下のように行うことにしよう(別に他の方法でも良い)。

コード化の方法
性別:<男→0>,<女→1>とコード化。
人名:100人に1から100までの番号を振り、その番号を6桁の2進数で表示したものを人名コードとする。
すなわち、各人物は8桁の0と1の並び(2進数)でコード化される。

番号 氏名 性別 コード
1 田中康男 0000001
2 広末涼美 1000010
3 茂木健二郎 0000011
4 小泉濁一郎 0000100
100 長谷川恭子 1110100

入出力関係は<シナプスの抵抗値>によって変動する。そして<学習>とは、

入出力関係が正しくなるように<シナプスの抵抗値>を最適化すること

になる。例えば

「1田中康男」の顔写真→0000001

なる入出力関係が得られるように<シナプスの抵抗値>を最適化できたならば、「田中康男を記憶(学習)した」といえるだろう。すべての人物についてこの操作が完了したとき、顔認識が完了したことになる。

<シナプスの抵抗値>は<誤差逆伝搬法(バックプロパゲーション)>と呼ばれる数学的なアルゴリズムによって最適化する。そのアルゴリズムの詳細はここでは述べないが、概略は入力に対して誤った出力を出したときに(例えば田中康男に対して0000011を出力)、その誤差を減らすような作用をネットワークに与えるのである。この操作を繰り返すことによって徐々にネットワークは正しい振る舞いを行うようになる。

さて、学習は大きく<教師学習>と<強化学習>に分けられる。前者はその名が示すとおり<教師>のいる学習である。ここの<教師>とは広い意味で用いられている。学習の補助、指導をするものはすべて<教師>である。例えば赤ちゃんが母親に「これが魚ですよ」と教えてもらい<魚という表象>を獲得する。これは教師学習である(教師=母親)。また、中学生が単語帳をみて英単語を覚える。これも教師学習である(教師=単語帳)。一方<強化学習>は教師を仮定せず自力で学習するものを指す。例えば<何かのコツをつかむ>というのは強化学習になる。自分で繰り返し訓練し、その結果コツが学習される。そこには指導者も存在しうるが(スポーツのコーチなど)、コツというのは主として<自分の感覚>の相互作用により習得される。従って強化学習は自分の感覚、知識を教師とする教師学習ということもできる。「教師=自己」、これが強化学習である。

上の顔認知モデルは<名簿表>という教師に従って学習を行うので<教師学習>である。これは英単語の暗記に似た構造をもつ(下図参照)。中、高校では英単語の意味を書かせるテストをよくやらされるが、これは英単語が入力で意味が出力になる。この入出力関係が正しくなるように暗記という学習を行うのである。

学習内容 入力 出力
顔認識 顔画像 性別、人名
英単語の暗記 英単語 日本語での意味

さてここで学習が完了したネットワークに<名簿にある人物のほかの顔写真>を入力するとうなるだろうか?例えば<1田中康男>の学習に用いた写真が<笑顔>だったならば、彼の<怒り顔>の写真を入力してみるのである。果たしてネットワークはどんな出力(答え)を出すだろうか?実験結果によれば98%の確率で正しい答えを出すのである 。これはネットワークの<般化能力>を示す。これは上記の<特性3>を説明する。我々は顔の表情がダイナミックに変化する中でもその人の同一性を維持することができる。それはおそらく<表情に左右されない普遍的特徴>を無意識のうちに学習しているからであろう。そして上のモデルはまさにそのような能力を示したのである。

最後に上のモデルと<特徴空間>との関係にふれておきたい。第一層、第三層の意味については述べた(入力層、出力層)が、第二層については全くふれていなかった。この層はどういう意味をもつのだろうか?実はこの層が<特徴空間>に対応すると考えられるのである。第二層は80このニューロンで形成されているが、その一つ一つが顔の何らかの特徴を表していると考えられるのである。例えば

<3茂木健二郎の写真>を入力したとき第二層の<56番目のニューロン>が強く発火した

としよう。するとこれは、<3番茂木健二郎>は<56番目の特徴が強い>ということを意味するのである。「第一層→第二層」の伝播では<特徴の抽出>が行われているのである。

では、第二層で表現される<特徴>はいかなるモノなのか?これを調べるには第一層に様々な画像(顔写真に限定しない)を入力してやり、第二層のニューロンの反応特性を見てやればよい。その結果は表7のようになる。ぼやけた(くずれた)顔のようなものが写っているがこれがまさに<特徴>なのである。特徴は唇の厚さや鼻の幅といった<局所的、具体的>なものではなく、言葉で表現できない<全体的、抽象的>なものなのである。

この事実は我々の顔認識の特性に適合するように思われる。我々は顔をパーツごとに認識するというよりは、顔全体の質感、イメージで認識しているように思われるからだ。

以上よりこのモデルは我々の顔認識の特性を十分説明している。脳の中ではこれより遙かに複雑な情報処理が行われているのは間違いないが、基本原理はこのモデルに集約されていると考えられる。

2. <良い似顔絵>とはどんなものか?

ここでは,内面,雰囲気が他者との関係性に依存する相対的な概念であることを論じる.このアイデアは脳科学者茂木健一郎氏による.

A,Bという二人を考える。A,BがコミュニケーションをとるときAはA'という「B用」の人格(内面)を立ち上げる。スキームでかけば、

(A)A'→B

となる。確かに我々は対する人間によって自己を変化させる。AはB,C,D,E,・・・という相手それぞれに対してA,A,・・・という人格を立ち上げる。

(A)A''→C
(A)A'''→D
(A)A''''→E ・・・

そして彼はこう結論する。Aの本来の人格というものは存在せず、それは単に他者との関係性から生じた人格の集合{A',A'',A''',・・・}に他ならないと。ここで「自分の本来の人格は自分自身にわかるではないか?」という方がいるかもしれない。しかし、果たして本当に自分には自分自身のことがわかると断言できるだろうか?

我々は自己と向かい合うとき自己を<客体視>しているように思われる(少なくとも私にはそう思われる)。すなわち、Aは<Aという客体>を想定しそれとコミュニケーションする。これが自省の構造であるように思う。例えば自分に甘い場合と自分に厳しい場合とでは、<Aという客体>に立ち上げる人格は変化しているだろう。

(A)A^→A(自分に甘い)
(A)A^^→A(自分に厳しい)
(A)A'→B  ・・・  *これらはすべて並列的

こう考えると<本来の人格>というものは本人にさえ知覚されえない<架空のモノ>に成り下がる。はじめから<本来の人格>というものを想定しない方がすっきりするのである。

これで<内面>のほうは集合{A',A'',・・・}として解決された。次に<雰囲気>のほうはどう図式化されるだろうか?<雰囲気>とは<他人から見たその人の印象>といえるだろう。では<雰囲気>は客観的なものであろうか?そうではない。AがBにたいして抱く<雰囲気>はBがAに対して立ち上げる人格Bに依存するだろう。いずれにせよそれはAとBの関係性から生じる。スキームをかくと、

A→B'(B)

CがBに対して抱く<雰囲気>はBとは異なる。

C→B''(B)

雰囲気を「その人を見たときに立ち上がるその人の人格(イメージ)」と定義するならば、雰囲気は関係性から生じる主観的なものといえる。

以上の図式を、似顔絵を描くという行為に結びつけてみよう。AがBの似顔絵をかきそれをCがみるという状況を考える(ただし、CはBを知っているものとする)。

A→B'(B)
C→B''(B)
B→B^(B)・・・

というスキームが成立している。AはAの主観のもとに、Bを表現した似顔絵picB'を描く。

B→表現→picB'

さて、CがpicBを見たらどうだろうか?B'=B''でない限り

B''→表現→picB'

にはならないはずである。すなわち、「Aにとって似ている似顔絵」が「Cにとっても似ている似顔絵」とは限らないのである。このことを私は身をもって体験している。有名人の似顔絵を描いて知人に評価してもらっていることはすでに述べたが、自分の評価と他人の評価はかなり異なるのである。この理由は上のスキームから自然に理解される。

上のスキームは<第三者のC>を<モデルのB>に変えても同じことである。Bは自分に対してBというイメージを有している。

B→B^(B)

そして一般的にいえることは、B^が{B',B'',・・・}と大幅に異なるということである。これがモデルに満足してもらう似顔絵を描くことを困難にする。一般にB^はB',B'',・・・に比べ美化される傾向にある。しかし、似顔絵とは主としてモデルのために描くものである。従ってB^を推測し、picB'ではなくpicB^を描く努力が必要となるわけである。

私は芸術とは<表現>であると考えているが、良い似顔絵(満足してもらえる似顔絵)を描くためには、<表現>の対象を<自身の主観が作り出したイメージB'>に限らず<他人が作り出したイメージB^,B'',B''',・・・>にも拡張することが不可欠となるだろう(特にB^が重要)。このことは似顔絵に限らず芸術一般にいえるかもしれない。良いといわれる音楽や絵は多くの人々の心の琴線にふれる。そしてそれは他人の心情を推測して初めて可能になる。良い芸術を作るには自己の感性だけではなく、他人の感性にまで踏み込んでいく必要があるのではなかろうか?

3. なぜ似顔絵はポピュラーなのか?

私は似顔絵には、<技術>、<芸術>、<エンターテイメント>の3つの要素が含まれると考える。そしてこの3つの要素を持つ対象というのはあまりないと思うのである。私は、この要素の豊富さが似顔絵をポピュラーなものにしていると考える。

技術的側面
顔の特徴空間の構造を習得し、正しい強調を安定して行うことは、<才能>と<修行>の両方を必要とする。その意味で、似顔絵は<技術>であるといえる。

芸術的側面
芸術=表現という立場に立てば、似顔絵には内面、雰囲気、生命感の<表現>という側面があり、従って芸術と呼ぶべきである。

エンターテイメント的側面
新聞の風刺画に代表されるように似顔絵におかしなセリフやコメントをつけたり、表情を極端にデフォルメしたりすることによって似顔絵に「おもしろさ、おかしさ」といったエンターテイメント的な要素が加わる。

似顔絵は技術、芸術、エンターテイメントという3要素が融合した複合体である。たくさんの側面を持っているがゆえにいろんな楽しみ方ができるのである。これが似顔絵をポピュラーなものにしている大きな要因であると思う。

では、一般の芸術作品(主として絵)の似顔絵とはどう異なるのだろうか?似顔絵以外の絵でも上の3要素を持つものは存在する。ピカソの「泣く女」などは3要素を満たしているだろう。

ピカソ「泣く女」
技術: キュビズムの技法
芸術: 泣く女の雰囲気の表現
エンターテイメント: 一見するとむちゃくちゃな絵に見えるところ、平面上に立体を表現しようとしたところ

しかし、似顔絵と「泣く女」に代表される芸術作品との間には決定的な違いがある。それは、「大衆性」である。ピカソの「泣く女」の良さ、それはある程度目の肥えたヒトにしかわからない(中には「こんなもの子供の絵よりひどい」と思っている人も少なからずいるはずだ)。一方で似顔絵はというと大体において評価が一致する。それは似顔絵が<顔認識>というより基本的な<認知>に訴えるからである。これによって<大衆性>が獲得され、マスメディアに乗り、ポピュラーになるのである。

■ 4. 結び

今回の発表ではかなり理屈っぽく似顔絵について論じた。これからも「良い似顔絵とはどんなものか?」という哲学的な問いを自らに問い続けていきたい。それと同時に、路上で実践を積むことによって理屈を実践できる技量を習得していきたい。

△ page top