この20年ほどの間に、テレビではニュース以外でも様々なかたちで文字が挿入されるようになった。テロップ、字幕スーパー、スーパーインポーズ、クローズド・キャプションなど、様々な呼び名があるが、いずれも画面に文字が配置され、映像や画像に何らかの意味を添加するような手法だ。ややこしいので、とりあえずここでは一番簡単な表現で「字幕」と呼ぶことにする。

津田塾女子大の柴田邦臣氏は2014年度の日本社会学会でCMにおける字幕の機能についての興味深い発表を行っている。CM字幕は情報を伝達するメディアとして徐々に独自の機能を持ち始めているというのだ。これには僕も大賛成。そこで、今回はテレビ全般における字幕の機能についてメディア論的に考えてみた。このアナログというかアナクロな「字幕」というメディア。古くて、実は新しいものなんじゃないだろうか。

メディアとしての字幕の四つのレベル

字幕の機能をいくつかのレベルで考えてみたい。レベルのスケールは「映像への従属→映像からの自立」というものだ。言い換えれば、レベルが上がるにつれて字幕それ自体が映像や音声から独立してモノを言い始める。

レベル1:完全な映像への従属

先ず、映像に対する最も従属的なレベルとして映画字幕、クローズド・キャプションが挙げられる。例えばテレビの文字放送。最も単純なのは、話される内容をそのまま文字化したものだ。こういった利用の仕方は、要するに音声を補うためのもの。つまり耳の不自由な人間のためとか、周囲の音がうるさいので文字で補うとか、あるいは話者の語りがわかりづらいので喋り言葉が併記されるとか。こういった利用法は今やごくごくあたりまえなのだけれど、実はその歴史がそんなに長いというわけではない。80年代初頭、某大手電器会社の超有名な会長のインタビュー番組が放送された際、会長があまりに長老で喋りがよく聞き取れなかったので、ほぼ全編にわたって字幕を加えたことがあったのだけれど、これが「失礼」だと言うことで物議を醸したことがあったほど。
このパターンとしては、当時はむしろ映画の字幕(当然、洋画)が最も一般的だったと言っていいだろう(後述するが、実はこれも完全に音声に従属しているというわけではない)。で、これらは喋り言葉が文字化されているだけなので、自立性は全くと言ってよいほどない。

レベル2:映像のコンテクストを補う

映像だけでは情報不足ゆえ、字幕を加えてコンテクスト付けをするというのが次のレベル。これは映像ではないが、たとえば絵文字・顔文字・LINEのスタンプあたりをイメージするとわかりやすい。これらは文章に対してコンテクスト付けを行うことで、文字情報における情報の誤った伝達を避けることが出来たり、意味を付加したりすることができる。具体的には文字情報のみの場合、しばしば感情的に情報が解釈されるといった状況が発生するが、これに絵文字・顔文字・スタンプを加えることで誤解を避け、感情を低減することが可能になる。たとえば「怒ってます」とやると、なんとなく角が立つが、これに(`ヘ´)を加え「怒ってます(`ヘ´)」とやると、怒りが相対化され、感情のトーンが引き下げられる。この場合、絵文字・顔文字・スタンプが文章という「画像」に対してコンテクスト付けを行っているわけだが、映像上においては字幕=文字が、この役割を担うことになる。

わかり易い例を二つほどあげてみよう。
一つは90年代半ばに人気を博した日テレのバラエティ『進め!電波少年』の「猿岩石ユーラシア大陸横断ヒッチハイクの旅』(1996)などで用いられたもの。お笑いユニット・猿岩石(有吉弘行と森脇和成)が旅の途中でカネがなくなり二日間絶食。やっとのことでハンバーガーにたどり着いたときの映像。このとき、2人はあまりの感動に一言も発することが出来ない。ただ目をつぶって上を向き呆然としていただけ。いわば「昇天」しているわけだけれど、このときの字幕が「あ」に濁点を振った「あ”~っ!」だったのだ(表記できなかったらすいません<(_ _)>)。つまり、完全にこれは感動に補足が加わったもの。

もう一つはPixar映画『モンスターズ・インク』(2001)の中で用いられた女の子・ブーの台詞だ。ブーは幼児で、まだまともに言葉がしゃべれない。それゆえ、ブーのセリフの字幕は全て「★○※□×!」みたいなものしかないのだ。これはようするに「何しゃべっているのかわからない」という補足・メタメッセージ=コンテクスト付けに他ならない(ちなみに、この映画はモンスター(マイクとサリー)=わけのわからない存在がきわめてわけのわかる人間的存在で、人間(ブー)の方がわけのわからない存在、つまりモンスターであるところがミソ)。

実は前述した映画字幕も同様の機能を備えている。英語などの台詞を丸ごと日本語化するのは不可能なので字幕の翻訳は原則、かなりはしょった意訳、いわゆる超訳になっているのだ。言い換えれば「この台詞は、こう読め!」というのが字幕なのだ。

レベル3:キュレーションレベル

映像に対して字幕が徹底した説明を加えていくというのがこのレベル。映像だけではわかりにくいものについて字幕で状況の詳細を展開する。こうなると字幕の自律性は圧倒的に高くなっていく。映像よりも字幕が先ずあり、こちらに合わせて映像を読んでいくという視聴スタイルを視聴者が採ることになる(抽象画を作品の題名に沿って解釈するような状況)。字幕がオピニオンリーダーとして視聴者に向けて解釈の仕方、方向性を誘導することになるわけで、いわば字幕は画面から茶の間に飛び出し、あなたに向けて映像の読み方を語っている。これは池上彰の解説を想定してもらうとわかりやすい。難しい政治や経済ネタを平明に紐解くわけで、このレベルでは字幕はいわば池上的な役所を担っている。

レベル4:ツッコミ・レベル

映像に対してツッコミを入れるような場合がこれにあたる。映像を補足するどころか、映像を否定するために字幕が挿入される。たとえば出演者が感動しているリアクションをしたり、「こりゃ、すばらしい」と発言したりすることに対して、「どこが?」「ちっとも、すばらしくなんかないよ!」と字幕が入るシチュエーションを考えていただきたい。レベル3より、さらに画面から一歩飛び出し、茶の間=あなたの側に立ってテレビを批判するとか笑い飛ばすとかといった状況が作られる。3は茶の間へ飛び出してくるとは言っても、やはり映像(そして音声)を補足するといったスタンスから完全に外れることはない。この時、字幕はいわば2.25次元的な立ち位置となる。だがレベル4の場合は、完全にあなた=視聴者の側に立っているので、2.5次元ということになるのだろうか。つまり、字幕は映像から完全に自立したものとなる。こちらは、たとえば朝のワイドショー『特ダネ!』の小倉智昭をイメージしてもらうとわかりやすい。小倉はキャスターでありながら、必ずしもフジテレビ側に立つことがなく、時にはレポーターのレポートに視聴者側からツッコミを入れるなんてことをやっている。ちなみにアニメ『ちびまる子ちゃん』でのキートン山田のナレーションもこれと同じ機能を担っている。


映像、音声、字幕による情報のポリフォニー

こうやって考えてみると、レベルが進むにつれて字幕は映像、そして音声と相まって視聴者に多層的に情報を伝達するメディアへと変貌していることがわかる。映像、音声、字幕三つのメディアがテレビの中で渾然一体となって情報を視聴者に伝達し、統一した解釈を許さない。それは情報のポリフォニーに他ならない。だが、それはハーモニー(調和の取れたポリフォニー)とも、情報のバトル、情報の拡散による詩的空間の出現(ある意味混沌)とみなすこともできる。いずれにしても複層的メディアによる新しい情報伝達手段の出現であることは間違いない。だから課題は、この「古くて新しいメディア」をわれわれがどう生かすかにある。

ただし、これはイコール多層的な読みを視聴者に許容することを必ずしも意味しない。例えばレベル4において、われわれはツッコミの側に立ち映像を相対化する作業を行うことになるゆえ、一見すると情報の多相性による視聴者の主体的で独自的な、言い換えれば送り手の意図に必ずしも従わない能動的な読みをするように思える。ところが、これは必ずしもそうとは言えない。情報を別の視点から見ることを許容するという点では相対化ともとれるが、情報のオルタネティブな捉え方、つまりもう一つの捉え方を字幕が強要しているだけであり、これは言い換えれば、その他にもさらに多様な読みがあるという可能性を視聴者に対しては封じてしまう効果ももたらす可能性があるからだ(この辺については80年代の社会学において「受け手の能動性」という言葉で議論されていた)。ツッコミは「中二病的な見方をメディア側が提供している」というふうにも理解できるのだ。ようするに「諸刃の剣」。

またレベル4的なツッコミは、消費的にテレビを見ている側(まあ、ほとんどがそうなのだけれど)にとってはヴァーチャルな他者という機能をも果たす。つまり一緒にテレビを見てくれる相手という役割を字幕が偽装する。これは、ややもするとテレビ依存を深め、コミュニケーション不全を加速させるという側面も可能性としては考えられる。

とはいえ、こういった映像、音声、これに加えて字幕というメディアが加わることで、送り手側としては新しい表現方法が誕生しつつあることも確かだ。さて、今後どういった手法が現れるのだろうか?

オマケ:ニコ生の字幕の面白さ

ちなみに、映像、音声、字幕に「生放送」という状況が加わると、さらにもう一つオモシロイ事態も発生する。こういった放送形態を具現化しているのは、言うまでもなくニコニコ生放送(ニコ生)だ。ご存知のようにニコ生ではリアルタイムで視聴者がコメントを書き込み、これがフロー形式で映し出される。これは受け手にとっては、まさに多層的な読みを可能にするわけで、映像に対して様々な視点が集約性なくバラバラと流されるので、さながら集団視聴しているかのような消費的な楽しみが可能になる。つまり「ワイワイやっている」という感覚が視聴者参加意識を煽っていくのだ。

一方、これは送り手側にとっても興味深い効果をもたらしてくれる。ニコ生の収録現場(ニコ生はスタジオを必要としない。ネットが繋がる場所ならどこでもそこがスタジオに転じてしまう)で、出演者は常に目の前に二つのモニターを見ることができる。どちらも自分が映っている映像なのだが、一つはリアルタイムのもので、もう一つは数秒遅れのもの。で、後者が実際に視聴者が見ているのと同じもの、つまり書き込みのフローが流れる映像だ。僕は何度かニコ生に出演したことがあるけれど、この数秒遅れの映像が実にオモシロイ。自分が発言したことについて、視聴者から賛同、反論、ツッコミ等様々な情報が流れ、それを当の自分がチェックできるからだ。それゆえ出演者としては、字幕フローをみながら次のコメントを考えたり、新しいアイデアを思いついたりすることが出来る。そう、視聴者(書き込んでいる人間だけだが)と映像を介してインタラクティブに関わることが出来るのだ。で、ニコ生のオモシロイところってのは、実はこういった字幕の持っている新しい可能性にあるのでは?と、僕は考えている。