第13回 「ナウい」言葉が死語になる時――言葉の流行りすたりや作家の人気度を測る
小林昌樹(図書館情報学研究者)
■はじめに
テキストマイニングって知っているだろうか? 図のようなワードクラウドを作る技術だ。これは、ある文章に出てくる言葉の数を数えて、回数により重み付けをして大きく示してくれる図である。
では特定の単語の出現頻度が、だんだん増えているのか減っているのか、経年変化の増減を知るにはどうしたらいいだろう? そういう場合には「Google Trends(グーグルトレンド)」が有名だ(どんな言葉がどれだけ検索されているかがわかる)。2008年から日本語版が使えるようになり、2004年からのデータを見ることができる。これは、ググられた言葉の頻度が分かるので、いわゆる「流行り」を知るのに使える。
ただ、流行りは自然に皆に知られる傾向にあるので(だから流行りなのだが)、自分で調べる場合には、流行りでなく、特定の言葉について、自分が(あるいは自分だけが)知りたい言葉の流行りすたり、長期トレンドを調べることになる。ここではある言葉の流行りすたりを知るにはどのようなレファレンス・ツールを使えばよいか説明してみよう。
■ある言葉の使われ始めを調べる――「日国」など紙時代の定番
特定の単語がいつ頃から使われていたか、それを知る紙メディア時代の定番は、日本最大の国語辞典『日本国語大辞典』(日国)を引くことだった。そこに比較的初期の用例(作例でなく、実際に使用された文章)が示され、出典も書いてあるので、いつ頃から使われ始めた言葉なのかわかった。いま有料データベース(DB)の「ジャパンナレッジ」経由で、試しにlibraryの訳語「書籍館」を引くとこのような感じである。
しょじゃく‐かん[‥クヮン] 【書籍館】
【一】〔名〕書物を集めて、人々に閲覧させる施設。図書館。しょせきかん。
*日本教育史略〔1877〕概言〈小林儀秀訳〉「此大学校中に書籍館あり」
*教育令制定理由〔1879〕文部省上奏・六七章「各地方に於ては教育に便せんが為に、書籍館を設くることあるべし」
*雪中梅〔1886〕〈末広鉄腸〉発端「上野の書籍館(ショジャククヮン)へ参り、色々と捜索して、やっと見付けましたから」
*社会百面相〔1902〕〈内田魯庵〉貧書生「一生に一度の大作を残して書籍館(ショジャククヮン)に御厄介を掛けて奈何する気ぢゃ」
【二】東京都文京区の湯島聖堂内にあった図書館。明治五年(一八七二)文部省が創設。〔以下略〕
さらに「日国」でわからない場合には『明治文学全集』の索引を引くという手も残されていた。これは明治時代の文章を単語で引ける索引で、紙メディア時代、膨大なカードにデータを集積して1冊にまとめたもの。明治期の「文学」はいまの小説だけでなく、実録や新聞の論説などを含む広いジャンルだったので、明治の言葉を広く拾える索引で、調べものの通に重宝されたものだった(残念ながら大正・昭和の文学全集には語句索引はない)。
■いつ「使われなくなったのか」を調べる:例えば「書籍館」
しかし、日国である言葉がいつ頃から使われるようになったのかはわかっても、いつ頃から死語になったのか、つまり「使われなくなったのか」はわからなかった。こういった場合、ここ十数年ほど有料DBだが「ざっさくプラス」という記事検索DBを使ってきた。このDBは明治初めからの雑誌記事を広く検索できるほぼ唯一のDBなのだが(拙著『調べる技術』の第7講を参照のこと)、おまけ機能で検索結果一覧の経年変化棒グラフを自動生成してくれる【図1】。
【図1】「書籍館」で論題検索した結果の棒グラフ(ざっさくプラスより)
この棒グラフを見ると、1905年以降、パタリと論題で「書籍館」が使われなくなる。一方で、1942年以降チラホラ使用されるが、個別の論題データを見ると、図書館史研究や歴史的回顧に限られる。
日国の初期用例も合わせて考えると、「「書籍館」という言葉は、1870年代から1900年代まで使われた言葉である」と言えそうだ。
「いつからか」は紙メディア時代のレファレンス・ツールからもわかったのだが、「いつまで」についてはこういったネット情報源でないとなかなか分からなかった。ここ十数年で我々は新しい調べるツールを手に入れたのである。
■日本語のNgram Viewer(Nグラムビューア)が出来た
近年まで言葉の長期トレンドを探るには、上記「ざっさくプラス」くらいしか手がなかったのだが、2022年から日本語世界にも「Ngram Viewer(Nグラムビューア)」なるものが出来た。これは本の全文を分析しデータ化して、ある言葉(単語やフレーズ)の出現頻度を年代順にグラフにしてくれるサービスだという。ことばの流行りすたりを見える化するサービスとでも言おうか。流行りは従来でもある程度わかったが、すたりがわかるのが本当の意味での新しさなのと、どの言葉でも探せるのがミソだ。
海外ではGoogleのNgram Viewerがあったが、日本語は対応していなかった。2022年に国会図書館(NDL)が「NDL Ngram Viewer」を開発し、NDLデジタルコレクションの本文データを搭載して初めて使い物になるNgram Viewerができたというわけである。
ざっさくプラスと違って有料DBでないこと(=無課金で引ける)が利点であるし、記事論題レベルでなく、本文レベルの細かい検索ができることも魅力的だ。
■試しに「書籍館」で引いてみる
試しに「書籍館」で引いてみた結果のグラフが【図2】である。
【図2】NDL Ngram Viewerで「書籍館」を引いた結果
最初の、グラフの左の山(1870〜1900年代)は【図1】の結果と符号するから良いとして、1912年と1914年の山がおかしい。こういった外れ値(はずれち)っぽいものを見つけたら、一応、データ元に戻ってチェックする必要がある。幸いにグラフ線のてっぺんをクリックすると自動でNDLデジコレに画面遷移するので、そうしてみる。すると、明治前期の統計書の表側・表頭にある「書籍館」といった項目が引っかかっているのがわかる。
なぜそれらが明治末年や大正初年に計上されているのかというと、これは中の人でもちゃんと説明できる人は少ないと思うが、『宮城県統計書』『日本帝国統計摘要』といった統計書が大昔のカード目録の都合で、何十冊分も一括で1912年や1914年刊行にされてしまっているからである。いわば偽のピークとなっている。これは1966年のピークも同様で、『文部省年報』が1966年に一括復刻されたものがヒットしている。1930年代の山は【図1】で見た戦中期の図書館史研究の盛り上がりを反映していそうだ。
■Ngram Viewerの読み取りで注意すること
「NDL Ngram Viewer」は「ざっさくプラス」と違って、論題レベルではなく本文レベルを引っかけるので細かいが、それゆえにいくつか注意しなければならないということだろう。数千件レベルの多数のヒットでなく数百件レベルの言葉を調べる場合に外れ値に注意し、典拠に戻ってチェックする必要がある。
逆に言うと「ざっさくプラス」のような記事論題のように、情報粒度を一定に揃えたDBをことばの流行りすたりを測るのに使う利点もわかってくる。どんな言葉であれ、すたれて死語となっても、ある種のユーモアやあるいは研究対象として使われ続ける。大っぴらに使う言葉であるかどうかを見るのに記事論題(新聞DBでも可能)というように情報粒度を一定に揃えることには意味がある。
■「レファレンス」か「リファレンス」か
私は「レファレンス」なるカタカナ語にこだわっていて、その普及――実態としては広まっていないこと――を前著のコラムに書いた、また、「リファレンス」という言葉との関係も微妙だ。「レ」ファレンスに対して「リ」ファレンスが多いのか少ないのか、知りたいと思うのも自然だろう。そこで、NDLのNgram Viewerを見てみると【図3】のようになる。
【図3】レファレンスとリファレンスの経年頻度比較(NDL Ngram Viewer)
戦前はほとんど使われない言葉だったが、1950年代から「レファレンス」が使われはじめるが、1970年代後半から「リファレンス」が伸びはじめ、1980年代後半に「レファレンス」を抜いて並んでいるのがわかる。折れ線グラフの点をクリックしてデジコレ一覧を見ると、1960年代までの伸びは主に図書館学文献で、1970年代からの伸びは工学などの理系、特にコンピュータ工学文献で使用していたためとわかる。2000年を境にどちらも絶壁のように値が減っているのは、分母に何かあると気付かないといけない。この絶壁の崖はデータ元のデジコレに書籍や雑誌がまだない年代だから出来ている崖である。
ついでに「グーグルトレンド」を見ると、常に「レファレンス」より「リファレンス」の使用例が多いことがわかる【図4】。文章語とグーグル検索語では性質が違う。文章は専門家が専門用語で書く傾向に、普通の人はわかりやすい言葉で検索をする傾向があるので、【図3】に【図4】をそのまま接続して考えるにはリスクがあるが、それでもなお、1980〜90年代に「リファレンス」の用例が増えて2000年代以降は多く「リファレンス」が使われるようになったと言ってよいだろう。
【図4】レファレンスとリファレンスの経年頻度比較(Google Trends)
■作家の人気調べにも使えそう
Ngram Viewerは、作家の人気調べにも使えるだろう。特に、長い間活躍した文豪や、国民作家と呼ばれた人の人気度、その長期の経年変化を知るのに使えそうである。
例えば夏目漱石と森鴎外を比べて検索すると、戦前も戦後も、夏目漱石のほうが言及が多いのがわかる。
【図5】漱石と鴎外の被言及頻度比較(NDL Ngram Viewer)
1941年あたりに鴎外が漱石より若干人気が出る時代が瞬間あるのだが、どうやらこれは当時の軍国主義的風潮を背景にしたものらしい。「ところが鷗外は文筆もやるが、軍醫としての職務も人の何倍かやつて」などという文章がデジコレで出てくるのは時代の雰囲気だろう。作家を、軍人としても偉かった、などと褒めることは、現在はない。
Ngram Viewerの折れ線グラフの読み方として2000年以降の絶壁(右端)は説明したが、1969年から急減するのは漱石や鴎外の人気が急減したからではなく、やはり分母の問題であろう。1969年以降にNDLが整理した図書の本文データがまだNgram Viewerに搭載されていないので、その分が減って見えている。言い換えると1969年以降の折れ線は主に雑誌記事のデータということになる。2000年以降はほぼデータがないわけだが、それでも少しあるのは博士論文など特殊なデータである。1945年がどの言葉でも0に近くなるのは日本が焦土となりそもそも出版物が出なかったからだ。
この先わりとすぐ1969年以降の図書データが追加されることになるだろう。さらにここに出てこない新聞紙の本文データが足されるようになるのが楽しみである。10年くらい先の事だろうか。
■漫画家の人気調べにも
漫画家ではどうだろうと、手塚治虫と水木しげるを検索してみた【図6】。
【図6】手塚治虫と水木しげるの被言及頻度比較(NDL Ngram Viewer)
圧倒的に手塚治虫が多いのだが、1974年に手塚治虫が落ち込んでいるのが目立つ。そういえば「ブラック・ジャック」を書く直前、手塚は不人気であったと、どこかで読んだ記憶がある。あわててウィキペディアの当該項を見ると、まさに「ブラック・ジャック」の連載開始がこの年だと判明した。1989年に異常に伸びているのは、これは手塚の死去の年だからである。1986年に手塚治虫を銀座の映画館で見かけたが、昭和の国民作家を見たと将来回想することになるのかなと、当時思ったことである。
「グーグルトレンド」で二人を見ると、Ngram Viewerほどの格差はない。また2010年、NHKの朝の連ドラ「ゲゲゲの女房」放映年と、死去の2015年だけ水木サンが突出して多くなっている。
■「ナウい」言葉が死後になる時
むかし『Dr.スランプ』を読んでいたら、登場人物が「ナウい」という言葉をやたら使っていたのを憶えている。ピクシブ百科事典によると「ナウい」は「ほとんど誕生とともに死語化」とあるが、1980年代中は勢力があったことが、Ngram Viewerの検索からわかる【図7】。
【図7】「モダーン」「ナウな」「ナウい」の比較(NDL Ngram Viewer)
「ナウ」だけだとノイズだらけになってしまうので、長めに「ナウい」「ナウな」を検索。さらにそれ以前の同義語「モダーン」を比較してみたのが【図7】である。「モダーン」が昭和初年のエロ・グロ・ナンセンス時代にモーレツに流行り、戦時中の外来語排撃を経て、戦後も復活していたことがわかる。また1970年代「ナウな」が入れ替わりに流行ったこともわかる。
■長期トレンドを調べる方法まとめ
まとめるとこのようになろうか。
・有料DBだが「ざっさくプラス」がとりあえず簡便。オンオフが明確で分母も一定なので使いやすい。ただし、1996年から分母が3倍化し(データ元の一つ、NDLが採録誌を3倍に増やした)どのような主題でも絶対値が3倍に見かけ上見える点に注意する。
・無料DBの「NDL Ngram Viewer」が新たに使えるようになった。ただし、グラフの読み取りに注意が必要。外れ値は典拠のデジコレでチェックする。絶壁の崖は分母の資料群が未搭載なのに原因がある。
・近年2004年以降は「グーグルトレンド」だが、メディアやHPに載った言葉でなく、検索された言葉。文語でなく口語寄り。
・結果の棒グラフ、折れ線グラフを鵜呑みにせず、いくつかソースに戻って確認すること。特に「外れ値」、極端に多くなっている場合は注意する。
・絶対数の多寡でなく経年の「傾き」や、他の言葉との「比較」をするのに使える。絶対数が数百レベルに少ない場合は適宜、元データをチェックすると安全。
・おそらくありとあらゆる単語でオモシロいことがわかる。ただし、その言葉や事柄である程度の予備知識がないと解釈で失敗することがある。日本国語大辞典やウィキペディアを併用すること。
・比較する場合に、同義語、類義語、対義語を用いるとよい。その際には類義語辞典などを活用する。
・分母(データ元)に注意。図書、雑誌(将来は新聞も)の別。搭載データの年代も確認する。
■参考文献
・坂本博「現場からの提言 データベースの活用には目的適合性の検証を:『雑誌記事索引』を例に」『図書館界』61(3) p.202-206, 2009.9 NDL雑誌記事索引の論題数を言説の多寡に直結するリスクを指摘。特に1996年から2000年の採録誌3倍化に注意すべきという。
・日比嘉高「NDL Ngram Viewerを使って「私小説」概念の歴史を大づかみしてみた」日比嘉高研究室2022-06-05 1冊の本に含まれる語句の数がそのままカウントされることに注意を喚起している。
・OKADA ShowHey@okadash0104 午後0:29 · 2024年2月11日のX(旧Twitter)の投稿。Nグラムビューアで、松本清張、江戸川乱歩、横溝正史、鮎川哲也を比較している。
■予告――この連載が本になります
今回で連載「大検索時代のレファレンス・チップス」は終わりとなりますが、読者のみなさんにお知らせがあります。この連載が、またもや本になります。最近デザインが一新されたNDLサーチ、役に立てるのに注意が必要なネットのツールについてもまとめます。連載のうち「第10回 風俗本を調べるには」を落とそうかとも思いましたが、既刊『調べる技術』同様、本格的に調べものをする人のため、必要なノウハウとして公刊すべきと決意しました。これも、今までどこにも書かれていなかったノウハウかと思います。題名は『【もっと】調べる技術:国会図書館秘伝のレファレンス・チップス2』(仮題)となるはずです。少なくとも夏までには刊行する予定です。しばらくお待ちください。
小林昌樹(図書館情報学研究者)
1967年東京生まれ。1992年慶應義塾大学文学部卒業。同年国立国会図書館入館。2005年からレファレンス業務に従事。2021年退官し慶應義塾大学でレファレンスサービス論を講じる傍ら、近代出版研究所を設立して同所長。2022年同研究所から年刊研究誌『近代出版研究』を創刊。同年に刊行した『調べる技術』が好評。専門は図書館史、近代出版史、読書史。詳しくはリサーチマップを参照のこと。
☆本連載は皓星社メールマガジンにて配信しております。
月一回配信予定でございます。ご登録はこちらよりお申し込みください。