非線形言語モデルによる自然言語処理―基礎と応用
池原悟
岩波書店
2009.6.25
6090円
★★★★☆
難しかった。
非線形言語モデル。なんかもうこの単語だけで難しそうな、格好良い雰囲気が漂います。
例えば「李下に冠を正さず」という文があります。これは「紛らわしいことはしない方がいい」という意味ですが「李/下に/冠を/正さず」の各々の語の意味からは文意は理解できません。成語としての意味を知らなければ通じないような、そんな言葉の使い方というのは意外に多い。それが非線形――全体は要素を組み合わせた延長にあるものとは限らない、ということになります。
もちろん言語の中には線形な面もあって「このバラは綺麗です」といったように辞書で引いた単語の意味を文法で解釈すればきちんと意味が生じ、通じる文もあります。そんな線形の要素は機械翻訳でもそこそこ扱えるようになっているそうです。
じゃあその非線形の部分をきちんと意識して何とかしよう、というのがこの本の内容なのですが……。う~ん。この本は理系メソッドのない人にはウケが悪そうです。andやorといった記号論理学の基礎が必須。かといって理系の訓練を受けていても「言葉で言葉を説明する」言語学のスタイルに慣れていないと混乱してしまうはず。ソシュールやチョムスキー、認知言語学についてのアウトラインくらいは知っておかないと「ナニイッテンダ」と取り残されてしまいそうです。(取り残されました)
とっつきにくさは言語学の本の共通点かもしれません。第Ⅰ部第3章あたりまで読んでようやくこの本のスタイルに慣れてきます。同時に具体例が増えてきて内容が実感できるようにもなりました。書かれていることも突飛な部分はなく、自然な考え方で構成されているので説得力も高いです。著者は翻訳システムを通じて意味解析・意味理解に迫ろうというアプローチであるようで、本の中で想定されている「自然言語処理」も翻訳を主眼に置いているようです。
脱線ですが。
たぶん翻訳というのは入力と出力でともに「正解の文章」が存在するために言語処理の素材として評価しやすいのだと思います。一方で最近では初音ミクから発した、文章→発音、という過程が脚光を浴びています。現時点のミクは「頑張ればそこそこ歌う楽器」ですが、意味を扱う言語処理を通すことで初めて真に歌う機械=ボーカロイドになり得るのではないでしょうか。現時点での「非線形言語モデル」でも意味解析には取り組んでも意味理解には手が届かないようですが、可能性を感じました。文字と音声とで形が違うので評価は翻訳より難しくなりそうなものの、内観のみで評価せざるを得ない人工知能よりはずっとマシなはず。
好感が持てるのがGoogle翻訳的な統計処理による言語処理ではなく、意味にきちんと取り組もうとしている姿勢。統計は実用的ですが世界の真理を明らかにする科学の目的からは離れてもしまうわけで、真っ向からロジックを追求しようという姿勢に「これが科学なんだ」と感心したのでした。
文章のとっつきにくさに途中で「ナニコレ」とポイされてしまいそうなこの本ですが、挫折しそうになったらせめてP.248-250の「パターン翻訳への適用例」だけでも眺めてみてください。多くの言語学の本が理屈だけでデータ処理の実践を伴わないこととは違い、この本は実践された結果があります。結果を見れば頑張って読もうという気になるのではないでしょうか。
面白い、と素直に言えるほどきちんと内容を理解できた気はしないのですが、大いに刺激を受けました。ちょうどGoogle日本語入力が話題になった時期でもあり、一太郎/ATOK2010が発表になった時期でもあります。苦しみながらも楽しく読めました。
著者らの主催する研究会のサイト「鳥バンク」ではデモプログラムに触れることができます。