自然言語処理の多くが、DeepLearningを使用する昨今ですが、万能関数としてのDeepLearningを使用しても、テキストデータだけで出来ることは、DeepLearningが統計的な学習である以上、テキストの中に内在する統計的性質だけが、エンコードできると私は考えているので、このあたりを少し整理したいとおもいます。
1. 局所的なコンテキストと多義語
単語の多義性は、自然言語の特徴だと私は思っています。異なるentityが、同じ表記であらわされています。人間はその使い分けができるわけですが、なぜそれができるのかというと、コンテキストが異なっているからです。以下の書籍では、語の多義性について、諸々の言語理論の観点から考察があります。それぞれ、概要を紹介し、単語ベクトルで再現できそうか、そうではないかを考えてみたいと思います。(以下、ですます口調ではなくなります)
1.1. 語の意味の曖昧性
語の意味が曖昧になるケースとして、多義性・同音意義性・不明確性があるとされている。多義性・同音意義性と不明確性の差異は、前者が語義の違いであるが、後者は百科事典的含意であるということである。語義の違いは、他のごくとの間に意味関係があるが、百科事典的含意にはそれがない。多義性と同音意義性の違いは、前者が多義に関連性のある意味を持つのに対し、後者は全く関連のない語を持つこととされている。この関連性について、歴史的関連性と心理的関連性があるとされている。ただし、bankは昔、盛り土のbencから堤と長椅子に派生し、長椅子が、イタリアの両替商と結びついて銀行になったという経緯もあるので、必ずしもこの2点とは言えない。
1.1.1 多義語における基本義と派生義の関連性
この2つには、以下の2種類の関係があるといわれている。(語はなぜ多義になるのかP22より)
1- 指示関係的・規則的
1.1- 派生義が基本義の指示対象を構成する(またはそれと密接に関係する)要素構成を表している
1.2-関係する基本義→派生義のいみかくちょうのパターンがほかの複数の語においてもみとめられること
2-非指示関係的・不規則的
2.1-派生義が基本義の指示対象の持つ特性のメタファー的意味拡張であり、この意味拡張でうまれた派生義は基本義が表すものとは指示的なつながりがない
2.2-同種の意味拡張が他の語に認められない
1.2 多義語とコンテキストの作用
(語はなぜ多義になるのかP45より一部改変)
語がコンテキストと共に用いられる場合、多くはコンテキストから修正を受ける。このときの基本義の解釈のことを文脈的変種と呼ぶ。また、文脈的変種はコンテキストが語の基本義にふくまれる特質を際立たせることから、この際立たされた特質を活性領域と呼ぶ。活性領域の1つ1つのことをファセットとも言う(と思われる。)
語の多義性を誘発するコンテキストには、大別して「文コンテキスト」と「使用の場コンテキスト」がある。
文コンテキストは語の意味じょうの共起関係をもつ前後の語や句
から成る。そのため、文脈的変種は語義としての自立性を持つことが多い。この時に発生する、文脈的変種はファセットと呼ばれる。これは、規則的多義性を生み出す。また、この操作はメトニミーによって行われる
一方使用の場のコンテキストでは、その場の情報と使用者の百科事典的知識が作用する。そのため、語義とはならない(これを下位語義という)。この操作はシネクドキやメタファーによって行われ、不規則的多義性を生み出す。
1.3 単語ベクトルでの捕捉
これらの現象は、単語ベクトルにおいて、どの程度捕捉可能なのだろうか。
1つは、文コンテキストによる多義性は捕捉可能であろう。そして、たとえ多義語であっても、周辺の語との関係である側面が際立って出てくるはずである。これは、文脈的変種も、単語ベクトルの足し算で行うことができることを意味する。一方、単語ベクトルでは、すべてのファセットの平均が表現されているので、語としての類似性は、ファセットの項目が類似しているおり、その頻度が似ているものが最も類似した単語とされるであろう。よって、文コンテキストに同音異義語と多義語は同時に解決されるとおもわれる。これは、アナロジーが出来ることの現象的な説明でもある。
一方、使用コンテキストの場合はどうだろうか。百科事典的知識を前提とするため、困難だと思われる。ただし、シネクドキによって、単語の上位下位のものが類似していることを表すということは可能であると考えられる。
1.4 その他
1.4.1 日本語単語ベクトルにおける問題
主に、表記の問題があげられるであろう。ひらがな・カタカナ・漢字の表記の違いである。用例が十分あるのであれば、異なる表記で同じ単語は、同じ意味になるとおもわれる。ただし、ひらがなの方が砕けた表現であることを考えると、コンテキストによる差異は発生すると考えられる。(これ自体も単語ベクトルは吸収するので、好都合かもしれない。)一方別の問題として、分かち書きがある。つまり、ひらがな、カタカナの場合、分かち書きされてしまう可能性もあり、単語の抽出自体が難しくなりうる。
1.4.2 言語論と機械学習的言語処理の差異
本書で、度々見られるのが、「人間の推論」というフレーズだ。言語現象を説明するにあたり、人間の推論として矛盾するので、用例として存在しないという論法が使われている。例えば、p15で語義の自立性を論じるとき、意味上の矛盾が参照される。 機械学習的言語処理では、人間の推論の一部をテキストから逆推定することが目的の1つである。そのため、人間の推論を持ち出して棄却されている言語現象は、用例として存在しないので、確率が低くなるということ以外においては、機械学習では再現されないとおもわれる。
2. フレーム(大きなコンテキスト)によって着目すべき点が違うことについて
つぎに、フレームによって、着目すべき点が違うため、人間は焦点を当てるポイントを動的に変化させていることについて考えます。以下の書籍の3.4節に基づきます。
2.1 類推と写像の違い
人間は日々類推を行っている。類推は、過去に経験したこと(べース)をもとにして、現在の問題(ターゲット)を理解・説明するための推論とされており、以下のプロセスでモデル化できる。
つまり、類似性検出によって、知識を拡充していく推論であると言える。計算論的表現しようとすると写像になる。機械学習においても、この写像を学習していると考えることができる。しかし、写像と類推では以下のような違いがあり、計算機による実現が困難となっている。
- ベースとターゲット領域の違い:ターゲットである単語で表象した場合、同じ単語でベース内の経験や事象が表現されていることが少ない。例えば、targetがcoffeeであっても、ベースはwaterと対応付ける必要がある。
- 写像の計算論的な複雑さ:ベースの要素がm個と限定されていても、組み合わせ方は2^m個あるので、計算困難。しかし、これは機械学習によって緩和されつつある。
- ベース中の要素のつなげ方が多様:写像するベース中の要素がm個であり、これらを並べるだけでも、m!通りある。これは、べースを組み合わせて表現を行うという(つまり言語活動)として考えると、同じ対象でも表現する方法が多様にあることを意味し、因果関係と捉えると、可能性として事象の発生の連鎖をつくる方法は何通りもあるということになる。(ただし、これには、知識的な正しさがふよされる)
- 世界の無限性:世界には、要素の数が無限に存在する。さらに、その中から関係するものだけを取り出す必要がある。「水が高いところから低いところに流れる」ことと「熱が高温部から低温部にながれる」ことの共通性は「流れる」ことに着目しないとわからない
2.2 構造写像理論
妥当な類推写像は以下の3条件を満たすという理論である。
これは、2項間の比較によって、関係が集まりシステムをなす構造としての特徴が想起され、写像が決まることを主張している。
2.3 多重制約理論
構造写像理論に、要素の属性レベルの類似性を加味させたモデルで、ベースとターゲットの要素をノード、対応関係を促進・抑制のエッジで表現される。
2.4 埋め込み表現との対応
これらの、人間の推論における考察と対応づけられる、事前学習される表現は存在していないと考えている。グラフモデルで表現しやすい、多重制約理論で考えてみる。すると、以下の問題が思い浮かぶ。
- 要素が、単語と一致しない
- 全ての要素のうち、何をこの問題の要素として列挙するか不明である。
- テキストデータでは、良し悪しの関係を学習する方法がない。(人間が悪いと表現するために使う表現に近いかどうかしかわからない)
さらに、もう一つの問題として、構造写像理論から浮かぶのは、2つの文の何に着目して似ているとするのか不明であるということである。もちろん、単語の共起から出てくる類似性は可能であるが、それ以外の関係は単語ベクトルでは不可能である。また、会話データから質問応答は可能かもしれないが、その対応されるデータを取り出すのが困難である。言語表現における対応関係は、含意関係、質問応答関係、言い換え関係(類似関係の一種)など様々な関係があり、どのようなことが必要なのかは不明確である。
3. テキストにおける長いコンテキスト
言語表現には、文内の現象だけでなく、文を超えた現象も報告されている。
Beyond Word Frequency: Bursts, Lulls, and Scaling in the Temporal Distributions of Wordでは、ある単語が文書中、一回出現したあと、次にどのくらい間隔を開けて、出現するかについて、論じられている。この論文では、次の単語の出現はワイブル分布で表現できること、以下の単語の区分によって、ワイブル分布のパラメータの値が取りうる範囲が異なること、ワイブル分布で表現されるので、バースト性があることが述べられている。
単語区分
class | Name | Examples of word |
1 | Entities | Africa, Bible Darwin |
---|---|---|
2 | Predicates and Relations | blue, die, in, reglion |
3 | Modifiers and Operators | believe, everyone, forty |
4 | Higher Level Operators | hence, let, supposedly, the |
近年、単語ベクトルより長期の関係について考慮できるモデルが出てきており、このような現象と、隣接文による関係(どのような関係かは不明)が、学習できていると考えられる。
4. まとめ
以上、言語現象および知識処理現象と言語処理の対比を考察しました。個人的には「世界知識」と「フォーカスする関係」あたりが、直近の壁ではないかと感じています。あと、場面によっては数量表現の考慮も求められるでしょう。