Natural Language Processing | nibuiroフラグメント β

Category Natural Language Processing

After dependency parsing

係り受け解析器にはCoreNLP, spaCy, GiNZAいろいろありますね. 例えば, BoW, n-gram, TF-IDF, えと, co-expression, LDA, Glove, なんかは定義が情報の特徴を表していますが…というか係り受け解析器はこれらと違って集合の特徴を与えるものではなくて文単位の生データにアノテーションを加えるものですね?

そこでふと, 係り受け解析してそのあとは?



形容詞句を特徴量として抽出するに際してクラスタリング済みのword2vecを経由した方が汎化性能上がるのでしょうか, と思いましたがOPTiM様が埋め込みベクトルの傾向について説明して下さっていましたね. 「「大きい」「小さい」の単語類似度は0.9以上」といことらしいです. 本物の辞書をベースに対義語のcos類似度の最小化を正則化項に加えて学習したモデルなんか既に発表されてそうなのでいざとなったらサーベイして試してみても良さそうです.

「スクリーンが大きかった。」と「スクリーンは大きかったか?」の分類に関してはBERTの各単語のEmbedding(PE)層の出力の線形和をLGBMに投げてみるのも効果的かも知れません.

話題がそれますがgayouさんのブックマークがとても参考になる.
https://b.hatena.ne.jp/gayou/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86/

追記:
文脈によって意味が異なるbank(銀行, 土手)のような単語を識別したい場合はELMo.