After dependency parsing
係り受け解析器にはCoreNLP, spaCy, GiNZAいろいろありますね. 例えば, BoW, n-gram, TF-IDF, えと, co-expression, LDA, Glove, なんかは定義が情報の特徴を表していますが…というか係り受け解析器はこれらと違って集合の特徴を与えるものではなくて文単位の生データにアノテーションを加えるものですね?
そこでふと, 係り受け解析してそのあとは?
- NHN TECHORUS 様: レコメンドシステムの特徴量として口コミから形容詞句を抽出する.
- OPTiM 様: 分類問題として解けそうなデータか?当たりをつけるため主部・述部検出
- Acroquest Technology 様: 意味的に正しい上の文章だけを拾ってくるにあたり主部・述部検出
形容詞句を特徴量として抽出するに際してクラスタリング済みのword2vecを経由した方が汎化性能上がるのでしょうか, と思いましたがOPTiM様が埋め込みベクトルの傾向について説明して下さっていましたね. 「「大きい」「小さい」の単語類似度は0.9以上」といことらしいです. 本物の辞書をベースに対義語のcos類似度の最小化を正則化項に加えて学習したモデルなんか既に発表されてそうなのでいざとなったらサーベイして試してみても良さそうです.
「スクリーンが大きかった。」と「スクリーンは大きかったか?」の分類に関してはBERTの各単語のEmbedding(PE)層の出力の線形和をLGBMに投げてみるのも効果的かも知れません.
話題がそれますがgayouさんのブックマークがとても参考になる.
https://b.hatena.ne.jp/gayou/%E8%87%AA%E7%84%B6%E8%A8%80%E8%AA%9E%E5%87%A6%E7%90%86/
追記:
文脈によって意味が異なるbank(銀行, 土手)のような単語を識別したい場合はELMo.