ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

2019-02-19から1日間の記事一覧

word2vecで未知語に対処する

Word2vecの問題点は、訓練後のWord2vecのボキャブラリーは固定で、OOV(Out of vocabulary)へ対処できないことです。ここでは、Word2vecのボキャブラリーをsentencepieceでサブワード分割し、それを訓練することで未知語への対処を試みます。 モデル 事前に必…