ナード戦隊データマン

機械学習と自然言語処理についてのブログ

2019-03-28から1日間の記事一覧

cmudict: 発音記号辞書をnltkから使う

cmudictとは、発音記号辞書です。nltkからこの辞書を使って、ラッパーのように韻(rhyme)を踏んでみます。 事前準備 コーパスをダウンロードします。 import nltk nltk.download("cmudict") たった30行のコード import random import nltk from collections i…

soundex: もしかして検索に使えそうなアルゴリズム

表音アルゴリズム(phonetic algorithm)とは、発音で語をインデクシングする方法です。ここでは、jellyfishというライブラリを使って、"natural language processing"のような語に似た語を作ってみます。 soundexとは soundexはphonetic algorithmの一つで、…