ナード戦隊データマン

機械学習, 自然言語処理, データサイエンスについてのブログ

2018-03-21から1日間の記事一覧

Webコンテンツ抽出ツールdragnetを訓練する

dragnetとは、Webコンテンツから重要な部分のみを抽出するためのツールです。比較系の記事はありますが、自前データで訓練している記事がないので、ここではその方法を説明します。 dragnetの入手 $ git clone https://github.com/seomoz/dragnet データ準備…