ナード戦隊データマン

機械学習と自然言語処理についてのブログ

2018-09-29から1日間の記事一覧

Webコンテンツ抽出のCNNモデル

Webコンテンツ抽出のvision-based手法とは、Webページのスクリーンショットを解析し、コンテンツ抽出の特徴量として使う手法です。TextMapsというオープンソースの手法もありますが、今回はモデル自体を自作します。 事前準備 Webページのスクリーンショット…