ナード戦隊データマン

データサイエンスを用いて悪と戦うぞ

2018-10-20から1日間の記事一覧

domextract: コンテンツ抽出のpythonパッケージ

スクレイピングの自動化とは、抽出箇所の選択等で人手を介さず、URL(またはhtmlのファイルパス)を渡すだけで抽出する技術です。今回は、コンテンツ抽出のdomベースモデルをパッケージ化したので、紹介します。 仕様概要 urlまたはhtmlのファイルパスを渡すと…