「Document Analysisのオープンデータについて - Techブログ - MNTSQ, Ltd.」

はじめにテキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助と…

はじめにテキスト情報から自然言語処理の機械学習モデルを構築する際には文字列データのみが解析の対象になりますが、文書全体から情報を抽出するモデルを構築する際には、文書レイアウト情報が重要になります。通常の自然言語処理とは異なり、文書レイアウト情報は画像も入力の対象として想定されるため、文字の位置を表すBounding Box等がアノテーションとして想定されます。このように、文書に含まれる文字情報だけではなくレイアウトに関する情報も扱うタスクをDocument Analysisと呼んだりします。本記事ではDocument Analysisタスクに関わるデータセットの作成について考える一助と…

Webページ

コンテンツ文字数：0 文字

見出し数（H2/H3タグ）：0 個

閲覧数：105 件

2021-10-03 08:10:42

オリジナルページを開く

タグ一覧