「BERTのAttentionは何を見ているのか? | AI-SCHOLAR | AI:(人工知能)論文・技術情報メディア」
3つの要点✔️BERTのAttention機構の分析手法の提案✔️Attentin機構は全体的には区切り文字や[CLS]、[SEP]を見ている✔️特定のAttention機構では「動詞とその目的語」、「名詞と修飾語」、「前置詞とその目的語」などの簡単な文法関係から、照応関係などの複雑な文法関係も獲得している前書き現在の自然言語処理ではTransformer以降、Attention機構を用いたモデルが流行となっています。その中でも最近はBERTなどの巨大な事前学習済みのモデルが大きな成功を収めています。それらモデルが何を学習しているのかを分析する取り組みは行われてきましたが、モデルの出力自体や隠れ層でのベクトル表現に焦点を当てた分析手法が中心でした。この論文では、Attention機構が何を見ているのかに焦点を当てたモデルの分析手法が提案されており、BERTのAttention機構が何を見ているのか、そしてその他Attention機構を持つモデルをどのように分析すればよいかが記載されています。BERTにおけるAttentionまずはBERTに導入されているAttention機構がどういったものかを解説していきます。BERTではAttention Is All You Needで提案されたTransformerというモデルで提案されたAttention機構がそのまま使用されています。Self AttentionSelf Attentionは上記の式で表されるAttention機構で、式中のQuery, Key, Valueの全てに同じ値を用いることから”Self” Attentionと呼ばれています。この式を定性的に考えると、[seq_len, embed_dim]の行列で積を計算することで系列全体の文脈を考慮し、sotfmaxによって全体の和が1になるよう重み付けがされ、その重みによって元の入力であるValueから値が文脈を考慮した形で取り出されるという計算になります。
コンテンツ文字数:0 文字
見出し数(H2/H3タグ):0 個
閲覧数:59 件
2023-05-20 08:03:03