「ChatGPTを凶悪な暴言マシンに変貌させる魔法の文字列が発見される」

ChatGPTやBardといった生成AIには、爆弾の作り方といった危険な情報や、中傷にあたるような非倫理的な文章の生成を求められても拒否するように安全策がもうけられています。しかし、命令文となるプロンプトの末尾に一見すると意味のわからない文字列である「敵対的サフィックス(接尾辞)」を付けることでこの制限を突破し、本来は出力できない過激な文章をAIに生成させる「ジェイルブレイク(脱獄)」の手法が特定されました。

ChatGPTやBardといった生成AIには、爆弾の作り方といった危険な情報や、中傷にあたるような非倫理的な文章の生成を求められても拒否するように安全策がもうけられています。しかし、命令文となるプロンプトの末尾に一見すると意味のわからない文字列である「敵対的サフィックス(接尾辞)」を付けることでこの制限を突破し、本来は出力できない過激な文章をAIに生成させる「ジェイルブレイク(脱獄)」の手法が特定されました。

Webページ

コンテンツ文字数：0 文字

見出し数（H2/H3タグ）：0 個

閲覧数：59 件

2023-07-28 17:01:22

オリジナルページを開く