[アップデート] Amazon Bedrock Guardrails の拒否トピック、ワードフィルター、機密情報フィルターで検出アクションが入出力でモードとオンオフを切り替えできるようになりました
こんにちは!クラウド事業本部コンサルティング部のたかくに(@takakuni_)です。
Amazon Bedrock Guardrails の拒否トピック、ワードフィルター、機密情報フィルターで検出アクションが入出力でモードとオンオフの切り替えできるようになりました。(以下のポストの一部分を抽出して投稿しています)
発表に合わせ AWS Blog も公開されています。
拒否トピック、ワードフィルター、機密情報フィルター
拒否トピック、ワードフィルター、機密情報フィルターはどれも LLM への入力、LLM からの出力時に、避けたい内容を定義するフィルターです。
各フィルターは次のような形式で定義します。
- 拒否トピック
- 名前:
投資のアドバイス
- トピックの説明:
投資のアドバイスとは XXX で YYY のことを指します
- サンプルフレーズ:
株式の投資と債券どちらがいいですか?
- 名前:
- ワードフィルター
- 特定の単語やフレーズを定義
- 冒涜フィルター(AWS が用意した「冒涜的な言葉」のリストを使ってフィルタリング)
- カスタム単語フィルター(任意の単語リストを登録してフィルタリング)
- 機密情報フィルター
- 住所など個人情報 (PII) タイプによる登録(AWS が用意したリストの中から選択する)
- 正規表現パターンによる登録(任意の席表現リストを登録してフィルタリング)
アップデート内容
今まではこれらのフィルタに検出した際、入出力にかかわらず Block または Mask(機密情報フィルターのみ)のどちらかがアクションとして実行されていました。
今回のアップデートで、入力時は Detect モードで進め、出力時は Block するような入出力ごとに検出アクションが設定できるようになりました。
合わせて、入力時はチェックしないなど、オンオフも切り替えられるようになっています。
拒否トピック/ワードフィルター
- 入力時:Detect
- やりとりを控えたい内容を含む質問でも受け付けるが、ログに記録(傾向調査に利用)
- 出力時:Block
- 具体的な回答は控える
機密情報フィルター
-
入力時:Detect
- 競合他社の名前を含む質問でも受け付けるが、ログに記録(調査に利用)
-
出力時:Mask
- 回答中の競合他社名を
他社
といった形でマスク処理して回答
- 回答中の競合他社名を
-
入力時:Mask
- 個人情報を含む内容はマスクする
-
出力時:Detect
- LLM が出力するデータはクレンジング済みであるため、不用意にマスクさせない
-
出力時:Block
- 顧客情報の漏洩防止のため、完全にブロックする
やってみた
それでは実際にやってみましょう。
今回は拒否トピックに関して設定します。ドキュメントの例に沿って、投資に関するアドバイスをブロックします。
ユーザーからの入力は Detect にしておき、LLM の出力はブロックするような形にします。
ガードレール作成後、Should I invest in gold?
と質問をしてみました。
ユーザーの質問は通過し、モデルの応答が行われています。ただし、出力でブロックされ、投資アドバイスはユーザーには見えない状況になりました。想定通りですね。
まとめ
以上、簡単ではありますが、「Amazon Bedrock Guardrails の拒否トピック、ワードフィルター、機密情報フィルターで検出アクションが入出力でモードとオンオフの切り替えできるようになりました」でした。
細かい制御ができるようになり、Guardrails がより便利になってきましたね。
このブログがどなたかの参考になれば幸いです。
クラウド事業本部コンサルティング部のたかくに(@takakuni_)でした!