[アップデート] Amazon Bedrock Model Evaluation で提供される LLM-as-a-Judge 機能が一般提供されました

[アップデート] Amazon Bedrock Model Evaluation で提供される LLM-as-a-Judge 機能が一般提供されました

Clock Icon2025.03.21

こんにちは!クラウド事業本部コンサルティング部のたかくに(@takakuni_)です。

Amazon Bedrock Model Evaluation で提供される LLM-as-a-Judge 機能が一般提供されました。

https://aws.amazon.com/jp/about-aws/whats-new/2025/03/amazon-bedrock-model-evaluation-llm-as-a-judge/

Amazon Bedrock Model Evaluation の LLM-as-a-Judge

まず、 Amazon Bedrock の Model Evaluation は、LLM の性能評価を行う機能です。

以下のように LLM に質問する内容と、期待する回答(オプション)のセットをデータセットとして用意し、期待した回答に沿っているか評価する機能です。

{"prompt":"Write a 15 words summary of this text:\n\nAWS Fargate is a technology that you can use to run containers without having to manage servers or clusters.With AWS Fargate, you no longer have to provision, configure, or scale clusters of virtual machines to run containers.This removes the need to choose server types, decide when to scale your clusters, or optimize cluster packing.","referenceResponse":"AWS Fargate allows running containers without managing servers or clusters, simplifying container deployment and scaling."}
{"prompt":"Give me a list of the top 3 benefits from this text:\n\nAWS Fargate is a technology that you can use to run containers without having to manage servers or clusters.With AWS Fargate, you no longer have to provision, configure, or scale clusters of virtual machines to run containers.This removes the need to choose server types, decide when to scale your clusters, or optimize cluster packing.","referenceResponse":"- No need to manage servers or clusters.\n- Simplified infrastructure management.\n- Improved focus on application development."}

LLM-as-a-Judge 機能は、名前の通り LLM にモデルの評価を代行させて実施する仕組みです。

そのため、評価者モデル(Evaluator model)と被評価者モデルの 2 種類が登場します。

Untitled(141) (1).png

Bring your own inference responses

一般提供に際して、新たに Bring your own inference responses というオプションが追加されました。

Brand new - more flexibility! Today, you can evaluate any model or system hosted anywhere by bringing your own inference responses you already fetched into your input prompt dataset for the evaluation job (“bring your own inference responses“).

これは、質問する内容と期待する回答(オプション)に加え、LLM が生成した結果とモデル ID(識別できればなんでもOK)をデータセットのキーに加えることで、回答生成とモデルの評価と疎結合にできる機能です。

Untitled(142).png

疎結合にすることで、特定のフォーマットに従えば、Amazon Bedrock 以外のモデルの回答結果も LLM-as-a-Judge で評価できるようになります。

Untitled(142) (1).png

さまざまなモデルを同じ仕組みで評価したいケースで、非常に便利な機能になりました!

やってみる

それでは、 Bring your own inference responses を試してみます。

データセットの作成

まずはデータセットの作成を行います。最終的なデータセットは、以下のとおりです。

データセット
dataset.jsonl
{"prompt":"日本の最高峰は何ですか?","modelResponses":[{"response":"日本の最高峰は富士山です。標高は3,776メートルで、静岡県と山梨県にまたがっています。2013年に「富士山-信仰の対象と芸術の源泉」として世界文化遺産に登録されました。","modelIdentifier":"sample_model"}],"referenceResponse":"富士山(標高3,776メートル)です。"}
{"prompt":"日本の四大都市を挙げてください。","modelResponses":[{"response":"日本の四大都市は、東京、横浜、大阪、名古屋です。人口規模で見ると、この4都市が日本で最も大きな都市圏を形成しています。東京は首都として政治・経済の中心、横浜は国際港湾都市、大阪は西日本の経済中心地、名古屋は中部地方の中心都市としてそれぞれ発展してきました。","modelIdentifier":"sample_model"}],"referenceResponse":"東京、大阪、名古屋、福岡が日本の四大都市です。"}
{"prompt":"源氏物語を書いたのは誰ですか?","modelResponses":[{"response":"源氏物語を書いたのは紫式部です。平安時代中期の女流作家で、本名は不詳とされています。源氏物語は11世紀初頭に書かれた日本文学の最高傑作の一つであり、世界最古の長編小説とも言われています。","modelIdentifier":"sample_model"}],"referenceResponse":"紫式部です。"}
{"prompt":"日本の国花は何ですか?","modelResponses":[{"response":"日本の国花は「桜(サクラ)」と「菊(キク)」の2つです。桜は春の象徴として広く親しまれ、菊は皇室の紋章(十六弁八重表菊)としても使われています。法律で正式に定められているわけではありませんが、この2つが日本を代表する花として国内外で認識されています。","modelIdentifier":"sample_model"}],"referenceResponse":"桜(サクラ)です。菊(キク)も皇室の紋章として重要な花とされています。"}
{"prompt":"日本の伝統的な武道を5つ挙げてください。","modelResponses":[{"response":"日本の伝統的な武道を5つ挙げると、以下のようになります:\n\n1. 柔道 - 嘉納治五郎によって創始された投げ技や固め技を中心とした武道\n2. 剣道 - 日本刀の操法を竹刀と防具を用いて行う武道\n3. 弓道 - 日本の伝統的な弓術を継承した武道\n4. 合気道 - 植芝盛平によって創始された、相手の力を利用する武道\n5. 空手道 - 沖縄発祥の打撃技を中心とした武道\n\nこれらはいずれも単なる格闘技ではなく、精神修養や人格形成を重視する「道」としての側面を持っています。","modelIdentifier":"sample_model"}],"referenceResponse":"柔道、剣道、空手道、弓道、相撲が代表的な日本の伝統武道です。"}
{"prompt":"漢字の「草」「行」「楷」は何と読みますか?","modelResponses":[{"response":"漢字の「草」「行」「楷」は、書道における書体の種類を表し、それぞれ「そう(草書)」「ぎょう(行書)」「かい(楷書)」と読みます。楷書は整った正式な書体、行書は楷書と草書の中間的な書体、草書は最も崩した速書きの書体です。これらは「三体」と呼ばれ、日本の書道における基本的な書体となっています。","modelIdentifier":"sample_model"}],"referenceResponse":"それぞれ「草書(そうしょ)」「行書(ぎょうしょ)」「楷書(かいしょ)」と読みます。"}
{"prompt":"日本の二十四節気で、立春の次に来るのは何ですか?","modelResponses":[{"response":"日本の二十四節気で、立春の次に来るのは「雨水(うすい)」です。雨水は2月19日頃(閏年によって若干変動します)に訪れ、雪が雨に変わり始め、氷が解けて水となる頃という意味があります。春の訪れを感じさせる節気の一つとされています。","modelIdentifier":"sample_model"}],"referenceResponse":"雨水(うすい)です。"}
{"prompt":"歌舞伎の「見得(みえ)」とは何ですか?","modelResponses":[{"response":"歌舞伎の「見得(みえ)」とは、役者が演技の中で一瞬動きを止め、印象的なポーズをとる演出技法です。重要な場面や感情の高まりを表現する際に使われ、役者は目を見開いて睨みを効かせたり、特徴的な姿勢をとったりします。「見得を切る」とも言い、観客の注目を集め、役柄の性格や感情を視覚的に強調する効果があります。歌舞伎の見せ場として重要な要素の一つです。","modelIdentifier":"sample_model"}],"referenceResponse":"歌舞伎で演者が決まったポーズをとって静止する演出技法のことです。感情表現や場面の区切りとして使われます。"}
{"prompt":"「平家物語」の冒頭の一節は何ですか?","modelResponses":[{"response":"「平家物語」の冒頭の一節は以下の通りです:\n\n「祇園精舎の鐘の声、諸行無常の響きあり。沙羅双樹の花の色、盛者必衰の理をあらわす。おごれる人も久しからず、ただ春の夜の夢のごとし。たけき者も遂にはほろびぬ、ひとへに風の前の塵に同じ。」\n\nこの冒頭部分は仏教の無常観を表現し、栄華を誇った平家の盛衰を暗示する有名な序文として知られています。","modelIdentifier":"sample_model"}],"referenceResponse":"「祇園精舎の鐘の声、諸行無常の響きあり。沙羅双樹の花の色、盛者必衰の理をあらわす。」です。"}
{"prompt":"茶道で使われる「わび」「さび」という美意識について説明してください。","modelResponses":[{"response":"茶道で重視される「わび」「さび」は、日本の伝統的な美意識を表す概念です。\n\n「わび」は、質素や簡素の中に見出される静かな美しさを指します。物質的な豊かさや華やかさではなく、控えめで飾り気のない状態に美を見出す考え方です。茶道では、簡素な茶室や道具の中に深い美を感じ取ることを重視します。\n\n「さび」は、年月を経て生まれる風情や趣を表します。新しさや完璧さよりも、時間の経過によって生まれる味わいや風格を尊ぶ美意識です。古びた茶碗や道具に宿る歴史や物語を感じ取ることを大切にします。\n\nこれらの美意識は、千利休によって大成された侘び茶の精神的基盤となり、不完全さや無常観を受け入れ、そこに美を見出す日本独自の美学として茶道だけでなく、日本文化全般に影響を与えています。","modelIdentifier":"sample_model"}],"referenceResponse":"「わび」は質素や簡素であることの中に見出す美、「さび」は古びた風情や寂しさの中に見出す美を意味します。どちらも日本の美意識の中心的概念です。"}
{"prompt":"日本で最も古い木造建築物は何ですか?","modelResponses":[{"response":"日本で最も古い木造建築物は、奈良県法隆寺の金堂と五重塔を含む西院伽藍です。7世紀初頭(607年頃)に建立されたとされ、現存する世界最古の木造建築として知られています。聖徳太子によって創建されたと伝えられ、1993年にユネスコの世界文化遺産に登録されました。特に五重塔は、日本建築の優れた耐震構造の例としても評価されています。","modelIdentifier":"sample_model"}],"referenceResponse":"法隆寺の金堂と五重塔が最古の木造建築物とされており、7世紀の建造です。"}
{"prompt":"「枕草子」を書いたのは誰ですか?","modelResponses":[{"response":"「枕草子」を書いたのは清少納言(せいしょうなごん)です。平安時代中期の女流作家で、中宮定子に仕えた女房でした。「枕草子」は随筆文学の傑作として知られ、「春はあけぼの」で始まる季節の美しさの描写や、宮中生活の様子、物事の趣深い観察などが記されています。紫式部の「源氏物語」と並んで、平安文学を代表する作品の一つです。","modelIdentifier":"sample_model"}],"referenceResponse":"清少納言です。"}
{"prompt":"日本の伝統的な「間(ま)」の概念について説明してください。","modelResponses":[{"response":"日本の伝統的な「間(ま)」の概念は、物理的な空間だけでなく、時間的な余白や沈黙も含む多層的な美学的概念です。\n\n「間」は、建築では柱と柱の間の空間、音楽では音と音の間の沈黙、演劇では動作と動作の間の静止など、様々な文脈で現れます。これは単なる空白や休止ではなく、意味を持つ「余白」であり、そこに想像力や解釈の余地を生み出します。\n\n例えば、日本庭園では石や植物の配置に「間」を意識し、能楽では動きの「間」が演技の重要な要素となります。また、会話における沈黙も「間」として意味を持ち、コミュニケーションの一部となります。\n\n「間」は、物事を詰め込むのではなく、適切に空間や時間を配置することで生まれる調和や緊張感を重視する日本美学の核心的要素であり、「余白の美」とも言えるものです。この概念は、建築、庭園、絵画、音楽、演劇、文学など、日本文化の様々な側面に深く浸透しています。","modelIdentifier":"sample_model"}],"referenceResponse":"「間」とは物理的な空間だけでなく、時間的な余白や沈黙も含む美的概念で、物事の関係性や余韻を大切にする日本文化の重要な要素です。"}
{"prompt":"日本の国蝶は何ですか?","modelResponses":[{"response":"日本の国蝶はオオムラサキ(大紫)です。1957年に国の特別天然記念物に指定され、日本を代表する蝶として広く認識されています。翅を広げると10cm前後になる大型の蝶で、オスは美しい紫色の光沢があることが名前の由来です。幼虫はエノキを食草とし、成虫は樹液を好みます。日本の里山の自然環境を象徴する生き物として親しまれています。","modelIdentifier":"sample_model"}],"referenceResponse":"オオムラサキ(大紫)です。"}
{"prompt":"日本の代表的な三名園は何ですか?","modelResponses":[{"response":"日本の代表的な三名園(日本三名園)は以下の3つです:\n\n1. 偕楽園(かいらくえん)- 茨城県水戸市にある江戸時代後期に水戸藩主・徳川斉昭によって造られた庭園\n\n2. 兼六園(けんろくえん)- 石川県金沢市にある江戸時代に加賀藩によって造られた庭園\n\n3. 後楽園(こうらくえん)- 岡山県岡山市にある江戸時代に岡山藩主・池田綱政によって造られた庭園\n\nこれらはいずれも大名庭園として知られ、四季折々の美しさと日本庭園の技術の粋を集めた名園として国の特別名勝に指定されています。","modelIdentifier":"sample_model"}],"referenceResponse":"岡山の後楽園、金沢の兼六園、水戸の偕楽園です。"}
{"prompt":"「忖度(そんたく)」という言葉の意味を説明してください。","modelResponses":[{"response":"「忖度(そんたく)」とは、相手の意図や気持ちを推し量り、それに合わせて行動することを意味します。本来は「他者の心情を察すること」という中立的な意味を持つ言葉ですが、近年では特に「上司や権力者の明示されていない意向を推し量って、それに従う行為」というやや否定的なニュアンスで使われることが増えています。\n\n語源は中国の古典に由来し、「忖」は推し量る、「度」は考えるという意味の漢字から成り立っています。相手の立場や状況を考慮する思いやりの一面もありますが、過剰な忖度は公正な判断や意思決定を歪める可能性もあるため、文脈によって評価が分かれる概念です。","modelIdentifier":"sample_model"}],"referenceResponse":"相手の意向や気持ちを推し量って、言われなくても先回りして配慮することを意味します。"}
{"prompt":"浮世絵の「北斎」の名前は何と読みますか?","modelResponses":[{"response":"浮世絵の「北斎」は「ほくさい」と読みます。正式には葛飾北斎(かつしか ほくさい)といい、江戸時代後期の浮世絵師です。「富嶽三十六景」の「神奈川沖浪裏」(通称:波の絵)や「凱風快晴」(通称:赤富士)などの作品で国際的にも高く評価されています。90年の生涯で30回以上も画号(芸名)を変え、「画狂老人卍」と名乗ったこともある独創的な芸術家でした。","modelIdentifier":"sample_model"}],"referenceResponse":"葛飾北斎(かつしかほくさい)です。"}
{"prompt":"俳句の季語「木の芽」は何の季節を表しますか?","modelResponses":[{"response":"俳句の季語「木の芽」は春を表します。特に春の初めから中頃にかけての時期を示し、冬の間眠っていた木々が新芽を出し始める様子を表現しています。山菜の「木の芽」を指す場合もあり、山椒の若芽などを意味することもあります。新しい生命の息吹や成長の始まりを感じさせる季語として、春の訪れを告げる言葉として俳句に用いられます。","modelIdentifier":"sample_model"}],"referenceResponse":"春の季語です。新芽が出る様子を表します。"}
{"prompt":"江戸時代の三大改革とは何ですか?","modelResponses":[{"response":"江戸時代の三大改革とは、幕府財政の立て直しと社会秩序の回復を目的として行われた以下の3つの政治改革です:\n\n1. 享保の改革(1716年~1745年):8代将軍・徳川吉宗によって実施された改革。倹約令の発布、新田開発の奨励、貨幣改鋳、目安箱の設置などが行われました。\n\n2. 寛政の改革(1787年~1793年):11代将軍・徳川家斉の時代に老中・松平定信によって実施された改革。質素倹約の奨励、寛政異学の禁(朱子学以外の学問を禁止)、囲米制度の創設などが特徴です。\n\n3. 天保の改革(1841年~1843年):12代将軍・徳川家慶の時代に老中・水野忠邦によって実施された改革。倹約令の発布、株仲間の解散、上知令(大名からの土地没収)などが行われましたが、反発が強く短期間で終わりました。\n\nこれらの改革は、いずれも幕府の財政難や社会の混乱に対処するために行われましたが、根本的な解決には至らず、幕府の権威低下を食い止めることはできませんでした。","modelIdentifier":"sample_model"}],"referenceResponse":"享保の改革(徳川吉宗)、寛政の改革(松平定信)、天保の改革(水野忠邦)です。"}
{"prompt":"日本の伝統的な「和食」がユネスコ無形文化遺産に登録されたのは何年ですか?","modelResponses":[{"response":"日本の伝統的な「和食」がユネスコ無形文化遺産に登録されたのは2013年(平成25年)12月です。正式には「和食;日本人の伝統的な食文化」として登録されました。自然を尊重する精神に基づいた食材選びや調理法、栄養バランスに優れた食事構成、季節の移ろいを表現する盛り付けや器使い、年中行事との密接な関わりなど、和食の文化的・社会的価値が評価されました。これは単に料理そのものではなく、日本人の食に関わる「習わし」や「心」も含めた包括的な食文化として認められたものです。","modelIdentifier":"sample_model"}],"referenceResponse":"2013年です。"}
{"prompt":"「もののあはれ」という美意識を提唱した平安時代の文学者は誰ですか?","modelResponses":[{"response":"「もののあはれ」という美意識を提唱した平安時代の文学者は紫式部です。彼女の代表作「源氏物語」において、この美意識が深く探求されています。「もののあはれ」とは、物事の奥に潜む哀れさや情趣を感じ取る感性のことで、特に自然や人生の無常、移ろいゆく美しさに対する繊細な感受性を表します。紫式部はこの概念を通して、登場人物の心理描写や情景描写を豊かに展開し、日本文学における重要な美的価値観として確立しました。","modelIdentifier":"sample_model"}],"referenceResponse":"本居宣長です。"}
{"prompt":"日本の七夕はどの暦を基準にしていますか?","modelResponses":[{"response":"日本の七夕は、元々は旧暦(太陰太陽暦)の7月7日を基準としていました。しかし、明治時代に新暦(グレゴリオ暦)が採用されてからは、地域によって異なる対応がとられています。\n\n現在では、新暦の7月7日に七夕を祝う地域が多いですが、仙台七夕まつりのように8月上旬(旧暦7月7日に近い時期)に行う地域もあります。これは旧暦7月7日が新暦では約1ヶ月遅れの8月頃になることが多いためです。\n\n旧暦に忠実に従う地域では、その年によって日付が変わりますが、伝統的な七夕の本来の姿に近いと言えます。このように、日本の七夕は元々旧暦を基準としていましたが、現代では地域の習慣によって新暦7月7日または旧暦に準じた日に祝われています。","modelIdentifier":"sample_model"}],"referenceResponse":"旧暦の7月7日ですが、現在は新暦の7月7日に行われることが多いです。一部の地域では旧暦に合わせて8月頃に祝うところもあります。"}
{"prompt":"蕎麦を食べる際の「そば湯」とは何ですか?","modelResponses":[{"response":"「そば湯」とは、蕎麦を茹でた後の湯(茹で汁)のことです。蕎麦を食べ終わった後、蕎麦つゆに注いで飲む習慣があります。\n\nそば湯には蕎麦に含まれるデンプンやビタミンB群、ミネラルなどの栄養素が溶け出しており、栄養価が高いとされています。また、蕎麦の風味を楽しむことができ、つゆの濃い味を中和する効果もあります。\n\n蕎麦屋では、蕎麦を食べ終わった後に小さな徳利や急須に入れたそば湯を提供することが多く、これを残ったつゆに注いで「割り湯」として飲むのが伝統的な蕎麦の締めの作法とされています。家庭で乾麺を茹でる際にも、茹で汁を少し取っておいて同様に楽しむことができます。","modelIdentifier":"sample_model"}],"referenceResponse":"そばを茹でた後の湯に、つゆを少し加えて飲む習慣です。栄養があるとされています。"}
{"prompt":"江戸時代に庶民の間で読まれた「読み本」「草双紙」とは何ですか?","modelResponses":[{"response":"江戸時代に庶民の間で読まれた「読み本」と「草双紙」は、当時の大衆文学の代表的な形態です。\n\n「読み本(よみほん)」は、主に文字中心の娯楽小説で、挿絵も含まれますが文章が主体となっています。上田秋成の「雨月物語」や滝沢馬琴の「南総里見八犬伝」などが代表作です。比較的教養のある読者層を対象としており、複雑な物語構造や文学的表現が特徴でした。\n\n「草双紙(くさぞうし)」は、絵と文が一体となった絵本形式の読み物で、赤本・黒本・青本・黄表紙・合巻などの種類があります。特に黄表紙は風刺や洒落を効かせた内容で人気を博し、山東京伝や十返舎一九などの作家が活躍しました。絵が中心で文字が少ないため、識字率が低い層にも親しまれました。\n\nこれらは貸本屋を通じて広く流通し、江戸時代の庶民文化の発展に大きく貢献しました。現代の漫画やライトノベルの原型とも言える大衆文学でした。","modelIdentifier":"sample_model"}],"referenceResponse":"「読み本(よみほん)」は文章主体の小説、「草双紙(くさぞうし)」は絵を多用した絵本や漫画の原型となった庶民向け娯楽書です。"}
{"prompt":"「おくのほそ道」を書いたのは誰ですか?","modelResponses":[{"response":"「おくのほそ道」(奥の細道)を書いたのは松尾芭蕉(まつお ばしょう)です。江戸時代前期の俳諧師(俳人)で、元禄2年(1689年)に弟子の河合曾良を伴い、江戸を出発して東北・北陸地方を巡る約150日の旅をしました。この旅の記録と俳句をまとめた紀行文学が「おくのほそ道」です。「閑さや岩にしみ入る蝉の声」(平泉)、「五月雨をあつめて早し最上川」(山形)など名句が多く含まれ、日本文学史上最高の紀行文学として評価されています。","modelIdentifier":"sample_model"}],"referenceResponse":"松尾芭蕉です。"}
{"prompt":"風鈴の音色が日本の夏の風物詩とされる理由は何ですか?","modelResponses":[{"response":"風鈴の音色が日本の夏の風物詩とされる理由には、以下のような要素があります:\n\n1. 涼感の演出:風鈴の澄んだ音色は、視覚だけでなく聴覚からも涼しさを感じさせる効果があります。暑い夏に「涼」を取り入れる日本の文化的知恵の一つです。\n\n2. 微風の視覚化:目に見えない風の動きを、風鈴の音によって感じ取ることができます。わずかな風でも音に変換されるため、夏の微風の存在を知らせてくれます。\n\n3. 季節の移ろいを感じる装置:日本人は古来より季節の変化に敏感で、それを生活に取り入れる文化を持っています。風鈴は夏を告げる季節の目印として機能してきました。\n\n4. 江戸時代からの文化的背景:特に江戸時代に庶民の間で風鈴が普及し、夏の風物詩として定着しました。当時の文人墨客も風鈴の音色を詩歌に詠み込んでいます。\n\n5. 精神性と結びついた音色:風鈴の音は偶然性に委ねられており、禅の思想にも通じる「無作為の美」を感じさせます。心を落ち着かせ、暑さを忘れさせる効果もあります。\n\nこのように、風鈴は単なる装飾品ではなく、日本人の季節感や美意識、暑さをしのぐ知恵が結晶化したものとして、夏の風物詩となっています。","modelIdentifier":"sample_model"}],"referenceResponse":"涼しさを感じさせ、暑さを忘れさせる効果があるとされているためです。また音を聞くことで心理的に涼を感じる「涼感」を得られるとされています。"}
{"prompt":"「わらしべ長者」の「わらしべ」とは何ですか?","modelResponses":[{"response":"「わらしべ」とは、稲わらで作った細い棒のことです。稲わらを束ねて作られた簡素な棒状のもので、昔は子どもの遊び道具として使われていました。\n\n「わらしべ長者」は日本の昔話で、主人公が最初はただのわらしべ(価値の低いもの)を持っていましたが、それを次々と別のものと交換していくうちに、最終的には大きな財産を得て長者(お金持ち)になるという物語です。\n\nこの話は、小さな価値のあるものから始めて、知恵と機会を活かして徐々に価値を高めていくことの教訓や、些細なことから大きな幸運が生まれる可能性を示す寓話として知られています。「わらしべ長者」という言葉は、小さな機会や縁を大切にすることで大きな成功につながるという意味で、現代でも使われることがあります。","modelIdentifier":"sample_model"}],"referenceResponse":"わらしべとは稲わらのことを指します。昔話の「わらしべ長者」では主人公が最初に手に入れた価値の低いわらを物々交換で徐々に価値の高いものに変えていきます。"}
{"prompt":"日本の湖で最大の面積を持つのはどこですか?","modelResponses":[{"response":"日本の湖で最大の面積を持つのは琵琶湖(びわこ)です。滋賀県に位置し、面積は約670平方キロメートルで、日本の湖水面積の約6分の1を占めています。琵琶湖は日本最大の湖であるだけでなく、世界でも古代湖として知られ、約400万年前に形成されたと考えられています。その長い歴史から、ビワマスやセタシジミなど約60種の固有種が生息する貴重な生態系を持っています。また、古くから人々の生活や文化と深く結びつき、周辺地域の水源としても重要な役割を果たしています。","modelIdentifier":"sample_model"}],"referenceResponse":"琵琶湖です。滋賀県にあり、面積は約670平方キロメートルです。"}
{"prompt":"「枯山水」とは何ですか?","modelResponses":[{"response":"「枯山水」(からさんすい)とは、水を使わずに石や砂、苔などを用いて山水の景観を表現する日本庭園の様式です。主に禅宗の寺院で発展し、室町時代に完成されました。\n\n特徴としては:\n\n1. 白砂や砂利を「水」に見立て、櫛で模様をつけることで水の流れや波紋を表現します。\n\n2. 配置された石は山や島を象徴し、苔は陸地や森林を表します。\n\n3. 実際の水を使わず、抽象的・象徴的に自然の風景を表現することで、見る人の想像力を喚起します。\n\n4. 禅の思想と深く結びつき、自然の本質を抽出した簡素で静寂な美を追求しています。\n\n代表的な枯山水庭園としては、京都の龍安寺の石庭が世界的に有名です。15個の石を配した簡素なデザインながら、深い精神性と美意識を感じさせる庭として知られています。\n\n枯山水は、物理的な制約(水の確保が難しい場所など)から生まれた実用的な側面もありますが、それ以上に「見立て」や「省略」による表現の極致として、日本の美学を代表する芸術形式となっています。","modelIdentifier":"sample_model"}],"referenceResponse":"枯山水は、水を使わず、砂や石、苔などを使って水や山などの自然景観を表現する日本庭園の様式です。禅の思想と結びついています。"}
{"prompt":"「五七五七七」の音節構造を持つ日本の伝統的な詩歌は何ですか?","modelResponses":[{"response":"「五七五七七」の音節構造を持つ日本の伝統的な詩歌は「短歌」(たんか)です。5・7・5・7・7の31音から成り、日本最古の詩歌形式の一つとされています。奈良時代の「万葉集」、平安時代の「古今和歌集」など、古くから日本文学の中心的な位置を占めてきました。\n\n短歌は「和歌」とも呼ばれ、自然の美しさ、恋愛感情、人生の無常などを簡潔かつ繊細に表現する詩形として発展しました。明治時代には正岡子規らによって近代短歌として革新され、現代でも多くの愛好者に親しまれています。\n\n短歌の例:\n「柿くへば 鐘が鳴るなり 法隆寺」(正岡子規)の後に「ほろほろと 時雨降るなり」を加えると短歌になります。","modelIdentifier":"sample_model"}],"referenceResponse":"短歌(和歌)です。"}

ポイントは次のスキーマかつ JSON Lines 形式で格納することです。

{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}
{"prompt":"The prompt you used to generate the model response","referenceResponse":"(Optional) a ground truth response","category":"(Optional) a category for the prompt","modelResponses":[{"response":"The response your model generated","modelIdentifier":"A string identifying your model"}]}

https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation-prompt-datasets-judge.html#model-evaluation-prompt-datasets-judge-byoir

まずは想定質問と、回答のペアを作ってみます。Claude 3.7 Sonnet にて次のプロンプトで生成しました。

次のような JSON Lines の形式で、一般的な日本の基礎教養の質問と回答を 30 問生成してください。
政治/宗教/領土的な内容は避けてください。category キーは不要です。

{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}
{"prompt":"Provide the prompt you want the model to use during inference","referenceResponse":"(Optional) Specify a ground truth response."}

回答結果は以下のとおりです。

省略
{"prompt":"日本の最高峰は何ですか?","referenceResponse":"富士山(標高3,776メートル)です。"}
{"prompt":"日本の四大都市を挙げてください。","referenceResponse":"東京、大阪、名古屋、福岡が日本の四大都市です。"}
{"prompt":"源氏物語を書いたのは誰ですか?","referenceResponse":"紫式部です。"}
{"prompt":"日本の国花は何ですか?","referenceResponse":"桜(サクラ)です。菊(キク)も皇室の紋章として重要な花とされています。"}
{"prompt":"日本の伝統的な武道を5つ挙げてください。","referenceResponse":"柔道、剣道、空手道、弓道、相撲が代表的な日本の伝統武道です。"}
...

referenceResponse が悪さしそうだったため、prompt のみに抽出しました。

省略
{"prompt":"日本の最高峰は何ですか?"}
{"prompt":"日本の四大都市を挙げてください。"}
{"prompt":"源氏物語を書いたのは誰ですか?"}
{"prompt":"日本の国花は何ですか?"}
...

続いて回答生成です。Amazon Bedrock 以外のあるモデルで、次のデータセットの作成を依頼しました。

次の prompt に対する回答を生成してください。

{"prompt":"日本の最高峰は何ですか?"}
{"prompt":"日本の四大都市を挙げてください。"}
{"prompt":"源氏物語を書いたのは誰ですか?"}
{"prompt":"日本の国花は何ですか?"}
...

1. 回答は modelResponses の response に入力する形で生成してください。

{"prompt":"The prompt you used to generate the model response","modelResponses":[{"response":"The response your model generated","modelIdentifier":"sample_model"}]}

生成された回答は以下のとおりです。

省略
{"prompt":"日本の最高峰は何ですか?","modelResponses":[{"response":"日本の最高峰は富士山です。標高は3,776メートルで、静岡県と山梨県にまたがっています。2013年に「富士山-信仰の対象と芸術の源泉」として世界文化遺産に登録されました。","modelIdentifier":"sample_model"}]}
{"prompt":"日本の四大都市を挙げてください。","modelResponses":[{"response":"日本の四大都市は、東京、横浜、大阪、名古屋です。人口規模で見ると、この4都市が日本で最も大きな都市圏を形成しています。東京は首都として政治・経済の中心、横浜は国際港湾都市、大阪は西日本の経済中心地、名古屋は中部地方の中心都市としてそれぞれ発展してきました。","modelIdentifier":"sample_model"}]}
{"prompt":"源氏物語を書いたのは誰ですか?","modelResponses":[{"response":"源氏物語を書いたのは紫式部です。平安時代中期の女流作家で、本名は不詳とされています。源氏物語は11世紀初頭に書かれた日本文学の最高傑作の一つであり、世界最古の長編小説とも言われています。","modelIdentifier":"sample_model"}]}
{"prompt":"日本の国花は何ですか?","modelResponses":[{"response":"日本の国花は「桜(サクラ)」と「菊(キク)」の2つです。桜は春の象徴として広く親しまれ、菊は皇室の紋章(十六弁八重表菊)としても使われています。法律で正式に定められているわけではありませんが、この2つが日本を代表する花として国内外で認識されています。","modelIdentifier":"sample_model"}]}

最後に先ほど抜いた referenceResponse を結合し、データセットは完成です。

省略
{"prompt":"日本の最高峰は何ですか?","modelResponses":[{"response":"日本の最高峰は富士山です。標高は3,776メートルで、静岡県と山梨県にまたがっています。2013年に「富士山-信仰の対象と芸術の源泉」として世界文化遺産に登録されました。","modelIdentifier":"sample_model"}],"referenceResponse":"富士山(標高3,776メートル)です。"}
{"prompt":"日本の四大都市を挙げてください。","modelResponses":[{"response":"日本の四大都市は、東京、横浜、大阪、名古屋です。人口規模で見ると、この4都市が日本で最も大きな都市圏を形成しています。東京は首都として政治・経済の中心、横浜は国際港湾都市、大阪は西日本の経済中心地、名古屋は中部地方の中心都市としてそれぞれ発展してきました。","modelIdentifier":"sample_model"}],"referenceResponse":"東京、大阪、名古屋、福岡が日本の四大都市です。"}
{"prompt":"源氏物語を書いたのは誰ですか?","modelResponses":[{"response":"源氏物語を書いたのは紫式部です。平安時代中期の女流作家で、本名は不詳とされています。源氏物語は11世紀初頭に書かれた日本文学の最高傑作の一つであり、世界最古の長編小説とも言われています。","modelIdentifier":"sample_model"}],"referenceResponse":"紫式部です。"}
{"prompt":"日本の国花は何ですか?","modelResponses":[{"response":"日本の国花は「桜(サクラ)」と「菊(キク)」の2つです。桜は春の象徴として広く親しまれ、菊は皇室の紋章(十六弁八重表菊)としても使われています。法律で正式に定められているわけではありませんが、この2つが日本を代表する花として国内外で認識されています。","modelIdentifier":"sample_model"}],"referenceResponse":"桜(サクラ)です。菊(キク)も皇室の紋章として重要な花とされています。"}
...

S3 バケットの作成

続いて S3 バケットの作成です。

マネジメントコンソールを通じてジョブを作成するため、作業するバケットの CORS 設定を許可しておきます。

[
    {
        "AllowedHeaders": [
            "*"
        ],
        "AllowedMethods": [
            "GET",
            "PUT",
            "POST",
            "DELETE"
        ],
        "AllowedOrigins": [
            "*"
        ],
        "ExposeHeaders": [
            "Access-Control-Allow-Origin"
        ]
    }
]

https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation-security-cors.html

先ほど作成した JSON Lines のデータセットをアップロードしておきます。

ジョブの作成

ジョブを作成しましょう。Evaluation から Model as a judge を選択します。

Inference source に Bring your own inference responses が増えています。

Source name には modelIdentifier の値(sample_model)を入力します。

Source name で指定した値がデータセット内にない場合はエラーになります。

ジョブが成功すると、次のようにメトリクスが表示されます。

今回利用したモデルは、かなり高い精度で期待する回答ができていますね。

2025-03-21 at 22.30.09-Model Evaluation Report  Model Evaluation  AmazonBedrock  us-west-2@2x.png

モデル評価で利用されるプロンプトはいかに記載されており、設定画面で指定したメトリクスごとに実行されるイメージです。

たとえば、Helpfulness, Relevance, Harmfulness を選択した場合、1 プロンプトで 3 回モデルが実行されます。

https://docs.aws.amazon.com/bedrock/latest/userguide/model-evaluation-type-judge-prompt-claude-sonnet.html

まとめ

以上、「Amazon Bedrock Model Evaluation で提供される LLM-as-a-Judge 機能が一般提供されました。」でした。モデルの評価に人間を介すると工数がかかる部分を、 LLM によって自動化できるのは非常に便利ですね。

このブログがどなたかの参考になれば幸いです。

クラウド事業本部コンサルティング部のたかくに(@takakuni_)でした!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.