インフラエンジニアの隙間時間 Infrastructure Engineer's Spare Time
本稿の目的
簡単に開発出来るAIエージェントがありましたので試してみました。
少ない労力ですぐに出来ます。
結果
2024年東大理系第6問(1)(※)をAIエージェントに解いてもらいました。
(※)サービス問題らしいです…
【与えた問題】
【結論】
結果は本当の解答に近いですが、
解法がNGなので(力まかせで解いている)実際の採点は0点に近いかなと思いました。
(Reasoning step 2の判断が間違っている)
但し、モデル性能起因です(今回はGPT-4oで試行)
- AIエージェントの解答:1, -3
- 本当の解答:1, -3, -7

コード
import os
from phi.agent import Agent
from phi.model.azure import AzureOpenAIChat
# cf. https://docs.phidata.com/models/azure
agent = Agent(
model = AzureOpenAIChat(
provider = "Azure",
azure_endpoint = os.environ["AZURE_OPENAI_ENDPOINT"],
api_key = os.environ["AZURE_OPENAI_API_KEY"],
id = os.environ["AZURE_OPENAI_MODEL"],
api_version = "2024-10-01-preview"
),
reasoning = True,
markdown = True
)
task = """次の問題を解いて、日本語で解答してください。
f(x) = x^3 + 10x^2 + 20xとする。f(n)が素数となるような整数nを全て求めよ
"""
agent.print_response(
task,
stream = True,
reasoning = True,
instructions = ["ステップバイステップで解答を導出する"]
)
ご参考
GPT o1-miniだと解法まで含めて大正解
※2024/11/23時点でAzure OpenAIにo1-miniは(基本的に)デプロイ出来ないのでAIエージェントのようなAPIでは試せません。

