BixBench:Bioinformaticsタスクに対するAIエージェントのベンチマーク
FutureHouseとScienceMachineが共同開発したバイオインフォマティクス分野のAIエージェント評価ベンチマーク
2件の記事があります
FutureHouseとScienceMachineが共同開発したバイオインフォマティクス分野のAIエージェント評価ベンチマーク
OpenAIのAI4Science評価データ「FrontierScience」を実際に使ってみた試行録です。Olympiad/Research両タスクを簡易的に検証し、所感をまとめました。