209 research-level mathematics problems from Combinatorics, Algebra, Geometry, Number Theory, and others.
👉 math.science-bench.ai/benchmarks/
#AI #Mathematics #AIBenchmark #EpochAI #FrontierMath #OpenAI #Gemini #Grok
209 research-level mathematics problems from Combinatorics, Algebra, Geometry, Number Theory, and others.
👉 math.science-bench.ai/benchmarks/
#AI #Mathematics #AIBenchmark #EpochAI #FrontierMath #OpenAI #Gemini #Grok
Probably not. From what we can tell, it caps out below 50%.
What about throwing in *every* available model? Infinitely many times? 🧵
Probably not. From what we can tell, it caps out below 50%.
What about throwing in *every* available model? Infinitely many times? 🧵
We also conducted a more holistic evaluation of its math capabilities. 🧵
We also conducted a more holistic evaluation of its math capabilities. 🧵
FrontierMath funded by OpenAI which was never Open. epoch.ai/blog/openai-...
FrontierMath funded by OpenAI which was never Open. epoch.ai/blog/openai-...
L: https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
C: https://news.ycombinator.com/item?id=42755217
posted on 2025.01.19 at 03:50:44 (c=1, p=3)
L: https://www.lesswrong.com/posts/cu2E8wgmbdZbqeWqb/meemi-s-shortform
C: https://news.ycombinator.com/item?id=42755217
posted on 2025.01.19 at 03:50:44 (c=1, p=3)
>OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る
- https://gigazine.net/news/20241225-ai-frontiermath/
>OpenAIのo3モデルが数学の超難問データセット「FrontierMath」で25.2%のスコアを獲得した衝撃を数学者が語る
- https://gigazine.net/news/20241225-ai-frontiermath/
We gratefully acknowledge both @OpenAI and @AISecurityInst.
We gratefully acknowledge both @OpenAI and @AISecurityInst.
Seems like a big deal, Matthew Barnett from Epoch AI argued on FrontierMath's release that passing FrontierMath would be a reasonable bar for having reached AGI:
Seems like a big deal, Matthew Barnett from Epoch AI argued on FrontierMath's release that passing FrontierMath would be a reasonable bar for having reached AGI:
FrontierMathは、数学の専門家たちによって作成され、吟味された、独創的で非常に難易度の高い数百の数学問題からなるベンチマークである。数論や実解析における計算量の多い問題から、代数幾何学や圏論における抽象的な問題まで、現代数学の主要な分野のほとんどをカバーしている。典型的な問題を解くには、...
FrontierMathは、数学の専門家たちによって作成され、吟味された、独創的で非常に難易度の高い数百の数学問題からなるベンチマークである。数論や実解析における計算量の多い問題から、代数幾何学や圏論における抽象的な問題まで、現代数学の主要な分野のほとんどをカバーしている。典型的な問題を解くには、...
I just reveived an email from Humanity's Last Exam, a similar database, not restricted to mathematics, and realized that I contributed to that dataset instead!
#math #MathSky #LLM #AI
I just reveived an email from Humanity's Last Exam, a similar database, not restricted to mathematics, and realized that I contributed to that dataset instead!
#math #MathSky #LLM #AI
www.lesswrong.com/posts/cu2E8w...
www.lesswrong.com/posts/cu2E8w...
場所はバークレー、まず出されたのは、出題者自身しか解けないはずの数論や解析の超難問。ところが o4-mini は関連文献を2分で把握し、10分後にはちゃっかり正解を提示。
一年前まで「LLMは計算が苦手」と高をくくっていた専門家ほど戦慄した。ベンチマーク FrontierMath で正答率2%→20%へ急伸し、Tier4まで攻略。
研究者はAIが「Tier5=人類未解決問題」に備え、創造性教育の重要性と“証明 by 威圧”のリスクを議論した。
場所はバークレー、まず出されたのは、出題者自身しか解けないはずの数論や解析の超難問。ところが o4-mini は関連文献を2分で把握し、10分後にはちゃっかり正解を提示。
一年前まで「LLMは計算が苦手」と高をくくっていた専門家ほど戦慄した。ベンチマーク FrontierMath で正答率2%→20%へ急伸し、Tier4まで攻略。
研究者はAIが「Tier5=人類未解決問題」に備え、創造性教育の重要性と“証明 by 威圧”のリスクを議論した。
It's just a textbook-style math problem, but the conditions they place on the problems bar me from claiming my $7500, since I ask for facts, to be answered by proofs or references rather than scripts.
It's just a textbook-style math problem, but the conditions they place on the problems bar me from claiming my $7500, since I ask for facts, to be answered by proofs or references rather than scripts.
x.com/tmkadamcz/st...
x.com/tmkadamcz/st...