本站 2 月 8 日消息,谷歌旗下人工智能研究實(shí)驗(yàn)室 DeepMind 開(kāi)發(fā)的人工智能系統(tǒng) AlphaGeometry2 在解決國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽(IMO)幾何問(wèn)題方面取得了突破性進(jìn)展,其表現(xiàn)甚至超過(guò)了平均金牌得主。
AlphaGeometry2 是 DeepMind 在今年 1 月發(fā)布的 AlphaGeometry 系統(tǒng)的改進(jìn)版本。根據(jù) DeepMind 研究人員最新發(fā)表的論文,該 AI 系統(tǒng)能夠解決過(guò)去 25 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中 84% 的幾何問(wèn)題。國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽是一項(xiàng)面向高中生的數(shù)學(xué)競(jìng)賽,而 DeepMind 認(rèn)為,發(fā)現(xiàn)解決復(fù)雜幾何問(wèn)題(特別是歐幾里得幾何問(wèn)題)的新方法可能是實(shí)現(xiàn)更強(qiáng)大人工智能的關(guān)鍵。
證明數(shù)學(xué)定理或邏輯解釋定理(例如勾股定理)為何成立,需要推理能力以及從多種可能的步驟中選擇解決方案的能力。如果 DeepMind 的觀點(diǎn)正確,這些解決問(wèn)題的技能將成為未來(lái)通用人工智能模型的重要組成部分。
本站注意到,去年夏天,DeepMind 展示了一個(gè)將 AlphaGeometry2 與 AlphaProof(一種用于形式化數(shù)學(xué)推理的 AI 模型)相結(jié)合的系統(tǒng),成功解決了 2024 年國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中的 6 個(gè)問(wèn)題中的 4 個(gè)。除了幾何問(wèn)題,類(lèi)似的方法還可以擴(kuò)展到數(shù)學(xué)和科學(xué)的其他領(lǐng)域,例如輔助復(fù)雜的工程計(jì)算。
AlphaGeometry2 包含幾個(gè)核心要素,其中包括谷歌 Gemini 系列 AI 模型中的語(yǔ)言模型和一個(gè)“符號(hào)引擎”。Gemini 模型協(xié)助符號(hào)引擎,后者利用數(shù)學(xué)規(guī)則推導(dǎo)問(wèn)題的解決方案,并為給定的幾何定理提供可行的證明。
由于將證明轉(zhuǎn)化為 AI 可理解的格式存在復(fù)雜性,可用的幾何訓(xùn)練數(shù)據(jù)匱乏。因此,DeepMind 為 AlphaGeometry2 的語(yǔ)言模型創(chuàng)建了自己的合成數(shù)據(jù),生成了超過(guò) 3 億個(gè)不同復(fù)雜度的定理和證明。
研究團(tuán)隊(duì)從過(guò)去 25 年(2000 年至 2024 年)的國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽中挑選了 45 個(gè)幾何問(wèn)題,包括線性方程和需要在平面上移動(dòng)幾何對(duì)象的方程,并將其“翻譯”成一個(gè)更大的 50 個(gè)問(wèn)題的集合(由于技術(shù)原因,某些問(wèn)題需要拆分為兩個(gè))。根據(jù)論文,AlphaGeometry2 解決了其中的 42 個(gè)問(wèn)題,超過(guò)了平均金牌得主40.9 的得分。
不過(guò),該系統(tǒng)也存在局限性。一個(gè)技術(shù)問(wèn)題導(dǎo)致 AlphaGeometry2 無(wú)法解決涉及可變數(shù)量點(diǎn)、非線性方程和不等式的問(wèn)題。此外,盡管 AlphaGeometry2 不是第一個(gè)達(dá)到幾何問(wèn)題金牌水平表現(xiàn)的 AI 系統(tǒng),但它是在如此規(guī)模的問(wèn)題集上實(shí)現(xiàn)這一目標(biāo)的首個(gè)系統(tǒng)。
在另一組更具挑戰(zhàn)性的國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽問(wèn)題上,AlphaGeometry2 的表現(xiàn)也不盡如人意。DeepMind 團(tuán)隊(duì)額外挑選了 29 個(gè)由數(shù)學(xué)專(zhuān)家為競(jìng)賽提名但尚未出現(xiàn)在比賽中的問(wèn)題,AlphaGeometry2 只能解決其中的 20 個(gè)。