機器學習用于對滅絕花粉化石進行分類
在從化石中破譯已滅絕生物體的進化關系的過程中,研究人員經常面臨從風化化石中辨別關鍵特征的挑戰,或者優先考慮生物體特征以便在系統發育樹中最準確的放置。神經網絡是當今圖像識別技術的復雜算法。
雖然之前利用神經網絡對系統發育樹中滅絕生物進行分類的嘗試一直很困難,但最近發表在PNAS Nexus上的一項新研究預示著一項重大突破。該模型經過訓練,可以根據已知的系統發育信息識別生物體特征并對其進行排序,并且可以準確地將新生物體(包括已經滅絕的生物體)放置在進化樹的復雜分支中。
該團隊包括伊利諾伊大學厄巴納-香檳分校植物生物學副教授 Surangi Punyasena (CAIM)、澳門大學科技助理教授 Shu Kong 和澳門大學研究生 Marc-Élie Adaimé。 Punyasena 的實驗室和該研究的第一作者。
根據阿達梅的說法,神經網絡之所以難以準確地對滅絕的生物體和活的生物體進行分類,往往是因為它們是如何訓練的。
“大多數古生物學人工智能研究通常側重于簡單的分類任務,例如區分不同的化石類型,”Adaimé 解釋道。 “這種方法在明確定義的類別范圍內效果很好,但對于不適合這些類別的數據則效果較差。想象一個僅經過訓練來對狗或貓的圖像進行分類的模型。如果向其呈現蛇的圖像,模型會嘗試將其分類為狗或貓,因為它僅限于所接受的訓練。同樣,以前沒有方法將先驗的系統發育納入模型中,因此模型無法學會理解進化或系統發育背景下的特征。我們研究的目標是創建一種新的建模方法,該方法將在系統發育背景下對圖像進行訓練。”
為了在系統發育框架內準確定位生物體,必須訓練神經網絡,不僅能夠識別不同生物體類別的定義特征,而且能夠識別系統發育共源性——生物體之間由于共同祖先而共享的衍生特征。這使得網絡能夠確定生物體在系統發育樹中的位置。
研究小組選擇將他們的模型應用于花粉和孢子的分類——花粉和孢子是在整個化石記錄中發現的普遍存在的古老實體,最早的化石可以追溯到數億年前。
研究人員首先收集了在卡爾·R·沃斯基因組生物學研究所核心設施拍攝的現代花粉和化石花粉的光學超分辨率圖像。他們使用 30 種現存(活體)羅漢松物種的顯微圖像來訓練模型。在此過程中,該模型識別了它認為對將花粉分類為不同類別很重要的特征。
隨后,這些特征與已建立的物種系統發育數據一起輸入到二級模型中,然后根據其系統發育意義重新加權這些特征。這種方法使模型能夠生成系統發育信息距離函數,適用于提供給模型的新花粉圖像。
為了驗證該模型的功效,研究人員在來自巴拿馬、秘魯和哥倫比亞的滅絕花粉的顯微標本上進行了測試。雖然確切的系統發育關系尚不清楚,但古生態學家之前根據形態特征和地理分布將花粉置于羅漢松屬中。令人印象深刻的是,神經網絡模型反映了古生態學家對幾乎所有標本的放置,強調了其利用訓練過程中學到的形態特征在系統發育背景下準確定位滅絕物種的能力。
Punyasena 指出,她的實驗室正在與史密森尼國家自然歷史博物館和史密森尼熱帶研究所的同事合作,擴大這項工作并將其應用于更廣泛的化石花粉數據集。
“國際大陸鉆探項目目前正在生產數量難以想象的植物化石材料,”普尼亞塞納說。 “充分利用這些新數據源意味著改變我們分析和解釋化石花粉的方式。作為一個社區,我們需要利用深度學習和計算機視覺的進步。這項工作表明,花粉形態中捕獲的進化信息量以前被低估了。植物物種的歷史是通過其形狀和形式來體現的。機器學習使我們能夠發現這些新的系統發育特征。”
研究人員計劃通過擴大用于訓練的圖像樣本量來提高模型的準確性和適應性。此外,他們的目標是通過整合機器學習的新興進步來確保模型保持最新狀態。 Adaimé 強調該模型在花粉分類之外的多功能性,并預見到其在對各種化石生物進行分類方面的潛在應用。
“機器學習模型可以更容易地找到信息豐富的特征,因為機器學習模型的思維方式顯然與人類的思維方式有很大不同,”Adaimé 說。 “它將能夠找到有意義但對人類來說可能不直觀的模式。這種方法的好處不僅限于花粉,我們預計這些模型也將適用于對其他生物體的化石進行分類。”
免責聲明:本答案或內容為用戶上傳,不代表本網觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。 如遇侵權請及時聯系本站刪除。