活動

中大推出全球首個粵語大語言模型動態評測平台及生態系統

中大推出全球首個粵語大語言模型動態評測平台及生態系統

香港中文大學(中大)今日(10月30日)宣布推出全球首個專為粵語而設的動態評測平台及生態系統CLEVA-Cantonese。粵語是香港、廣東及其他粵語流行地區的重要語言,這個創新平台通過提供公平、動態且具參考價值的基準評估,揭示各類大語言模型對粵語的支援程度,並為研究人員及開發者提供具參考價值的分析,加速粵語大語言模型的優化及實際應用。

此項目由中大InnoHK博智感知交互研究中心與中大語言與視覺實驗室合作研發,中大禤永明系統工程與工程管理學講座教授兼博智感知交互研究中心主任 蒙美玲教授,與中大計算機科學與工程學系助理教授、語言與視覺實驗室負責人及CLEVA項目負責人 王歷偉教授共同領導。

打造粵語大語言模型評估生態系統
中大語言與視覺實驗室研發的CLEVA(Chinese Language Models EVAluation Platform),是目前公認規模最大、涵蓋最全面的中文大語言模型評估基準之一。CLEVA-Cantonese在此基礎上,建立全球首個持續演進的粵語大語言模型評估生態系統。它整合一個協作式的自動化工作流程,涵蓋四個關鍵階段:數據導入和篩選、語言模型理解、評估與反饋。這個持續循環的流程能即時提供洞見、推動模型創新、提升對粵語社群的服務質素,並產出可幫助其他低資源語言評測的研究成果。

大語言模型的粵語評估至關重要,它能提供清晰的效能指標,準確指出模型的優勢與待改進之處,從而加快大語言模型的發展。它亦支援可擴展且即時的評估方式,配合模型的快速迭代的周期,同時通過標準化任務、提示和多重指標評估,確保比較結果的可信度。

CLEVA-Cantonese致力應對建立高質素粵語基準的特殊挑戰,包括:

  • 具備評測粵語白話文的能力,即日常粵語口語的書面形式,捕捉其獨特的語言特徵,包括口語用法與俚語、與英語及普通話的語碼轉換,以及粵語拼音。
  • 將整個評估流程標準化,包括以最新數據構建具代表性的任務、採用一致提示語評估大語言模型,並選擇具參考價值的評估指標組合。
  • 通過與鳳凰衛視等數據提供者合作,持續採納反映粵語新興趨勢的最新數據,同時減少數據污染的風險。

 

王教授表示:「我們運用基於大語言模型的自然語言理解技術,輔助構建一系列多維度的評估任務。這些任務根據語言特點而設計,確保基準測試能忠實反映粵語的結構與知識的特徵。CLEVA-Cantonese標誌著一個匯聚學術研究、數據提供者與先進模型開發者的生態系統正式啟動,共同推動跨語言大語言模型的發展,並能即時惠及粵語社群。」

初步發現與持續優化循環
CLEVA-Cantonese團隊已完成首輪評估,涵蓋多個國際與本地的大語言模型,包括開源及專有模型。結果顯示,即使最新型號,仍難以完全掌握粵語細緻語義,在語法、發音及詞匯方面均有顯著改進空間。這些發現將引導下一代大語言模型增強粵語適配能力,提升其在相關任務的表現。隨著更強大的模型陸續面世,CLEVA-Cantonese將通過迭代優化評估標準,完善數據導入、模型理解、評估與反饋的循環。

蒙教授總結道:「憑藉中大的跨學科專業優勢,我們將持續拓展數據合作夥伴,建立開放評估平台供研究人員、開發者及機構使用,並進一步擴展CLEVA-Cantonese的語言、任務及口語粵語支援。我們亦會提供共享工具,促進語言學、教育、文化及相關領域的協作研究。CLEVA-Cantonese將評估提升為系統化流程,清晰呈現改進空間,引導研發與產品規劃,助力粵語在教育、醫療、公共服務及文化生活等領域獲得全面支持。」

欲了解更多關於CPII的信息,請瀏覽
電郵:contact@cpii.hk
電話:+852 3692 6600

香港中文大學傳訊及公共關係處: https://www.cpr.cuhk.edu.hk/en/press/cuhk-launches-worlds-first-dynamic-evaluation-platform-and-ecosystem-for-cantonese-large-language-models/

鳳凰衛視 http://share.fengshows.com/article.html?id=61b45770-f457-4775-8079-f2d811039e63&channelID=r06&time=1761835997.515584