
给 AI“补补课”:微软砸资源抢救欧洲小语种

欧洲拥有200多种语言,承载着跨越千年的文化积淀,长期以来为创意表达、商业活动、科技创新和跨境贸易提供支撑。然而,随着网络内容越来越以英语为主导,且大多呈现美式视角,欧洲的商业与文化在这种训练数据失衡的背景下面临被边缘化的风险。微软副董事长兼总裁布拉德・史密斯(BradSmith)指出:“如果人工智能无法理解欧洲的语言、历史与价值观,它就无法真正服务于欧洲的人民、企业和未来。”据了解,失衡的数据现状在模型评测中有直观体现。以开源模型Llama3.1为例,其在希腊语上的得分比英语低15分以上,在拉脱维亚语上更是低25分以上,呈现出典型的“英语顶尖、希腊语中等、拉脱维亚语垫底”的分层现象,这一模式在主流大语言模型基准测试中都有出现。
为扭转这一局面,微软将在法国斯特拉斯堡的创新中心集中专业力量,依托MicrosoftAzure平台开发和整理多语言数据集。来自微软开放创新中心(MOIC)与AIforGoodLab的团队,将与全欧洲的文化机构、学术伙伴及技术企业协作,重点扩充10种使用人数较少的欧洲语言的训练数据,包括爱沙尼亚语、阿尔萨斯语、斯洛伐克语、希腊语和马耳他语等。与此同时,微软面向公众发布提案征集令,寻找可用于人工智能开发的数字文本、转录稿及其他资料。所有获选项目将获得Azure积分,以及工程与技术支援。申请通道将于2025年9月1日在AIforGoodLab官网正式上线。在文化数字化方面,微软宣布今秋将扩展“CultureAI”项目,携手法国文化部与专业遗产数字化机构Iconem,为拥有862年历史的巴黎圣母院打造高精度数字孪生。此前的CultureAI已成功完成希腊古奥林匹亚、法国圣米歇尔山、罗马圣彼得大教堂以及诺曼底盟军登陆海滩的数字化保存。微软表示,这些新举措建立在该公司40余年的本地化经验之上:目前Windows已支持90多种语言,涵盖欧盟所有官方语言以及巴斯克语、加泰罗尼亚语、加利西亚语、卢森堡语和瓦伦西亚语等地区语言;Microsoft365的Office界面也提供30多种欧洲语言版本。通过把欧洲语言和文化资产深度融入AI与云平台,微软既希望守护欧洲大陆的珍贵遗产,也致力于为欧洲企业与公民在数字时代赋能。微软方面强调,上述行动均以“支持性”角色展开:输出开放数据、工具与专业知识,而非任何专有资产。