分享好友 资讯首页 频道列表

粤语数字化里程碑!广州大学发布 AI-DimSum 多模态语料库平台

2025-12-09 01:1619660

12月6日至7日,第十届语言服务高级论坛在广州大学举行。会上,粤语语料库建设与大模型评测实验室重磅发布了其研发的 AI-DimSum 多模态粤语语料库平台,标志着在全球拥有上亿用户的粤语在数字化发展中迈入新阶段。

突破低资源困境 广州大学教授齐佳音介绍,粤语在网络世界中属于“低资源语言”。该平台围绕“数字中文建设”和“大湾区文化数字化”需求,构建了一个基于岭南文化、面向AI应用的多模态语料数据生态系统,遵循“标准先行、数据可溯、服务可用”原则。

一体化、模块化基础设施 AI-DimSum平台由语料采集、标注、大模型对接、确权检索、质量评估、管理及应用商店等七个子系统构成,实现了从数据采集到模型接入与应用发布的一体化、模块化流程。

海量语料支撑 该语料库汇聚了丰富的多模态资源,为AI训练提供坚实基础:

文本:超过100万字(涵盖新闻、文学等)。

音视频:完成3000小时高保真语音标注及1TB以上音视频资料。

影视:包含《功夫熊猫》《大圣归来》《外来媳妇本地郎》等带有粤语字幕与标注的作品。

评测:构建了超过20万道粤语大模型内容安全多模态评测题。

该平台的发布将极大提升粤语在大模型时代的应用能力和文化传承价值。

反对 0
举报 0
收藏 0
打赏 0
评论 0
高德“鹰眼守护”两轮车版上线 小牛电动率先适配助力骑行安全升级
高德“鹰眼守护”两轮车版上线 小牛电动率先适配助力骑行安全升级

0评论2026-03-312581

信任赤字:超 75% 美国民众对 AI 持怀疑态度,行业陷入“塔西佗陷阱”
信任赤字:超 75% 美国民众对 AI 持怀疑态度,行业陷入“塔西佗陷阱”

0评论2026-03-311100

高德开源ABot-M0:首个统一架构的具身操作基座模型
高德开源ABot-M0:首个统一架构的具身操作基座模型

0评论2026-03-312384

深圳首条年产能万台级人形机器人产线投用 助力产业规模化发展
深圳首条年产能万台级人形机器人产线投用 助力产业规模化发展

0评论2026-03-31881

深圳推进AI服务器产业链发展 打造光伏海上风电储能绿电直连零碳标杆
深圳推进AI服务器产业链发展 打造光伏海上风电储能绿电直连零碳标杆

0评论2026-03-252160

数据要素赋能发展:从生产革新到民生改善,开启数字经济新篇章
数据要素赋能发展:从生产革新到民生改善,开启数字经济新篇章

0评论2026-03-251755

AI技术新角逐:Claude解锁电脑直控,OpenClaw架构革新迎挑战
AI技术新角逐:Claude解锁电脑直控,OpenClaw架构革新迎挑战

0评论2026-03-252453

华为AgentArts平台4月30日公测 助力企业智能体开发效能跃升
华为AgentArts平台4月30日公测 助力企业智能体开发效能跃升

0评论2026-03-202423

从课堂到科研:高校AI教育变革启航,跨学科人才重塑未来科研图景
从课堂到科研:高校AI教育变革启航,跨学科人才重塑未来科研图景

0评论2026-03-20757

中国AI驱动发展新引擎:企业超509万家,区域集聚效应显著
中国AI驱动发展新引擎:企业超509万家,区域集聚效应显著

0评论2026-03-202736