华南理工大学发布新成果 AI不仅能译古文还会断句

  来源:科技日报叶青,华轩2023-11-07
打印本文
核心提示:科技日报讯 (记者叶青 通讯员 华轩)古籍文献是中国传统文化的载体,但由于语言的演变,理解古籍文献的难度较大。11月4日,记者从华南理工大学获悉,该校电子与信息学院金

科技日报讯 (记者叶青 通讯员 华轩)古籍文献是中国传统文化的载体,但由于语言的演变,理解古籍文献的难度较大。11月4日,记者从华南理工大学获悉,该校电子与信息学院金连文教授所在的“深度学习与视觉计算实验室”近日发布了通古大模型、古籍文档分析与识别系统、彝文文档分析识别系统等多项成果,借助人工智能(AI)技术让古籍更易读懂,为中国古籍文物数据挖掘、知识发现、智能化开发与利用提供了技术支撑。

据介绍,团队凭借在古籍领域长期积累的丰富大数据资源,加以自动生成的对话模板,通过大模型指令微调技术训练,构建出数字人文模型“通古大模型”。该大模型可智能实现文白翻译、句读标点和古籍检索等功能,有助于让大众更便捷地了解中华传统文化。

团队还开发出古籍文档分析与识别系统,该系统集成了团队自主研发的古籍句读和文本翻译两大功能。用户只需提供一张古籍图片,系统就能自动定位并识别其中所有的文本,将识别出的文本按照正确的阅读顺序排序,随后为其添加标点符号并将之翻译为白话文。

“我们进行了算法优化,使古籍文档分析与识别系统能够应对现实场景中古籍文档可能出现的诸如书本弯曲、倾斜、文字密集以及图片分辨率低等各种挑战。”金连文介绍,该系统兼具实用性和稳健性,为推动古籍数字化工作提供了有力支持。

此外,团队还开发了彝文文档分析识别系统,该系统能自动精确定位并辨识图片中的彝文文字。该识别系统采用的彝文编码,基于团队今年早些时候与上海大学、上海合合信息科技股份有限公司联合发布的业界首个古彝文基础编码数据库打造。

(编辑:月儿)


华南理工大学发布新成果 AI不仅能译古文还会断句

 

免责声明:

1、本网内容凡注明"来源:315记者摄影家网"的所有文字、图片和音视频资料,版权均属315记者摄影家网所有,转载、下载须通知本网授权,不得商用,在转载时必须注明"稿件来源:315记者摄影家网",违者本网将依法追究责任。
2、本文系本网编辑转载,转载出于研究学习之目的,为北京正念正心国学文化研究院艺术学研究、宗教学研究、教育学研究、文学研究、新闻学与传播学研究、考古学研究的研究员研究学习,并不代表本网赞同其观点和对其真实性负责。
3、如涉及作品、图片等内容、版权和其它问题,请作者看到后一周内来电或来函联系删除。