摘要:40岁第一次接触计算机,却成为多语种信息化领域的著名专家、带头人,他就是中国工程院院士、新疆大学教授吾守尔·斯拉木。作为中国工程院历史上第一位维吾尔族院士,民族地区信息化和智能化发展始终是吾守尔·斯拉木的关切。
40岁第一次接触计算机,却成为多语种信息化领域的著名专家、带头人,他就是中国工程院院士、新疆大学教授吾守尔·斯拉木。作为中国工程院历史上第一位维吾尔族院士,民族地区信息化和智能化发展始终是吾守尔·斯拉木的关切。
“算力已经成为推动世界经济发展和科技创新的核心力量之一。”在前不久举行的新疆维吾尔自治区昌吉回族自治州科技创新大会上,吾守尔·斯拉木表示,这一趋势将为多语种信息处理带来新的发展机遇,加快推动民族地区信息化与智能化发展。
吾守尔·斯拉木创建了维吾尔族、哈萨克族、柯尔克孜族(以下简称“维哈柯”)语言文字信息处理的理论、方法和技术体系,为国产多语种操作系统和办公套件等应用软件的研发及各领域的应用奠定了基础。他开辟了我国少数民族文字信息处理的新领域,推动我国少数民族进入数字化办公新时代。
日前,围绕我国多语种信息处理的发展现状与前景,科技日报记者对吾守尔·斯拉木进行了专访。
吾守尔·斯拉木院士 田晶娟绘
人物档案
吾守尔·斯拉木,中国工程院院士,新疆大学教授、博士生导师,新疆多语种信息技术重点实验室主任,国家语委信息技术研究中心主任。长期从事多语种信息处理、网络安全及通信、多媒体混合智能处理的数字化、智能化、多媒体化研究和学科建设。荣获国家科技进步奖3项,以及何梁何利科技奖、光华科技奖等省部级以上奖励。
信息交换和文明传播的核心
记者:您是如何与信息技术这一领域结缘的?
吾守尔·斯拉木:20世纪80年代,计算机、互联网等现代信息技术逐渐进入公众视野。它具备文字、声音、图像、影视等多种信息综合处理能力,极大地改变了人们的生活方式、工作模式以及思维方式。同时,这些技术对我国政治、经济、文化和社会发展带来了巨大冲击。
为了顺应时代发展需求,新疆大学安排我先后前往北京工业大学、上海交通大学进修计算机等相关专业。那是我第一次接触到计算机。当时,我已经近40岁。
记者:您如何想到将语言文字与信息技术相结合?
吾守尔·斯拉木:语言的产生是人类历史上最伟大的信息革命。语言是人类社会化信息活动的首要条件,而文字的创造则确保了人类文明的有效传承。
文字出现后,为了更好地传播和传承信息,造纸术应运而生,并得到进一步推广。进入近现代,电信传播技术为信息传输提供了极大的便捷。随后,信息技术崛起。利用计算机和互联网收集、加工、存储、处理、控制信息,使信息交流不再受时间和空间限制,是人类在改造自然过程中又一次新的飞跃。计算机的发明延伸了人类智力,信息技术革命成为人类文明发展的推动力。在这一过程中,我们发现,语言文字和信息处理始终是信息交换和文明传播的核心。
信息技术的发展彻底颠覆了传统的信息获取和交流方式。当我去进修时,中文信息处理已经步入了信息化时代,汉字计算机信息处理技术和汉字激光照排系统等为信息时代汉字信息处理等创造了先决条件,中文信息处理技术开始在教育、医疗、交通、通信、社会生活等各个领域大放异彩。
那时,我国少数民族语言文字信息处理尚处于空白状态,甚至连基本的信息输入输出都没有解决。如果这种情况持续下去,我国边疆地区的教育、医疗、经济、社会发展等必然会落后于时代。因此,我下决心填补这项空白,让我国维哈柯等少数民族同步进入信息化时代,为我国现代化建设作出应有贡献。
在这一理想的驱动下,我带领多民族研究团队经过多年不懈奋斗,逐步创建了维哈柯文信息处理的理论、方法和技术体系,制定了维哈柯文信息技术国家及国际标准,攻克了多语种信息多媒体化、网络化、智能化处理的关键核心技术。
记者:您如何实现多语种信息处理“从0到1”的突破?
吾守尔·斯拉木:我们团队在多语言多模态语音识别、语音合成、机器翻译、图形识别等关键核心技术及应用领域已深耕30余年,在加强少数民族语言文字的信息化、智能化、标准化规范化建设方面做了大量工作。
我们牵头制定了5项国际标准、22项国家标准,研发并推广了多种维哈柯文信息输入法、专用的编辑排版软件、智能处理软件、网络应用插件,以及维哈柯文多语种Windows系列和Linux系列操作系统本地化版本。我们还研发了多种多民族文字排版印刷系统、办公套件、中间件、电子政务系统、应用工具及平台、各类网络应用,使少数民族同胞告别铅与火,跨入电与光的时代。这些应用软件在新疆政务、司法、行政、教育、新闻出版、广播电视、互联网、通信以及社会公共事务等领域得到广泛应用,有力地促进了民族文化交流融合和繁荣发展。我也因此获得2022年度中国计算机学会(CCF)最高科学技术奖,并获得国家科技进步奖3项,以及自治区科技进步特等奖、何梁何利奖等省部级以上奖励。
同时,我们团队建设多语言大规模多层次语料库、知识库,研发多种语言、文字智能语音翻译和识别系统,保障少数民族语言文字在新兴传播载体上的有序发展,以及在经贸、物流、通信等领域的跨语言信息交流。
专家学者参观新疆多语种信息技术重点实验室。受访者供图
为人文学科发展插上智能翅膀
记者:如今,人工智能技术已经进入快速发展期。它将为语言研究带来哪些影响?
吾守尔·斯拉木:自然语言处理融合了语言学与人工智能,旨在促进机器生成、理解、阐释及推理人类语言,实现人机间的有效交流。语言智能技术的兴起与应用,对语言学、出版审查及文化传播等产生了冲击,并引发了广泛讨论。
有人认为,机器生成的内容看似流畅,但并不准确,经常出现张冠李戴的情况。而另一些人认为,虽然这些内容还不够完美,但可以帮助人们节约大量的时间与精力。
随着语言智能技术的发展,我们需要区分基于人和基于计算机的两种不同的语言理论。一方面,两者相结合有助于更好地研究语言的根本属性和规律。另一方面,探索基于机器的语言理论,可以推动人工智能技术迈向更成熟的语言智能阶段,从而产生更多更有用的语言智能产品。
当前,新一代人工智能凭借其强大的数据处理能力,有效赋能现代语言学研究,特别是在语言以及语言学数据的收集和整理、智能处理与交换等方面发挥了强大作用。此外,人工智能技术的快速发展给语言学和其他人文学科的研究带来了前所未有的机遇。抓住这个机遇,让大语言模型(LLM)等人工智能模型服务于人文学科研究,将为人文学科的发展插上智能的翅膀,使其更好地服务于社会。
记者:您如何将人工智能技术运用到多语种信息处理领域?
吾守尔·斯拉木:随着人工智能等新技术的发展,我们提出了多语种智能信息处理这一概念。多语种智能信息处理是人工智能在语言信息服务领域的关键应用。随着共建“一带一路”倡议的不断深化,加大多语种智能信息处理的研发力度显得尤为重要,特别是在国家通用语言文字推广普及、多语种多模态语言资源建设、智能处理与识别、多语言大模型应用等方面。这将进一步提升多语种语言资源保护和信息处理能力。
同时,人工智能技术的发展极大地推动着我们的研究工作,同时对算法优化、数据规模扩大、算力提升以及模型构建等提出了更高的要求。当前我们团队正在积极筹建国家级的新疆融合算力中心,采集大规模多层次的多语言数据库,研究更高效的算法来训练多语言多模态大模型,以支撑高效语言信息智能化服务。
我们团队主要利用多语言联合训练和数据对齐技术提高数据质量,通过集成学习、迁移学习等技术,将英语、汉语等资源丰富语言的训练模型参数或知识迁移到少数民族语言上,降低重新训练的成本,提高模型的泛化能力。
我们还通过共享部分网络结构和参数,进行跨语言迁移学习,减少模型的大小和训练时间,提高模型的性能。
同时,我们将文本、音频、图像等多种媒体数据融合在一起,进行认知计算处理和增程式推理,利用不同模态之间的互补信息来增强模型的表达能力,提高翻译的准确性和流畅性。
此外,我们针对不同语言的分词、词性标注、句法分析等任务,研究具有语言特异性的算法、模型及认知计算,以提高多语种处理的精度和可靠性。
维哈柯文版办公软件页面示意图。受访者供图
构建多元化人才培养体系
记者:多语种信息处理面临哪些挑战?解决这些问题的关键是什么?
吾守尔·斯拉木:少数民族语言具有独特的语言特性,我们做研究时常需要借鉴其他语言的研究成果,或者与其他研究团队开展联合攻关。在实验过程中,我们需要对比不同语言的实验结果,参考其他语言的技术指标。同时,我们还需要对算力技术进行创新,这无疑增加了研究的难度。
此外,由于我们团队的研究成果广泛应用于影视、广播、教育、医疗、文化等不同领域。针对不同的应用场景,我们需要对模型进行适当的训练和技术调整,以满足实际需求。
我们的研究也面临诸多挑战,例如,大规模多语言文本翻译、语音翻译及多模态语料数据的搜集、标注和质量管控,涵盖中亚、西亚语言的多语言大模型训练关键技术研究,基于算力网的分布式训练和部署一站式多语言交流平台建设,评测多语言机器互译效果的数据集、指标和方法的系统建设,以中文为核心的多语言多模态翻译交流系统的构建和性能优化等。这些也是我们团队继续努力的方向。
值得一提的是,多语言语料库建设尤为重要。多语言语料库建设涉及语言学、计算机科学与技术、信息与通信、社会学等多个学科领域。语料的质量、规模以及覆盖程度等,都会影响模型和处理的性能。在研究过程中,我们团队科学筛选文本语句,邀请语言学家召开论证会,然后选择在年龄、地区、性别等方面结构均衡的人群进行专业录制,保证语料质量。
记者:您认为,多语种智能信息处理未来将如何发展?
吾守尔·斯拉木:未来,多语种智能信息处理领域将面临以下几大变化。
一是跨学科知识融合的需求日益增加。多语种信息处理技术涵盖多语言语音识别、图形识别、机器翻译、声图文信息分类与检测、信息检索等多个方面。这些研究不再局限于单一学科,而是需要语言学、计算机科学、人工智能、声学、认知科学等多个学科的交叉融合,需要采用多样化的处理方法和算法。研究人员需要进行跨学科合作,共同解决语言处理中的复杂问题。
二是技术创新与算法优化的需求增加。为了提高多语种信息处理效率和准确性,需要不断引入新技术进行算法优化。
三是构建大规模多语言知识库和语料库至关重要。为了提升多语种信息处理技术的性能,我们需要构建大规模、多模态、多层次、综合型、多语言知识库和语料库系统。这些知识库和语料库系统需要包含多种语言的文本、语音和图像等数据,并需要进行标注和分类、采集和识别。
四是加强人才培养尤为关键。多语种信息处理需要培养具有跨学科知识和技能的人才,以满足该领域的发展需求。
记者:如何培养面向未来的多语种信息技术处理人才?
吾守尔·斯拉木:未来,我们需要多元化、高素质的人才队伍来支撑多语种信息处理领域的发展与创新,特别是具备语言学、计算机科学、数据科学等多个领域知识和技能的跨学科复合型人才。
为了加强这类人才的培养,我认为可以在高等教育中设立多语种信息处理相关专业或课程,通过实习、实训等方式让学生参与实际项目,从而提升实践创新能力。
高校可以加强与国际知名高校和研究机构的合作与交流,引进先进的教学理念和技术手段,鼓励学生参与国际学术竞赛,提升学生的国际视野和跨文化交流能力。高校还可以举办多语种智能信息处理相关的竞赛和活动,激发学生的创新热情。
此外,网络平台也应被充分利用,提供丰富多样的多语种信息处理相关的课程和学习资源,供学生自主学习。
【致青年科技人才】
青年科技人才处于创新、创造力的高峰期,是国家战略人才力量的重要组成部分,肩负着建设世界科技强国、实现中华民族伟大复兴的历史重任。
希望广大青年科技工作者能够始终秉持深厚的家国情怀、强烈的使命意识,牢固树立以科技创新服务国家、造福人民的思想,甘坐冷板凳、勇闯无人区、善打攻坚战,坚持面向世界科技前沿、面向经济主战场、面向国家重大需求、面向人民生命健康,把科技成果应用在国家现代化建设的伟大事业中。
——吾守尔·斯拉木
科技日报记者 杨思晨
来源:渭南科普