【本站讯】2026年4月15日上午,复旦大学文科资深教授、博士生导师,国务院政府特殊津贴专家,国家社科基金重大项目首席专家刘海涛教授应邀在中国海洋大学崂山校区外国语学院主讲“海大人文讲坛”,作题为“语言数据何以涌现语言智能?”学术讲座。讲座由中国海洋大学杨连瑞教授主持,陈士法教授、陈颖教授等教师和学院博士生、硕士生60余人参加了讲座。

讲座围绕“语言数据如何涌现语言智能”这一核心问题展开,聚焦大语言模型快速发展背景下语言学研究的理论定位、方法转向与学术机遇。刘海涛教授指出,当前值得深入追问的,不只是人工智能是否“会用语言”,更在于语言数据中究竟蕴含着何种可计算、可迁移、可解释的规律,从而支撑模型形成较强的理解与生成能力。刘海涛教授强调,理解语言智能涌现机制,需要重新回到真实文本,回到语言的概率性本质。
在理论脉络上,刘海涛教授回顾了人工智能从规则驱动到数据驱动的发展历程,认为大语言模型的突破,实质上促使语言学重新审视语言系统中的分布规律与结构模式。他强调,语言研究正在经历由“制定规则”转向“发现规律”、由“解释个体直觉”转向“建模群体行为”的方法论转型。语言并非无序堆积的符号集合,而是一个具有概率性特征的复杂适应系统,在词汇、句法、语义乃至更高层级上呈现出明显的概率性、分布性和网络性特征;正是这些在大规模真实语料中反复出现的模式,为语言智能的形成提供了可观察、可分析的基础。大语言模型带来的冲击并不只是技术层面的,更是知识观层面的:新技术重新定义的未必是“智能”本身,而更可能是“知识”的获得、表征与组织方式。也正因此,刘海涛教授将数智时代智能生成的链条概括为“数据→模式→知识→网络→智能”,并指出语言研究者可以重点发力的,正是从语言数据中发现模式、从知识结构走向网络组织这两个关键环节。

围绕这两个关键环节,刘海涛教授系统展示了计量语言学和数据驱动语言学的若干研究路径,包括词频与词长、句长分布、词向量表征、依存关系、依存距离最小化以及语言网络等。从计量语言学视角看,这些路径都建立在真实语料的统计分布与结构关系之上,体现了从语言数据中提炼可验证规律的研究取向。对二语习得研究实体即中介语研究而言,词频、词长、句长、依存关系、依存距离及句法网络等指标,也为考察学习者语言的结构组织、发展水平及跨语言差异提供了可量化、可比较的分析框架。与此同时,刘海涛教授还从数据驱动语言学视角介绍了相关定量分析工具及其应用思路。他指出,数据驱动语言学并不只是“用数据做分析”,而是立足真实语言数据,将语言视为一个人驱复杂适应系统,从语言的线条性与系统性出发,在“数基”与“数驱”双轮驱动下,结合系统科学和网络科学方法,探究语言的线性规律、结构模式及其与人工智能之间的内在关联。围绕这一思路,刘海涛教授进一步展示了从线性词链、依存关系到语言网络的一体化分析路径,说明数据驱动方法不仅能够服务语言学研究,也能为外语教学、二语习得研究和跨语言比较研究提供更具解释力的量化框架。此外,结合多语种研究成果,刘海涛教授指出,依存距离最小化并非局部现象,而是与人类语言加工密切相关的重要规律。由依存结构进一步拓展到语言网络分析,则有助于将语言系统作为复杂适应系统加以考察,从而在更大范围内揭示语言组织的普遍机制。
在互动交流环节,现场师生踊跃提问、积极研讨。刘海涛教授对各类问题逐一作出系统回应与深入浅出的解答。交流结束后,杨连瑞教授对整场报告进行总结与点评。他指出,刘海涛教授的讲座立足国家战略需要、问题意识鲜明,研究范式科学,具有极强的原创性特点,对于我国语言学及应用语言学研究以及其他哲学社会科学学科研究和创新具有重要指导价值。我国二语习得研究需要充分借鉴这些研究方法,以便于进一步揭示中国人学外语和外国人学汉语的跨语言、跨文化普遍规律。

专家简介
刘海涛教授现为复旦大学文科资深教授、外国语学院博士生导师,国务院政府特殊津贴专家,国家社科基金重大项目首席专家。主要研究方向为数据驱动语言学、计算认知科学、数字人文、语言规划,兼任《中国社会科学》等多家重要学术刊物编委。刘教授以多种语言在国内外近百种文、理、工类学术刊物发表论文400余篇,连续12年入选爱思唯尔“中国高被引学者”榜单,其发表论文和众多原创性观点在22个学术门类的学术研究中被广泛引用,在复杂系统科学、认知科学、心理学、信息科学与人工智能等领域产生持续影响。10余项研究成果获教育部或省级优秀社会科学成果奖励,是国内外数字人文与语言数据科学领域的领军学者。
通讯员:王智红
审定:陈颖

