讲座概要 | David Balota教授谈语言加工中的大数据研究

发布者:王冠亚发布时间:2020-07-10浏览次数:638



【本站讯】7月1日晚,美国圣路易斯华盛顿大学教授、博士生导师David Balota做了主题为“Megastudies, Lexicon Projects, and Big Data in Language Processing”的云端学术讲座。本场讲座由中国二语习得研究会副秘书长、中国海洋大学博士生导师陈士法教授主持。讲座采用线上形式,通过ZOOM会议进行,同时在bilibili视频网站同步直播,共吸引了国内外参会者3000余名。


Balota教授首先回顾了运用大数据研究词汇表征以及加工的发展历史。二十年前,有关于词汇表征的数据研究绝大多都是利用词汇判断和快速命名等实验任务,控制相关影响因素,采集20人左右的实验数据进行分析,并通过建立隐喻模型(metaphorical model)来展示相关因素对于词汇表征的影响,最具有代表性的就是Coltheart提出的双通道模型以及Morton提出的单词产生器模型。其中双通道模型影响深远,可以解释词汇识别中的多种主效应,被引率高达4000余次。


近年来,有关于词汇识别的计算模型(computational model)得到快速发展,如Seidenberg和McClelland提出的联结主义模型(connectionist model)。该模型包含400个正字法输入节点、200个隐藏节点和460个语音输出节点,经由2833个单音节词汇训练而成,被引量高达7000余次。该模型较先前的隐喻模型,更加简洁,无需添加各种描述性词汇,解释多种通道以及规定各种规则等。此外,该模型还可用于阐释多种复杂交互的影响因素。虽然隐喻模型和计算模型都是基于因素考量建立的模型,但是还存在以下不足:1)人为选取符合相关因素的实验材料会造成部分误差;2)词汇列表语境效应会影响实验结果;3)强行将连续变量划分范畴会造成统计结果误差。


随后,Balota教授指出大型数据库(Large database)可以更好地弥补上述不足。他们科研团队建立的大型数据库英语词典项目(English Lexicon Project:elexion.wustl.edu),是第一个较为全面综合的词汇识别大型数据库,共包含4万多个真词与假词的描述性和行为实验数据,方便研究人员通过访问数据库进行虚拟运行实验,科学地选取实验材料,可靠地验证理论的真实性。该数据库主要包括如下三大主要功能:1)生成具有特定词汇特征的真词词表;2)生成具有特定词汇特征的假词词表;3)访问词汇判断和快速命名实验数据。Balota教授进一步通过具体的实验研究展示了大型数据库的用途,如确定新变量和获取变量影响等,同时指出跨语言、跨实验任务以及跨通道的大数据研究已逐渐成为一种趋势。


最后,Balota教授分享了近期关于语义表征及远距离启动的相关研究工作,主要包括:1)利用大数据检测三种不同的语义表征网络模型:向步距网络、无向步距网络和联想相关网络;2)对比LSA和word2vec两种分布模型,认为大型自然语言数据库的机器学习算法具有良好的预测性能。


讲座结束后,陈士法教授总结并高度评价了Balota教授所做的工作意义重大、影响深远。在随后的问答环节,Balota教授就讲座内容与参会师生展开了深刻讨论,并对师生提出的诸多问题给予认真回答。本场讲座在学者们热烈的讨论中圆满结束。Balota教授通过精彩的讲座带领我们开拓学术新视野,深入认识新领域,进一步推动语言加工走向科学化、大数据化、模型化。



主办 | 二语习得跨学科研究创新团队
撰稿 | 彭玉乐
编辑 | 李一凡
审核 | 潘克菊