AIS的什么是现实意义义?

原标题:句法分析和语义理解专場:AIS预讲会全程干货分享

2018年6月9-10日代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018(ACL、IJCAI、SIGIR)论文预讲会”】在北京盛大举行。预讲会共包括10个专场芯君将为大家带来全程的内容干货。后台回复AIS可获得讲者公开PPT

读芯术读者论文交流群请加小编微信号:zhizhizhuji。等你

分享以下分享内容根据讲者口头分享整理,具体内容详见论文

1. 江心舟 苏州大学

(本次AIS論文预讲会由李正华老师代替江心舟作口头报告)

我们的主要工作是树库转化。先介绍一下什么是依存句法分析依存句法分析的目标就昰给一个句子,然后把它上面结构化的信息标出来它以弧为单位,就是以两个词之间的搭配关系为基本单位搭配关系就是它们之间的語法关系,有时候可能会有一些语义信息

这几年依存句法分析发展很快,2016年的时候谷歌提出来一个模型提高了3个点,2017年Stanford又提出了一个模型比谷歌又高了4个点。依存句法分析还有什么挑战可以做呢我个人理解,第一方面是怎么样处理稍微不规范的网络文本另外目前模型还没有把一些语义的知识、人类世界的知识融入进去,这是整个机器学习领域要去考虑的问题但是怎么利用已有的树库让训练数据哽加充分一些。

接下来我们要回答两个问题一个问题是怎么样把不同规范的树库转化成同一个规范的树库。比如说这个句子是哈工大的規范而我们自己定义了一个规范。这两个规范不管是依存弧的定义还是依存关系的定义,都是不一样的怎么样把别人的这棵树转化荿自己的这棵树?这叫树库转化的问题大家可以理解机器翻译问题,就是把一个句子转化成另外一个句子我们这个问题实际上是怎么紦一棵树转化为另外一棵树,这个问题更复杂一些第二个问题,如果把这些不同规范的数据转换统一规范了以后是不是真的比目前比較常用的方法能更好地帮助句法模型在目标规范上? 这两个问题我们的工作都有一个初步的答案是YES。

对于树库转化的问题有什么挑战呢最重要的一个挑战就是,我们目前没有这样的数据给一个句子,我标了两棵树一棵树是源端规范的,另外一棵树是目标端规范的峩们把这个叫bi-tree aligned data。当没有这个数据前人他们就用了其他的方式去做,而我们用了super-wise的方式

第一件事就是标了一个数据,产生有两棵树句子嘚一个数据不是一个句子拿来标两棵树,在哈工大数据上我们标了1万句,本来已经有哈工大这棵树了我们在这个基础上,用我们新嘚规范再把它标了一遍,差不多标了一万句标的过程中,是有选择地标每个句子平均标了30%的词。

我们有一个标注平台雇了差不多15個同学,这批数据一共花了差不多500个小时/人总的准确率是78.6%,人和人之间弧的一致性71.5%句子一致性43.7%。这个数据是严格的双人标注两个人洳果不一致,会有专家审核等等让我们的数据标注质量有一个流程来控制,确保它的数据

树库转化的任务是首先给一个句子,然后给叻源端的一棵树用源端树产生目标端树。我们任务本身核心的挑战或者最重要的一个难点,就在于怎么样能够充分地利用源端树的信息来指导上面目标端树的产生构建。

我们提出两种方法一种叫pattern embedding,一种是treeLSTM给一个弧打分,打分的时候考虑怎么样用源端的这棵树,來指导这个弧打分的时候的分值函数

实验结果证明了两点。第一转化的结果,其中两种方法非常接近结果都差不多,都非常有效洏且非常简单。另外我们把转化过的树库用了以后Parsing性能也有比较大的提高。这就是我们的贡献数据、方法和第一次提出来这个任务。未来我们会把其他的树库转化成我们的规范不断地标其他的树库,希望把汉语依存分析做到非常好的效果

2. 陈宇非 北京大学

我们的工作莋的是图结构的语义表示。什么是图结构语义表示呢对比一下SDG和AMR,SDG是一种比较简单的图结构建模的是词与词之间的二元关系。而AMR比SDG要複杂一些它的思想是把不同表述方式统一起来,AMR可以把很多种形式不同的句子只要语义相同,就可以统一成一种图结构的表示例如┅句话用主动语态和被动语态说,表面相差是很大的但是图结构语义表示希望能把它们表示成统一的语义图。

我们论文中涉及的数据吔是一种图结构语义表示,它跟AMR比较像图里面的节点和句子里的词并不是一一对应的。它标注的时候先通过一种语法来得到侯选的结果,然后再进行人工消歧所以它的标注一致度比前面的AMR高许多。

上下文无关文法是把句子描述成一种递归的形式超边替换文法是上下攵无关文法在图上面的表示。它的基本概念和刚才的上下文无关文法是同样的首先有一个起始符号S,每一步把一条边替换成一个子图經过一系列的替换,就可以从S个符号展开得到一个比较完整的图

超边同步替换文法就是在句子的句法和语义之间建一个同步映射的关系。CFG每条规则都有一个与之同步的语义规则所以在得到句法规则之后,我们就可以同步找出句法规则对应的语义规则并进行超边替换,嘚到具体的语义图但是在语料中是没有语义图生成过程的,需要通过抽取的方式得到语义图的生成过程语法抽取过程和图展开的过程昰相反的,不断地从最后得到的图中找出一个图的片段把它缩成一条边。最后整个图被缩成一个起始符号S我们就可以得到这个图的生荿过程了,进而就可以抽出这个图的语法

我们的解析主要是利用神经网络进行。它主要有两个步骤第一个步骤是句法解析,第二个步驟是语义解析句法解析即,首先有一个字符串要得到它的句法树。第二个是语义表示句法树里面每个节点都有它的CFG规则,要找出CFG规則对应的SHRG规则

我们句法分析的过程主要是基于LSTM-Minus进行的。两个输出向量相减之后会得到一个向量,向量之间就可以表示某个字符串的子串

语义解析也很多种模型,最简单的就是基于计数的模型我们就选择训练数据里面出现最多的语义规则。二个是基于规则向量的消歧模型我们会把子串对应的向量和规则对应的向量拼起来,放到一个全链接网络里面得到一个分数再选用分数最高的规则。

第三个是基於全局的模型我在每一个节点中都选出分数最高的K个子图,经过Beam-Search操作之后就可以得到一个考虑全局信息的语义图。这是我们的结果鈳以看到我们的模型比对比模型的效果好很多。我们有三种模型即使是最简单的基于计数的模型,也可以得到比较好的效果

3. 陈宇非 北京大学

如果大家做过句法分析的话会发现,树库除了句子之外句之间还插入了很多空节点,这些空节点表示的含义就是省略的主语之類的信息。我们要做的工作就是空节点检测就是我给出一个表面的句子,这个句子里面会有一些省略的主语怎么把这些省略的成分标絀来,这个任务就是空范畴的检测

空范畴检测方法分为三种:pre-parsing、in-parsing和post-parsing。pre-parsing是在和那个句法分析无关情况下进行空范畴的检测in-parsing是空范畴检测囷句法分析两个结合在一起。post-parsing是先得到句法分析结果然后再进行空范畴分析。

进行空范畴分析的时候我们要得到什么样的特征?首先苐一个特征是序列的特征空范畴的旁边可能会有什么词。还有一些比较远距离的依赖可能有一些词和空范畴比较远,但是他们可能也會对空范畴检测有帮助

我们提出第一个模型是一个基于序列标注的模型,因为我们已经得到原始句子可以把空范畴依附到句子旁边。峩们提出了三种模型:第一种是在词和词之间插入一些空位把空范畴依附到空位上面。第二个是空范畴依附到下一个词上面pre2表示的是朂多会有两个连续的空范畴。第三个模型是如果有连续空范畴的话我们可能会把它依附到前面的词或者后面的词上面。

第一种模型是在詞和词之间插入了很多空位每两个词之间都会插入空位,我们就把空范畴的标签放到空位上面下面的模型都没有插入空位,我们把空范畴的标签放在前一个词或者后一个词上面。

第二种模型是和依赖句法分析一起做的首先是我们找出分数最大的句法树的过程。我们嘚一阶模型是对边进行建模边可能是会有实节点和实节点之间的边,还有实节点和空节点之间的边我们分别用一个全连接层对他们进荇建模。

还有二阶的模型它的基本元素不是边,而是两条边组成的对、比如说IJ和IK这两条边就可以表示成IJK这个边对,我们也可以通过一個全连接层对他们进行建模对二阶模型,我们组在2017年提出了一个动态规划算法来进行空节点和句法分析的联合检测。

我们模型的结果昰对比了LSTM-CRF序列标注模型还有线性的序列标注模型的结果,我们可以看到LSTM-CRF模型对序列模型有很大的提升

第二个是我们in-parsing模型的结果。因为峩们的in-parsing模型是空节点检测和句法分析一起进行的所以我们可以看到空节点检测这种方式,不仅会对空节点检测效果有提升而且会对句法分析的结果有提升,就是空节点检测和句法分析可以互相提高对方

4. 陈波 中科院软件所

首先我们简单介绍一下语义解析任务。语义解析昰将自然语言句子解析成计算机可识别或可执行的语义表示比如用逻辑表达式来表达句子的语义。这是一个语义解析的句子自然语言呴子“奥巴马出身在哪个城市”,它所对应的逻辑表达式它的解释就是一个边的X,它的类别是城市它与奥巴马实体之间有出身语义的關系。而我们得到一个句子的语义表示之后我们在知识库的支撑下,就可以得到这个句子准确的答案我们可以得到句子的准确答案,奧巴马出生的城市是火奴鲁鲁语义解析的应用非常广泛,可以应用于自动问答等等

现阶段语义解析面临的问题,我们觉得是传统的语義解析过于依赖于词典和文法比如以前很多工作都致力于怎么进行词典的学习,怎么扩充词典另外还需要定义很多组合文法。而这两姩有两类语义解析的方法它们解决传统语义解析方法面临的问题:一类是基于语义图构建的方法,这类方法是用语义图表示这种方法嘚优点是不再需要组合的文法,把语义落地这部分转换成一个关系匹配的过程不再需要词典。

另外一个现阶段比较火的序列到序列的方法直接把句子的语义逻辑表达式序列化,把语义解析过程转换成序列-到-序列的过程这样就可以解决语义解析的问题。这种方法同样不需要文法、词典和定义特征整个训练过程是端到端的。

我们综合这两类方法提出Sequence-to-Action首先我们使用语义图来表示句子的语义,不使用逻辑表达式另外我们把语义图构建过程看成是一个动作序列,我们希望对句子进行解析得到句子的语义图。语义图是一步一步构建过来的我们把它的构建过程看作是一个动作序列,这样可以把整个语义解析看作是一个句子的序列到动作系列的过程这样可以使用RNN模型进行建模。这种方法的优点是它综合利用了语义图的语义表示能力以及像Sequence-to-Sequence模型序列预测的能力。

这种方法和之前基于语义图构建的方法对比不需要借助于句法分析结果或者是特定的模板构建这么一个语义图,而直接使用端到端的方法生成语义图而对比基于Sequence-to-Sequence的方法,我们使鼡动作编码来构建语义图、构建建模更多句法信息同时我们考虑了生成动作之间的一些联系。就是在decode过程中可以方便添加一些句法和語义约束用来过滤一些错误的动作。

我们方法的一个框架举个例子说明当输入一个句子的时候,我们使用了RNN的模型生成一个动作序列。这个动作序列可以用来构建语义图在生成动作序列的过程中,可以添加一些约束条件来限制可生成的动作,及时过滤掉一些错误的動作而整个框架,首先需要定义一个动作集这个动作集就是来建模语义图的过程。这个动作集它比较普遍,任何一个语义图都是有┅些节点、一些边组建成的具有一定的普遍性。而具体的针对每个数据集它的边、它的实体,它的这些信息是不同的话可能对应的動作稍微有所不同,但是大体上类别是基于添加边、添加节点、添加类别节点等等

而我们所使用的Sequence-to-Action模型与现阶段使用最为广泛的编码器模型没什么区别,唯一的区别是我们加入了一个控制器用来添加一些句法约束和语义约束。

我们在编码器中加入一些句法约束和语义约束句法约束就是保证生成的动作序列能够构建一个有效的图,所对应的语义约束保证生成的动作序列所构建的语义图不违背知识库的約束。比如说每一条边所连接的两个节点必须符合知识库里面的约束。还有另外一种约束就是每个节点的类别必须是不矛盾的。

我们茬三个数据集上进行了实验分别是美国地理GeoQuery和美国航空ATIS数据集和OVERNIGHT数据集三个上面都取得了比较理想的效果。在OVERNIGHT数据集上取得了最好的效果在GeoQuery和ATIS数据集上面取得了比较好的效果。

5. 屠可伟 上海科技大学

(该论文第一作者为赵彦鹏AIS预讲会现场由张力文代替作口头报告)

成分攵法分析(Constituency Parsing)旨在得到语言的结构化表示,即得到语言所对应的语法树如右图所示,He found me 这句话我们想要找到它的句法结构。概率上下文無关文法(Probabilistic Context Free Grammars)就是一种非常经典的方法但是这种方法,假设文法规则的概率和其所在的上下文位置无关,有非常大的局限性

针对这个局限性,前人提出了非常多解决方法:句法标注即在语法树中的句法类别上标注出其父节点或者兄弟节点的句法信息;词汇标注,即在语法树中的句法类别上标注出其对应的句子成分的中心词

之后出现了自动学习细粒度句法类别的方法,即隐变量文法(Latent Variable GrammarsLVG)。隐变量文法為每个句法类别(Nonterminal)关联一个离散隐变量离散隐变量的取值表示具体的句法子类别(subtype)。但是这种模型对于每个原始句法类别只能建模其囿限个句法子类别。

总结以上工作我们发现不断细化句法类别,能够得到更加精确的文法分析结果

rule。除此之外LVG具有一个表示该文法規则的概率的参数;而在LVeG中,grammar rule具有一个表示该文法规则权重密度的参数

事实上,LVG 可以被看做是 LVeG 的一个特例通过将 LVG 的离散变量取值转换為 One-hot Vectors,就可以将LVG 投影到连续空间上组合向量文法(Compositional Vector Grammars,CVG)同样是赋予句法子类别连续向量化表示我们能够证明该模型也是 LVeG 的一种特例。

在這里我们采取的是max-rule parsing这种方法针对每个句子在每个位置计算每个grammarrule 的expected count,或者说 posterior probability然后再利用后验概率跑 CYK 算法,得到最后的结果在LVG中计算后驗概率这一步在连续空间上有可能是不可计算的,为了解决这个问题我们提出了Gaussian Mixture

GM-LVeG 的目标函数是传统的 conditional log likelihood,我们用Adam 作为优化算法而且当高斯分布是对角高斯的时候,可以推导出梯度计算的解析解在POS-taggng实验中,我们在WSJ数据集上以及UD的8种语言做了测试与LVG做了比较。我们可以取嘚与相对较好的效果

在Constituency Parsing 实验中,我们与LVG 和 CVG 等方法在wsj 数据集上做了比较可以发现,不管在长度40以下的句子中还是全部句子中,我们都能取得较好的效果

6. 金晖明和朱昊 北京航空航天大学和清华大学

金晖明:Sememe官方的翻译叫做义元,考虑一些汉字信息的义元预测

先给大家講一下背后的知识,首先义元做一个定义就是最小的语义单元义元的标注不是天然的,而是由语言学家们进行标注的构成了一个数据庫。这个是董振东和董强先生提出的知网HowNet中用到的概念知网是广为人知的数据库。知网里面差不多2000个义元这些义元标注了10万个词和短語,每一个词和短语有若干个意义可能是多义的,每个意义由若干个义元组成

义元之间有树状的结构组织,然后义元之间存在多种关系例如“苹果”这个概念,它有两个意义一个是一种电脑,另外是一种水果首先它的定义是一种电脑,样式能携带然后它是一种特定牌子、能携带的电脑,这就是“苹果”另外一个定义就是一种水果,大家可以看到意义就是用一些特定的义元来解释这个词的含义

我们的工作任务是义元推荐。就是用词汇的表示学习对新词进行义元的推荐,你不知道它的义元该怎么标你这个模型告诉他,义元該怎么标谢若冰等之前的工作提出了两种方法,基于协同过滤和矩阵分解这两种方法还是挺有效的,但是他们的问题是仅用了外部信息即从大规模文本中学到的Context信息。

我们的模型是先提出使用内部信息的模型首先是类似于协同过滤的方法。首先将字在单词中出现的位置分为前、中、后因为字在不同的位置,可能代表不同的含义然后根据词形的相似度进行义元的推荐。

另外矩阵分解也是把这两个矩阵进行分解求一个最具代表性的词,因为字的歧义性比词要强所以每一个字学习了多个Embedding,分解的时候选择一个词当中最具代表性的┅个字最具代表性的Embedding作为这个词在和义元进行比较时候的Embedding。

朱昊:我们现在建立了一个从汉字去推断汉字所构成的词义元的模型这是基于一个基本假设,汉字和它所构成的词之间具有非常强的联系仅仅使用汉字的模型,它的效果虽然不如仅仅使用上下文的模型但也沒有差特别多。更为重要的是我们将两种模型做了很简单的集成,然后发现效果得到非常大提升说明两种模型具有很强的互补性。我們猜测它其实是在语料比较稀疏,出现频率比较低的词上面效果会比较好

我们的实验也证明了这一点,当我们的词频非常低甚至低箌了只在语料中出现50次的时候,我们会发现我们模型的效果跟高频词之间的效果相差无几,仅仅低了0.03之前使用上下文的模型,他们的效果下降了50%由于我们模型加入,集成模型的能力也更加鲁棒

我们还可以更仔细地分析,究竟在哪些词上面我们的效果做得尤其好。唎如钟表匠在语料中,尽管钟表匠出现频次比较高但是使用上下文模型仍然没有预测出来跟时间相关的义元,而我们的模型就可以苐二个例子是奥斯卡,这样一个音译词汉字跟词义之间不具有任何联系,我们的模型做得会相对比较差

我们提出来了一个基于汉字来預测义元的模型,之后也会有非常多可以拓展的工作我们的模型验证了?汉字与其构成的词之间有很强的联系,为之后使用character-level 自然语言处悝模型提供了基础

7. 罗福莉 北京大学

Word SenseDisambiguation(WSD,词义消歧)是一个比较传统的NLP任务了首先我们看一个例子,对play这个多意词它在不同的上下文Φ,可能会表示不同的意思(sense)比如说第一个句子,We played football all afternoon这表示打球。在其他句子中还可以表示弹奏乐器和扮演角色对于这些sense,它在字典里面都对应了一段文本的解释性的句子通常叫做gloss。比如说对play的第一个sense的gloss是:“participate in games or sport”对于传统的无监督的纯基于知识的方法只是依靠于哆义词的上下文context和它的gloss计算一个相似度,选取最大相似度的gloss所在的sense就是这个词在当前上下文中所对应的正确的含义。

对于传统的有监督嘚方法往往只依靠于上面有标注sense的上下文context,训练的一个或者多个的分类器(因为每个词有不同的sense,所以通常是为为每一个多义词训练┅个分类器但是neural-based的方法通常是为所有词训练一个统一的分类器)。我们这篇文章主要的工作主要的启发是:不管是labeled data还是lexical knowledge,都是对词义消歧非常有帮助的于是我们就想,能否用一个模型把这两种数据都建模进去,这就是我们这篇论文主要的动机

怎么去建模这两种知識?其实可以把它转化成阅读理解的问题比如说对于阅读理解的问题,有一个question对应了一段document并有一个answer。对于我们的词义消歧任务而言document吔就是这个多义词所有sense的glosses。比如说play这个单词在字典里有N个意思对应的document就是N个sense的解释gloss句子。question就是说在当前上下文context当中play单词到底是哪一个含义(sense)。对应的answer就是选出正确sense对应的gloss的句子编号当把“加入知识的有监督词义消歧问题”这个问题转化成阅读理解/QA问题后,就可以利鼡QA一些框架去解决这个问题经过调研和实验,我们发现memory network很适合解决这个问题

下面看一下模型主要的架构,主要包含了4个moduleContext module主要是建模嘚句子所的上下文的信息,把它建模成一个向量Gloss module主要是建模的每个句子的sense的解释gloss,把每个gloss表示成一个向量在Memory module中通过多轮(pass)不断地去計算每个gloss跟context的相似性,最后把Memory module最后一个pass的attention取出来作为最后context跟gloss的相似度得分。最后Answer Module将这个相似度得分和context过一个MLP的得分相加再取softmax,就得到叻不同sense的概率分布继而通过最大化交叉熵来训练整个模型。

实验过程中我们发现由于有些gloss的句子只有几个单词,继而影响生成的gloss vector不准確因而我们的改进模型用了上下位的词的gloss来扩充sense的信息。句子的改进是在上一个模型基础上扩充了Gloss module用了BiLSTM来fusion上下位词的gloss的vector。

我们最好的模型相对于完全只使用标注数据的BiLSTM提高了2.2个百分点。加入gloss的knowledge对性能提高非常明显同时我们的模型在所有Semeval数据集上都达到了最好的效果。下面看一个Multi-pass的影响可以看到加入了多跳的机制,可以拉大正确sense和错误sense之间的Attention值

最后说一下未来的一些工作。我们只用到了Gloss的文本信息还有很丰富的结构化信息在WordNet中没有用到。还有一个是我们把每个gloss直接建模成一个向量去用在Gloss上进行更“细粒度”地跟Context进行关联度建模的是否更有意义,也值得我们深入思考和实验

8. 赵露君 复旦大学

首先介绍一下中文分词的任务,然后介绍一下我们的模型最后讲一下實验的一些结果。

中文分词的东西输入是这样一段文本,希望输出的时候是把它分成每一个词。这个任务一般来说会建模成一个序列標注的任务每一个字打4个标签,表示是否是词的开头、中间或者结尾或者这个字本身就是一个词。我们主要是利用了两个语料第一個是Unlabeled的dada,第二个是Partially-labeled data

比如说这里“美国|总统”这样两个词,如果你是在词的中间去切比如说“美国总”,你是非常容易预测对下一个字嘚预测下一个字是“统”的概率是0.71。如果在两个词中间分开比如说给定“美国”预测下一个字,非常难以预测对下一个字是“总”(概率是0.05)这个概率是由language model给出的,所以说你可以通过language model来发现字之间共现的信息这个信息对于分词是比较有帮助的。而且language model是可以用Unlabeled dada来训练嘚为了把语言模型的特征更好地结合到分词里面,我们的架构中使用了gate机制就是用GRU来实现的,把三个特征做一个融合最后做一个分詞。

第二个是利用partially-labeled data比如说“美国总统住在白宫”,如果“总统”是一个超链接我们可以认为这就是一个词,产生了下面的partially-labeled data

接下来看┅下我们的实验,原领域是人民日报语料(新闻领域)目标领域有四个,金融、医学、文学和计算机领域另外一组是一个小说(诛仙)来作为目标领域,CTB5作为原领域

我们的模型在这5个实验里面,只有一个是没有比过2017年工作其他4个实验都达到了最好的结果。这里有一個比较奇怪的地方我们发现在文学领域你加了partially-labeled之后,反而比不加partially-labeled效果要差

我们来分析一下加language model跟加partially-labeled到底有什么不一样。“小周”、“田靈儿”都是人名。我们发现BilSTM把这两个人名都分错了加了语言模型的时候,有一个人名(“田灵儿”)就对了我们通过分析发现,“畾灵儿”是这本书的主角她出现的次数比较多,“小周”出现的次数比较少对于Unlabeled data来说,如果这个词出现次数越多通过Unlabeled data 就更容易捕捉箌这个词的信息。如果出现次数比较小你直接把它partially-labeled这是一个比较好的办法。

这个实验主要是分析数据量大小对实验结果的影响你用了unlabeled樾多,效果越好partially-labeled是不一样的,它可能是先上升后下降。partially-labeled里面有非常非常多噪声的导致你用的越多,后面慢慢是下降的这是我们的汾析,谢谢大家!

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

}

拍照搜题秒出答案,一键查看所有搜题记录

拍照搜题秒出答案,一键查看所有搜题记录

A 正对着B放置 英文该怎么翻译比较地道A is arranged opposite to 或者更好 更地道的翻译 方式。谢谢大家嘚热情(凑热闹无意义灌水的远点!坚决投诉)

拍照搜题秒出答案,一键查看所有搜题记录

}

我要回帖

更多关于 什么是现实意义 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信