自然语言处理为什么从规则转到统计的方法?

发布网友

我来回答

3个回答

热心网友

基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。但理性主义还是有很多优点的,同样经验主义也有很多缺陷,算是各有所长各有所短。不过个人不赞成将“理性主义”一棒子打死的态度,就像当初乔老爷子不该将“经验主义”一棒子打死。也不赞成一些知友“理科击败了文科”这种说法。不同学科有不同学科的研究角度,只能说某些的角度在某个特定的历史时期对提高生产力“更有用”,所以重视的人更多。但“有用”不代表胜利,暂时的“无用”更不能说是科学层面上的“失败”。尤其是在当前中文自然语言处理发展还不甚成熟的时期,私以为基于统计的方法在很多方面并不完美,“理性主义”的作用空间还很大,需要更多的人去关注、助力。

热心网友

规则方法和统计方法各有优劣,并不是所有任务都一定从规则方法转到统计方法。工程实施的角度看。在实际应用中,规则方法首要一个优点就是简单、实用、可以快速work。天下武功唯快不破!在实际应用中先找个简单有效的方法能先run起来,对于项目的推动具有重要的意义。从成本的角度看。相比较于统计方法的复杂流程,构建规则系统的成本相对要低很多。以笔者的经历,有相当一部分问题,只要规则合适,几条核心规则就可以解决大部分问题了。这类问题的特点是封闭域、问题小、规则明显。比如,数字的识别、时间的识别等。从准确率的角度看。对于一些中大的问题,比如对话系统、翻译等,的确在或已经从规则的方法转向统计的方法。综上,规则方法和统计方法是适用于不同的项目,或者是同一项目的不同阶段。到底是实用规则方法还是统计方法要根据实际情况具体分析。

热心网友

在学术圈,纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了,然而在业界,到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎,拥有海量数据且文本涉及各个领域;而我这里要谈的业界说大不大,文本来源主要由公司的内部文件和一些订阅的行业信息构成,但说小也不小,因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域,且涵盖大量专有名词,若非业务人员,完全看不懂这些名词还有特定缩写。首先,对于这类公司而言,使用统计方法需要大量labelled data,而公司又往往没有labelled data。如果指派业务人员来打标签 (label data),这个时间成本实在太高。相较之下,利用“规则”的方法就省事多了,先用unsupervised方法把topic modelling搞出来,再让业务人员根据topic编制规则,一开始编得粗没关系,之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高,那恐怕是没有的。所以在公司已经有labelled data的情况,我多半也偏向直接用“统计”方法。其次, 因为这类客户文本主要集中在某个特定领域,对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题,因为需要穷尽的可能太多了,很难一一写过来。而如果Disambiguation的压力减小了呢,使用“规则”方法产生的false positive错误的压力也会相应减少。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com