自然语言处理为什么从规则转到统计的方法?

发布网友

共3个回答

热心网友

基于统计的自然语言处理是哲学中的经验主义，基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长，这种矛盾与斗争也反映在具体科学上，如自然语言处理。但理性主义还是有很多优点的，同样经验主义也有很多缺陷，算是各有所长各有所短。不过个人不赞成将“理性主义”一棒子打死的态度，就像当初乔老爷子不该将“经验主义”一棒子打死。也不赞成一些知友“理科击败了文科”这种说法。不同学科有不同学科的研究角度，只能说某些的角度在某个特定的历史时期对提高生产力“更有用”，所以重视的人更多。但“有用”不代表胜利，暂时的“无用”更不能说是科学层面上的“失败”。尤其是在当前中文自然语言处理发展还不甚成熟的时期，私以为基于统计的方法在很多方面并不完美，“理性主义”的作用空间还很大，需要更多的人去关注、助力。

热心网友

规则方法和统计方法各有优劣，并不是所有任务都一定从规则方法转到统计方法。工程实施的角度看。在实际应用中，规则方法首要一个优点就是简单、实用、可以快速work。天下武功唯快不破！在实际应用中先找个简单有效的方法能先run起来，对于项目的推动具有重要的意义。从成本的角度看。相比较于统计方法的复杂流程，构建规则系统的成本相对要低很多。以笔者的经历，有相当一部分问题，只要规则合适，几条核心规则就可以解决大部分问题了。这类问题的特点是封闭域、问题小、规则明显。比如，数字的识别、时间的识别等。从准确率的角度看。对于一些中大的问题，比如对话系统、翻译等，的确在或已经从规则的方法转向统计的方法。综上，规则方法和统计方法是适用于不同的项目，或者是同一项目的不同阶段。到底是实用规则方法还是统计方法要根据实际情况具体分析。

热心网友

在学术圈，纯“统计”方法完爆纯“规则”方法似乎已经是司空见惯的事情了，然而在业界，到底选用“统计”方法还是选用“规则”方法这事还不好轻易下结论。大家眼中的业界应用可能都是谷歌必应一类的大搜索引擎，拥有海量数据且文本涉及各个领域；而我这里要谈的业界说大不大，文本来源主要由公司的内部文件和一些订阅的行业信息构成，但说小也不小，因为他们是各类文本挖掘软件的主要购买者。他们的特点是文本主要集中在某个特定领域，且涵盖大量专有名词，若非业务人员，完全看不懂这些名词还有特定缩写。首先，对于这类公司而言，使用统计方法需要大量labelled data，而公司又往往没有labelled data。如果指派业务人员来打标签（label data），这个时间成本实在太高。相较之下，利用“规则”的方法就省事多了，先用unsupervised方法把topic modelling搞出来，再让业务人员根据topic编制规则，一开始编得粗没关系，之后再细化。然后只需要sample一些数据打打标签搞个evaluation,瞬间节省了很多工作量有木有啊。你要是问我说准确率有没有用SVM跑出来的高，那恐怕是没有的。所以在公司已经有labelled data的情况，我多半也偏向直接用“统计”方法。其次，因为这类客户文本主要集中在某个特定领域，对于Word Disambiguation的压力真心小很多。“规则”方法真心不擅长的就是Disambiguation类的问题，因为需要穷尽的可能太多了，很难一一写过来。而如果Disambiguation的压力减小了呢，使用“规则”方法产生的false positive错误的压力也会相应减少。

全部栏目

自然语言处理为什么从规则转到统计的方法?