计算机外语可别再这么学了,来看看我的

先说结论,语法重要,但是在学习上不是必要的。

某种意义上讲,人类的自然语言对于计算机就是外语。在看过它这一路的学习历程后,我真觉得有点相见恨晚。计算机在理解自然语言的路上可奋斗了不是一年两年了,物种间的学习难度是史诗级的——为了让一个硅基生物理解人的语言,科学家们可谓是呕心沥血。

以《华尔街日报》中的这个句子为例:美联储主席本·伯南克昨天告诉媒体亿美元的救助资金将借给上百家银行、保险公司和汽车公司。按照语法,它可以拆解成:主语

动词短语

句号其实主语“美联储主席本·伯南克”还可以分解成两个名词短语“美联储主席”和“本·伯南克”,前者修饰后者。对于动词短语也可以做同样的分析。任何一个线性的语句,都可以被分析成一棵二维的文法分析树(ParseTree)。

不仅如此,要想通过文法规则覆盖哪怕20%的真实语句,也需要几万条的文法规则(不包括词性标注的规则)了。而且这些文法规则写到后来甚至会出现矛盾,为了解决这些矛盾,还要说明各个规则特定的使用环境。就算是专门研究语法的语言学家也要崩溃了。想象一下,如果要让计算机分析完一整篇文章,这会是多么大的一个工作量。运算能力、记忆力强如计算机都很难通过解析语法来识别语言,何况我们血肉之躯的人类学习外语呢?我们人类的电脑明明是更喜欢的是系统1的运作模式啊。(关于人类大脑的运行偏好,可以参考丹尼尔·卡尼曼《思考快与慢》的阐释,概括起来就是“系统1的运行是无意识且快速的,不怎么费脑力,没有感觉,完全处于自主控制状态;系统2将注意力转移到需要费脑力的大脑活动上来,例如复杂的运算”。)

那么计算机上是如何解决语言学习问题的呢?这里就不得不提到科学家贾里尼克及其团队的贡献。

限于篇幅直接上结论:他们根据俄国数学家马尔科夫(AndreyMarkov)提出的马尔科夫假设极大地减少了计算机统计前后句子合理出现概率的运算量——判断一个词的合理出现概率不用统计它前面所有词的概率,而只需判断它前面那个词的概率Wi-1,即由下图:

简化成了下图:

这样的简化使得判断语料库(Corpus)中每个词的合理出现概率变得简单很多,数学模型展现出了它在解决复杂语音识别和机器翻译上远超语法和人工智能的优势(实践证明计算机模仿人的思维模式是学不会外语的,结论可见《数学之美》P18)。

当然,要实现现在计算机能够提供给人类的服务,以上内容是远远不够的,但是这些都为实现高水准的复杂语音识别、机器翻译打下了坚实的基础。

那么,了解这些对于正在学习外语的我们有什么可以借鉴的么?

我想,首先,不要再把注意力放到学习语法上了,不然就不会有一大部分人不喜欢学外语了。有哪个人喜欢天天背语法规则呢?

其次,现在发达的互联网能够为我们提供非常多高质量的母语信息,虽然很多学习外语的人没有母语环境,但是我们可以自己搜索资料,坚持向自己“投喂语料”,并建立自己所需要的高频词汇和语句模型(或者使用一些相关的英语书或英语学习APP)。比如在体育领域的人和在科研圈的人的高频词句肯定是不一样的。

既然这样学习外语,计算机已经亲测有效,那么我就斗胆试试吧。后面的文章我会慢慢更新实践效果。



转载请注明地址:http://www.1xbbk.net/jwbls/8245.html


  • 上一篇文章:
  • 下一篇文章:
  • 网站简介 广告合作 发布优势 服务条款 隐私保护 网站地图 版权声明
    冀ICP备19027023号-7