笔趣阁 > 科幻小说 > 科技入侵现代 > 第67章 你们能比我更懂机器翻译(5k)
    “教授,你不是做语言翻译的,语言是规则的游戏,概率这太不靠谱了。”保罗·加尔文还想再挣扎一下。


    当然他确实也不信翻译和统计学能扯上什么关系。


    词语之间一一对应。


    英文单词和俄语单词一一对应,直接直译,扩充语料库。


    在当时的思维里,这才是正道。


    也就是所谓穷举法。


    把所有的词语做好一一对应之后,自动翻译也就实现了。


    统计学,概率游戏,不谈如果林燃是对的,他们的无能会暴露无遗,光是林燃提到的改进原理从直觉上来说就是错误的。


    简单来说,反直觉。


    就像在GPT大模型出来之前,大家都觉得算法最重要。


    GPT出来之后,大家开始都一窝蜂力大飞砖。


    等到deepseek的时候,好像算法有点用。


    哪怕是顶级的研究人员,也会有盲从的问题,会有迷茫、找不到方向、走不出来的情况。


    在这个计算机的混沌年代,会这样再正常不过了。


    “精确?精确意味着出错,现在的计算机远远达不到精确这一点。


    你们难道不清楚,你们在54年之所以演示出了良好的效果,是因为那些俄语句子是你们精挑细选出来的。


    实际自然语言的复杂性要远超你们预期。


    你们只做了语料库的扩展,规则覆盖都没有做,上下文依赖处理也没有。


    你们能比我更懂机器翻译?”


    林燃怒吼道:“你们做了九年都没有进展,现在立刻马上按照我说的去做!”


    林燃的地位、实力和权力摆在这,他们根本没有拒绝的选择。


    沃森会信林燃就不说了,毕竟深蓝项目才结束,国防部的麦克纳马拉那更是林燃说什么就是什么。


    你们这帮搞计算机的能比数学大师更懂计算机?


    林燃在博弈论和统计学上展现出来的风采,麦克纳马拉还没忘呢。


    IBM的CEO支持林燃,国防部部长支持林燃,乔治敦大学的研究团队只能被按在地上摩擦。


    “我们要做的一共五点,优化算法和规则设计,扩充语料和词汇,改进数据处理的效率,引入统计方法和硬件最大化利用。


    其中改进数据处理效率和硬件最大化利用由IBM方面负责。


    另外三点则由乔治敦大学的成员们负责。


    我们先来谈优化算法和规则设计。


    你们一直的问题在于,你们对于规则集的扩张没有引入更加细化的句法规则。


    因为存储有限,你们觉得扩充对照词汇库就够了。


    实际上句法规则显得更加重要。


    你们需要做到,引进常见的高频句型。


    对上下文进行依赖处理。使词汇翻译考虑前后词,通过有限的上下文窗口来减少歧义。


    比如свет同时有光和世界的意思。


    这个完全可以根据前词判断是光还是世界。”


    沃森弱弱提醒道:“教授,你还会俄语啊?”


    林燃一副理所当然的样子:“当然,我都和科罗廖夫见了两面,我不会俄语怎么和他交流的?


    我同时会俄语、德语、英语和汉语。”


    多语言大师的身份,给林燃的理论增添了几分可信度。


    在这个时代,科学家们会几门语言并不奇怪。


    当然一些敏感部门会提高对你的怀疑。


    以前面提到的约翰·麦卡锡为例,他就精通俄语,从小接受俄语教育长大,尽管他出生在阿美莉卡。


    “另外翻译过程,应该是模块化设计,而不是简单的映射关系。


    它应该分成预处理、翻译、后处理三部分。


    预处理包括了分词和词形还原,翻译才是词典的映射,后处理是对语序进行调整。


    这样来降低单次计算的复杂度,提高规则的复用率!”


    林燃的话给了在座研究团队的成员们非常多的灵感。


    就好像之前一直陷在百越的丛林里找不到出路,而现在天上出现一道光指引他们怎么样才能走出丛林迷宫。


    大家都有点迫不及待去尝试了。


    所有研究人员都疯狂在笔记本上记录下林燃所说的。


    虽然不确定教授的方法是否管用,但有路总比之前没有好。


    再者,如果你不好好记下来,到时候被开除只是教授一句话的事。


    “好了刚才我们讲了一些简单的内容,现在才是最难的。


    因为IBM的机器不是那么强大,我们只能引入一些比较简单的统计学方法来提高我们翻译的准确度。


    我把它叫做基于频率的词对齐。


    这也是我们引入统计模型的核。


    我们先要手动分析平行句子,标注俄语词或短语与英语翻译的对应关系。


    俄语句子Мыговоримомире


    英语翻译:“We speak about peace


    对齐结果:“мы”对应“we”


    “говорим”对应“speak”


    “о”对应“about”


    “мире”对应“peace”


    然后我们需要对这种对齐的频率进行统计。


    统计每个俄语词或短语在英语中的对应翻译出现的频率。


    例如,在语料中,“говорим”在80%的句子中翻译为“speak”,20%翻译为“talk”。


    这样对于我们就可以构建概率表了。


    将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。


    当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。


    另外就是统计相邻词的共现频率。мы经常与говорим一起出现,对应We speak,机器在翻译的时候则优先选择这个组合。


    通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!”


    林燃从统计学的角度给他们好好上了一课。


    不过这只是一个开始。


    在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整、尝试和优化。


    不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。


    前面讲的优化算法和规则设计什么的,他们感觉有道理,但判断不了具体实践是不是真的管用。


    但这统计学方法的引入,光靠想象就知道,能够显著提升乔治敦翻译机器的效果。


    当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。


    加尔文放下笔记本,叹了口气说:“利昂,我们真的是蠢货吗?”


    今天听完之后,加尔文都要怀疑人生了。


    林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。


    一整个团队差不多快十年的研发思路,不如林燃一下午的干货多。


    加尔文已经怀疑人生了。


    “教授的想法不是超前,而是太实际了。


    你会感觉天马行空,但实际上结合在一起想想,又会觉得无比的实际。


    哪怕现在还没开始,光是从教授提出的框架,我都能想到,采用这套完整方案对乔治敦翻译机器升级后,它的效果会有多好。”加尔文接着感慨道。


    现在他终于知道为什么NASA的研究人员和工程师能容忍林燃的毒舌了,差距太大,心服口服。


    尤其统计相邻词汇共现频率,这并不难想到,但他们就是想不到。


    而用统计方法处理歧义场景,增加统计学算法,这个就他们连想都想不到。


    多斯特尔特转过头,微微苦笑道:“我也一直在琢磨。他提出的统计方法,听起来像是天方夜谭,但结果摆在眼前。


    我估计了一下,乔治敦翻译系统在教授的指导下,质量至少能提升一大截。


    我们不需要精心准备短句,它可以应用在更广泛的场景,而不是局限在军事领域。”


    加尔文点点头:“是啊,我一开始还不信,语言这种东西明明是规则驱动的,怎么能靠统计解决?可他用事实让我闭嘴了。


    不愧是教授,教授对于本质的洞察力是跨越领域的。”


    多斯特尔特沉思片刻:“你说的没错,感觉就好像他能看穿机器翻译的本质。


    也许这是数学训练带来的好处,我怕自己再和教授多呆一段时间,我都想去念一个数学博士了。”


    加尔文惊讶地看了他一眼:“数学博士?别开玩笑。”


    多斯特尔特认真地说:“我没开玩笑。


    如果数学真的能够帮助我们更好的洞察本质,我觉得去念一个统计学的博士未尝不可。”


    加尔文沉默了一会儿,笑道:“如果你去,我也去。”


    多斯特尔特举起啤酒都要溢出的酒杯:“为教授干杯!教授将给我们带来胜利!”


    加尔文笑着回应:“干杯!不过教授的脾气,如果教授能温和一点就好了。”


    另一边,IBM的两位工程师卡斯伯特·赫德和彼得·谢里丹也对林燃佩服的五体投地。


    卡斯伯特揉了揉太阳穴,问:“彼得,你觉得教授的统计模型真能行吗?”


    彼得放下笔,笑着说:“卡斯伯特,我得坦白,一开始我完全不看好他,可现在我彻底服了。教授提出的方法不但让IBM 7090的性能发挥到了极致,而且能让翻译从混乱的状态至少有了概率做支撑”


    卡斯伯特点头:“我看乔治敦大学的那帮家伙也这么认为的,你没看到加尔文的态度从一开始的质疑到后来听的无比认真。


    教授的算法优化得太完美了。”


    彼得苦笑:“魔法吗?作为这个时代最厉害的数学家之一,也许没有之一,统计学对教授而言也许只是简单的数独游戏罢了。


    只是我没想到教授能把概率论和语言学结合得如此巧妙,我以前从没想过机器翻译还能这么玩。”


    卡斯伯特好奇地问:“你说教授精通俄语,他今天那几句俄语,可是标准的不能再标准了。


    同时还横跨多个领域,别说IBM,整个阿美莉卡恐怕也没有人能搞出这样的方案。


    教授会不会和苏俄有关?”


    彼得无语道:“苏俄人会让教授呆在阿美莉卡?


    要是我是尼基塔,我不可能让教授这样的人才呆在白宫。


    哪怕能从NASA获得技术机密,但无论获得多少技术机密,恐怕都不如教授本身有价值吧。


    而且你有没有想过,如果教授没有在NASA,而是在莫斯科和科罗廖夫联手,你能想象这个场景下,阿美莉卡能赢得太空竞赛吗?”


    卡斯伯特只是想了想,就马上摇头:“绝对不可能。”


    “所以,如果教授和苏俄有关系,怎么可能呆在阿美莉卡。


    他需要做的第一件事恐怕就是在莫斯科主导载人登月。”彼得笑道。


    科学家通俄有可能,但拥有影响平衡能力的科学家通俄又不太可能。


    如果说他们只是佩服于林燃的学术造诣,那沃森就是全方位的佩服了。


    和约翰·摩根类似。


    不过沃森佩服的点和约翰·摩根又有所不同。


    “教授,你是如何想到要通过展览馆的方式来打造企业形象呢?”沃森举起红酒杯,面带微笑。


    时代广场边的深蓝展览馆给IBM赢得了巨大的声望。


    本来时代广场一直以来都是纽约地标式的建筑,几乎每个到纽约的游客必打卡的景点。


    而深蓝展览馆以一种不属于这个时代的风格吸引了所有人的眼球。


    结合里面全球仅此一份的人工智能国际象棋,能够自动和人对弈。


    给当下民众的震撼是前所未有的。


    阿美莉卡企业通过公开展出的方式展示自身科技实力、宣传自家科技产品的传统由来已久,这样的传统可以一直追溯到英格兰时期。


    无论是最早斯蒂芬的火车还是后来的轮船,英格兰人都是召集民众,在报纸上大肆宣传。


    而阿美莉卡最早最成功的应该是爱迪生的灯泡,后来贝尔的电话也是经典案例。


    但他们都只是瞬间的,只有那一个时刻,给民众留下的印象要随着产品进入人们日常生活,他们才会对企业、对品牌有一个更深的认知。


    而深蓝展览馆的存在,每一个去过的民众都会对那深蓝和黑色线条组成的场馆印象深刻。


    IBM=人工智能=高科技的印象刻在了每一个参观过的民众的心里。


    这对IBM都不仅仅是企业形象和人工智能捆绑这一点好处,这几乎已经奠定了,后续只要白宫下定决心要在人工智能领域和苏俄争个高下。


    那供应商将没有别的选择,只有IBM。


    等于林燃的建议给IBM凭空送来一个全球最大客户,还是动辄数十年打底的长期订单。


    约翰·摩根旗下的通用航天从NASA手里拿到订单,好歹还给了林燃股份,沃森这可是什么都没付出。


    别说林燃内涵他是蠢货,就算林燃直接指着他的鼻子这么说,他也只会说是是是,我是蠢货。


    包厢内,服务员悄然退出,留下安静的交谈空间。


    “因为我觉得像深蓝这样的人工智能,应该给大众留下足够深刻的印象。


    而不只在IBM内部展示。


    至于为什么要找艺术家来负责设计,一个普通的剧院怎么配得上深蓝呢?”


    沃森微笑着点头:“你说的太有道理了。


    我第一次看到技术方舟建成的时候,我有一种它不属于这个时代的感觉,正是有了你,才有了深蓝和技术方舟的诞生。


    教授,我必须敬你一杯。”


    别说什么霍金来了都得敬酒。


    在林燃面前,你沃森也得给我敬酒。


    沃森接着道:“教授,我代表IBM公司,向你致以最诚挚的谢意。


    不仅是深蓝,在乔治敦-IBM项目中你做出的贡献令人叹为观止。你的创新方法将会让我们的机器翻译系统取得了突破性的进展。”


    虽然现在还谈不上突破性进展,但沃森已经有充分的信心了。


    林燃点了点头,说:“这是应该的,另外沃森,我想无论是深蓝还是乔治敦翻译机器,我为IBM做出的贡献不是金钱所能衡量的。”


    林燃丝毫不谦虚。


    这也让沃森脸上的笑容僵硬住了:“教授,我们会给你一份足够丰厚的金钱作为报酬的。”


    林燃摇了摇头:“我对金钱不感兴趣。”


    沃森想想也是,确实从来没听说过对方对金钱感兴趣。


    不过开口就想要股份,沃森还是有些犹豫。


    “教授。”还没等沃森说完。


    林燃接着说道:“我需要你满足我一点小小的条件。


    如果你无法满足我的条件,也许我要认真考虑和通用电气合作的可能性了。”


    通用电气,要素察觉。


    林燃和摩根家族的关系不用多说。


    沃森再清楚不过了。


    而通用电气也做计算机。


    虽然通用不做大型计算机,但通用的GE-225系列,作为一款基于晶体管的计算机,用于处理工资单、库存管理和会计等任务。


    通用电气有这个能力,更有这个资本。


    要是再加上林燃,和林燃作为大师的号召力,确实能对IBM造成巨大的威胁。


    沃森的语气一下就软了下来:“教授,你想要什么?”


    “《MIT辐射实验室系列》”