TOP榜写作榜手机小说

最近更新新书入库全部小说

新青豆小说网 >> 穿越:2014 >> 第126章 不碰专业软件的坑

第126章 不碰专业软件的坑

……

伊芙·卡莉在邮件里不光表达了她对林灰鼓捣的生成式文本摘要算法的好奇。

还向林灰阐述了很多她在文本摘要研究过程中遇到的一些困难。

说实话,林灰并不是很擅长解答别人的困惑。

不过,正所谓独学则无友孤陋则寡闻。

林灰蛮好奇伊芙·卡莉在研究过程中遇到了哪些瓶颈。

兴许伊芙·卡莉的一些见解会对林灰有所启发。

花了不短的时间,林灰才将邮件主体内容看了个大概。

林灰前世工作中没少看英文论文。

否则,想理解伊芙·卡莉发来的邮件还真不是一件容易的事情。

没办法,伊芙·卡莉表达困惑的方式有点过于硬核。

林灰觉得伊芙·卡莉发来的这个邮件的主体内容略微改动一下的话都可以当成一篇综述直接往灌水期刊上发。

当然了,这仅仅是一种比喻,实际上即便能灌水也不要轻易灌水,论文灌水很容易成为学术生涯上的一个污点。

让林灰比较意外的是。

伊芙·卡莉在邮件中还给林灰大致介绍了一下西方学术界对于文本摘要的研究情况。

这对于此时的林灰来说尤为有价值。

毕竟各种学报论文之类的公开内容,基本上都是只谈进展不谈挫折。

从伊芙·卡莉介绍的内容来看。

这个时空,西方对于文本摘要方面的研究进展和前世那个时空的西方对文本摘要的研究情况有些差别。

但客观地讲,差别其实不是太大,只是比前世那个时空节奏要慢两年那样。

也可以理解,涉及到文本摘要的研究其实由来已久。

无论是前世还是今生,东西方在文本摘要上都会花费很多心血。

说起两个时空的人们为什么都对文本摘要倾注大量的心血。

其实是有原因的,文本作为信息的重要载体,研究文本信息的高度凝练化对于人们快速而准确地获取所需内容具有重要意义。

对文本摘要的研究由来已久,但实际上对于文本摘要的深入研究还是在新世纪才大规模进行。

之所以文本摘要的研究突然被重视起来。

是因为互联网技术的迅速发展,海量信息在互联网中不断涌现。

不提高对文本处理的能力,即便是海量信息涌现出来,这些信息也注定淹没在信息海洋中沦为无价值的垃圾信息。

前几年,大数据概念开始兴起。

对文本摘要的研究的重视程度更是达到一个新台阶。

衡量文本摘要的意义不能仅仅局限在文本本身。

要知道涉及到文本处理,表面上看是仅仅是和文字语言有关系。

但实际上这门学问不仅是涉及到文本,还包括对信息、物质和文化的深层次探索。

这样一种深入的研究,让整个文明都在进步。

从这个层面来说,文本摘要对人们的影响很大。

即便多数普通人的生活中察觉不到这玩意对人类的影响。

但并不能因此说文本摘要不重要。

对信息的研究越深入,我们就越能了解到这个世界。

除此之外,对文本摘要的深入研究,某种程度上可以开启人的心智。

文本摘要的深度探索,让我们对信息的掌控更强。

也正是因为上述原因,无论是哪个时空。

世界上很多国家都在对文本的探索。

人类社会记录方式的进步,某种程度上就集中表现在文本的不同凝练形式上。

文本的探索,对于一些大型企业来说,也是一项极为重要的工作。

涉及到文本摘要的发展,决定着一项又一项的产品的问世。

对于文本的探索,不仅仅对文学的深入研究有着很高的促进性,同样对于科技的推进有着巨大的促进作用。

总而言之,对文本摘要倾注些心血不过分。

毕竟这是林灰在技术领域方面迈出的第一步。

说到伊芙·卡莉遇到的困惑。

林灰没想到伊芙·卡莉的困惑主要集中在LH文本摘要准确度衡量模型的构建上。

林灰记得当时他关于这个模型构建已经阐述的够清楚的了。

构建模型的话首先要运用语言模型来评估算法生成语言的流畅度,然后使用相似度模型评估文本和摘要之间的语义相关性,最后为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。

虽然为了避免教会徒弟饿死师傅,林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。

不过这种东西对于科研工作者来说,就像堑壕之于坦克。

虽然会有一些影响,但问题应该不大。

真的把所有的技术细节全部公布出来。

那也不能叫做公布技术路线了,那叫编教科书。

对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”

伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?

这个问题往后几年的话还真不是问题。

因为现成的语料库就一大堆。

仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。

不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

毕竟一些现成的语料库基本都是16年左右才问世的。

尽管如此,如何解释语料库来源的问题难不倒林灰。

事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。

最简单的方式——借助互联网可以自动构建文本语料库。

当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。

而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

从每个网站中筛选出用户所需要的文本作为候选语料。

这个过程其实不复杂,有点类似于爬虫抓取网页的过程。

比较困难的是这种方法形成的语料库如何去噪。

但这对于林灰也不是问题。

只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

在完成去噪之后就可以输出语料库。

虽然这个过程实现起来仍旧不容易。

但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

大多数情况下只要逻辑自洽就没人死磕。

除了好奇林灰是如何构建语料库之外。

涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

关于这个问题的答案就不是三言两语能说得清的了。

喜欢穿越:2014请大家收藏:(www.qingdouwx.com)穿越:2014新青豆小说网更新速度全网最快。

穿越:2014最新章节 - 穿越:2014全文阅读 - 穿越:2014txt下载 - 猪熊的全部小说 - 穿越:2014 新青豆小说网

猜你喜欢: 家有贤婿老衲要还俗第二部逆袭1988重生之我想收房租误惹军官,强娶霸宠小桥旧事我的憨憨小女友娱乐之演员和明星老婆离婚之后复苏:光落石头狠人系统:开局九龙拉棺纹上身情满四合院之何雨柱真笱重生之我真的只想当暖男残暴古君逆袭从欢乐颂樊胜美开始人间观察员回到过去,开局放了系花鸽子我的蓝领生涯静静的黄河火爆兵王我不做魔术师了快递王国快递王东瀛大物厨子老谭的北方往事重生之大娱乐家系统求求你当个败家子吧!
完本推荐: 名门天后之重生国民千金全文阅读快穿女配之反派BOSS有毒全文阅读修仙从祖先显灵开始全文阅读带着空间在逃荒路上养崽全文阅读华娱2000,大唐诗仙!全文阅读豪门替嫁:重生王牌大佬全文阅读斗罗:化身九尾,拐走小舞当老婆全文阅读从神探李元芳开始全文阅读香江新豪门全文阅读名门全文阅读我在斗罗一命通关全文阅读嫡女贵嫁全文阅读光之巨人:我就是旧日支配者全文阅读老婆你矜持点全文阅读[斗罗]烨火全文阅读老衲要还俗第二部全文阅读我,天煞孤星,爱好交友全文阅读掌控时光之龙全文阅读我在遮天修永生全文阅读我真不想跟神仙打架全文阅读
最近更新: 金仙才觉醒求生系统腰软难缠主角演绎法则日娱教父快穿:开局一个杂货铺一人之化神诸天怪猎:猎人的笔记全网震惊!你管这叫心理医生?我在废土开种植园我在截教看大门无双群侠传万鹰之神之妖魂童子日夜妄想入你怀这个东京不太正常收徒就变强,我成天地第一圣呜!重生2000,被大佬掐腰宠重生从投资女同桌开始从武馆学徒到大乾武圣一家之主之主妇难为龙族:藤丸桑正在拯救世界长生道,我只想安静做个武道宅男冒充道士,我能逆转死亡诡道长生:我真的是等价交易从星海镖师开始加点您的交易已完成精灵之沙暴领主轮回乐园之天启玩家霍格沃茨,这个教授实在太稳健了末世废土,开局解锁狗头q技能刘备偷看我日记,立马跑去卖草鞋

穿越:2014最新章节手机版 - 穿越:2014全文阅读手机版 - 穿越:2014txt下载手机版 - 猪熊的全部小说 - 穿越:2014 新青豆小说网移动版 - 新青豆小说网手机站