镍合金厂家
免费服务热线

Free service

hotline

010-00000000
镍合金厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

基于Python的自动文本提取抽象法和生成法的比较_[#第一枪]

发布时间:2021-06-07 13:10:39 阅读: 来源:镍合金厂家

每个总结的ROUGE分数是在这五个(个人重要摘要)分数中的最大ROUGE分数。

对于BLEU评分,我们使用NLTK的bleu_score模块,其中unigrams,bigrams和trigrams的权重分别为0.4,0.3,0.2。

对于具体示例,请查看Garmin 255W导航设备的这篇评论。 查看人工和模型生成的摘要。

请注意“head”一词不会出现在原始文本中。 该模型已生成它。 这在以上几种的提取算法中永远不会发生。

我们运行了谷歌提供的Tensorflow网络并调整了一些超参数。 不幸的是,我们仅仅能在需要的时间内训练模型10%,并获得质量非常低的概要。 由于这个获得的概要没有任何意义,我们甚至无法使用上面的ROUGE和BLEU分数。

为了比较对神经网络架构的不同调整,我们不得不求助于使用适合训练集“运行平均损失”的模型的数学测量。 可以在此要点中建立模型的平均运行损耗图。

训练了多少才算够?

Tensorflow的作者建议实施培训数百万个时间步骤,以成功地在现他们的结果。 这意味着在启用GPU的群集上需要为期数周的培训时间。 谷歌自己使用10台机器,每台4个GPU,持续训练一个周。 这相当于运行GPU 7000个小时或3万美元的AWS云信用。 但是在我们的处理中,我们没有这样的硬件资源。

此外,Google TextSum作者使用Annotated English Gigaword数据集,且数据集需要3000美元的许可证。 因此,我们使用相对较小但免费的新闻文章数据集:CNN和DailyMail来代替Annotated English Gigaword数据集。 这些320k文章被转换成Textsum兼容格式和词汇。 你可以通过github使用我们的代码生成你自己的TextSum兼容的预处理CNN和DailyMail数据。

最初,使用默认参数的培训是在NVIDIA GTX 950M笔记本电脑上完成的,但是即使在培训超过48小时后算法似乎也没有收敛。 为了加快过程并生成有意义的概要,我们切换到配备NVIDIA K520 GPU的g2.2xlarge Amazon EC2设备上。

某些词语在许多概要中,然而不考虑这些词语是否出现在实际文章及其在测试集中的概要中,例如,“曼彻斯特联合”和“曼彻斯特城市”这一短语在生成的概要中重复了很多次。

另一个观察是,最初(global_steps <50000)模型没有生成语法正确的句子,因为我们训练模型的持续时间更长,生成的概要开始有意义,语法稍微变得正确。但是,生成的概要仍然与原始文章以及相应的人为摘要完全无关。

只有在50,000个时间步之后,损失(以及概要的语义质量)才有明显的改善。在接近一天训练了100,000个时间步长之后,我们观察了质量-在这里我们使用我们的主观理解来判断所述质量–概要总体上有所改善。即便如此,摘要显然不符合标准。考虑到培训时间,这是可以预期的。该模型的作者声称,如果用户愿意在所需时间和计算方面进行权衡,则可以获得更好的结果。

音响音频线

软化水设备批发

气压给水设备批发

桉木价格