基于Python的自动文本提取抽象法和生成法的比较_[#第一枪]

发布时间：2021-06-07 13:10:39 阅读：次来源：镍合金厂家

每个总结的ROUGE分数是在这五个（个人重要摘要）分数中的最大ROUGE分数。

对于BLEU评分，我们使用NLTK的bleu_score模块，其中unigrams，bigrams和trigrams的权重分别为0.4,0.3,0.2。

对于具体示例，请查看Garmin 255W导航设备的这篇评论。查看人工和模型生成的摘要。

请注意“head”一词不会出现在原始文本中。该模型已生成它。这在以上几种的提取算法中永远不会发生。

我们运行了谷歌提供的Tensorflow网络并调整了一些超参数。不幸的是，我们仅仅能在需要的时间内训练模型10％，并获得质量非常低的概要。由于这个获得的概要没有任何意义，我们甚至无法使用上面的ROUGE和BLEU分数。

为了比较对神经网络架构的不同调整，我们不得不求助于使用适合训练集“运行平均损失”的模型的数学测量。可以在此要点中建立模型的平均运行损耗图。

训练了多少才算够？

Tensorflow的作者建议实施培训数百万个时间步骤，以成功地在现他们的结果。这意味着在启用GPU的群集上需要为期数周的培训时间。谷歌自己使用10台机器，每台4个GPU，持续训练一个周。这相当于运行GPU 7000个小时或3万美元的AWS云信用。但是在我们的处理中，我们没有这样的硬件资源。

此外，Google TextSum作者使用Annotated English Gigaword数据集，且数据集需要3000美元的许可证。因此，我们使用相对较小但免费的新闻文章数据集：CNN和DailyMail来代替Annotated English Gigaword数据集。这些320k文章被转换成Textsum兼容格式和词汇。你可以通过github使用我们的代码生成你自己的TextSum兼容的预处理CNN和DailyMail数据。

最初，使用默认参数的培训是在NVIDIA GTX 950M笔记本电脑上完成的，但是即使在培训超过48小时后算法似乎也没有收敛。为了加快过程并生成有意义的概要，我们切换到配备NVIDIA K520 GPU的g2.2xlarge Amazon EC2设备上。

某些词语在许多概要中，然而不考虑这些词语是否出现在实际文章及其在测试集中的概要中，例如，“曼彻斯特联合”和“曼彻斯特城市”这一短语在生成的概要中重复了很多次。

另一个观察是，最初（global_steps <50000）模型没有生成语法正确的句子，因为我们训练模型的持续时间更长，生成的概要开始有意义，语法稍微变得正确。但是，生成的概要仍然与原始文章以及相应的人为摘要完全无关。

只有在50,000个时间步之后，损失（以及概要的语义质量）才有明显的改善。在接近一天训练了100,000个时间步长之后，我们观察了质量-在这里我们使用我们的主观理解来判断所述质量–概要总体上有所改善。即便如此，摘要显然不符合标准。考虑到培训时间，这是可以预期的。该模型的作者声称，如果用户愿意在所需时间和计算方面进行权衡，则可以获得更好的结果。