当前位置:首页 » 《随便一记》 » 正文

对比国产大模型辅助读论文的能力,一家完胜,有两家差的离谱

23 人参与  2024年04月10日 11:24  分类 : 《随便一记》  评论

点击全文阅读


试图找到一些利用免费大模型增加生产力的途径,由于chatgpt给我封号了,所以只测试了几款国产大模型。

我们挑选的是在SuperCLUE上得分靠前的几款国产免费大模型:文心一言3.5,通义千问,讯飞星火,豆包,以及没有出现在榜单上,但是特点是擅长读长文档的kimi

我们读的是这篇综述类的论文,总长度是60页,文档大小是9.6MB

我们进行两轮测试,1)总结文章主要内容,以及2)提取文章里提到的论文,并按照技术类别和技术演进路线进行呈现。

如果AI能完全实现这两条,那么将极大帮助我们节约时间,甚至我们可以不用自己去看原文了。如果能实现第一条,并部分完成第二条,那就算勉强可用,可以帮助我们节约一定时间。

测试结果如下:

首先是差的离谱,完全不可用的两款:字节的豆包和讯飞的星火。

1,豆包,你在糊弄我?

豆包没有上传文档的功能,必须要给出文档的网址。我把这篇论文的arxiv地址发给了模型。然后,豆包给出了完全牛头不对马嘴的归纳。

这是一篇vision Transformer用于医学图像的综述,结果,答案不知道为什么回答的是图神经网络用于预测蛋白质,可以说完全莫名其妙。我再三检查了网址,我并没有给错。

豆包的结果可以说非常离谱!

最搞笑的来了,我换了一篇论文,《SOTR: Segmenting Objects with Transformers》,给它分析,然后豆包给我的分析结果和前面一篇完全一样!!!还是图神经网络用于预测蛋白质!

原来你小子在糊弄我!


2,星火,完全不可用

用文档问答插件上传pdf文档后,显示正在处理。其他大模型一般在一分钟内可以处理完。但是星火处理了半个小时,依然没有完成。

刷新后重新上传依然如此,无法解析完成。


接下来的2个都属于勉强可用的范畴:文心一言和通义千问

3,文心一言,勉强可用

1)如果只是简单总结论文,文心一言没什么问题:

但是如果我们要求更多的技术细节,文心一言就不行了。完全把握不住重点,而且回答内容没有组织和归纳,看得人头大。

我再次强调需要的是技术上的细节,依然把握不住重点,对于阅读这篇综述并无帮助,最多让你知道这篇综述主题是什么,仅此而已。

2)然后我要求它从这篇综述内提取提到的论文,这个任务完全失败。

它认为这篇综述里没有提到具体的论文,笑话。


4,通义千问,比文心一言强不少

1)简单总结论文也是没什么问题,比文心一言额外多提供了一点信息。

我要求更详细的内容,跟文心一言一样,需要多次提示,不过至少多次提示之后,它确实开始总结本文技术方面的内容了。虽然依然很简略,和我的设想差距很远。

2)第二个任务,从综述里提取论文并归类,通义千问也失败了。

它给出了综述里研究的类别,但是无法提取论文

在我进一步追问下,它甚至给出了综述里不同研究类别论文的占比,但是就是无法提取具体的论文。


完胜选手:

5,kimi,完胜但不完美

1)首先第一个任务总结文章内容,不需要追问,第一个回答就表现出极好的逻辑归纳能力,让人一下子就把我了文章内容的结构。

在我追问后,回答也更符合我的要求,主要集中在综述里提到的技术上

2)第二个任务,部分完成

太长就不贴完整了

这就是我想要的功能。

当然可惜的是,kimi依然无法完整提取所有涉及到的论文,只提取了25篇论文,只占综述提到的一小部分。

但是就是这样的表现已经是碾压式领先其他四家。

最后总结,单论辅助阅读论文的能力:

kimi>>通义千问>文心一言>>>>>>>>>>>>>>>>>>>>>豆包=讯飞星火


点击全文阅读


本文链接:http://zhangshiyu.com/post/93198.html

<< 上一篇 下一篇 >>

  • 评论(0)
  • 赞助本站

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1