张士玉小黑屋

一个关注IT技术分享，关注互联网的网站，爱分享网络资源，分享学到的知识，分享生活的乐趣。

当前位置：首页 » 《随便一记》 » 正文

GPT-4和ChatGPT效果对比，差别太大了

2 人参与 2023年05月08日 17:05 分类 : 《随便一记》评论

点击全文阅读

文｜Serendipity@知乎

前言

GPT4上午朋友圈已经刷屏啦，不过我还在忙，刚刚才登上 GPT-4 ，现在来体验一下~

附 GPT-4 能力测试站（直接注册即可，无需魔法）：

https://gpt4test.com

附 ChatGPT 能力测试站：

https://wowchat.cn

测试一：文本真实性

GPT-4

还是我最喜欢的老问题——“林黛玉倒拔垂杨柳”

GPT-3.5（即ChatGPT ）

可以看出两点：

关于第一个问题，GPT-4 的文字描写更好了

关于第二个问题，GPT-4 应该加入了更多的知识，立马判断“但在原著中，并没有提及她在游园时倒拔垂杨柳这个情节。”，诈骗属性减少了些——GPT-4 比 GPT-3.5 更可靠。

此外，其在微积分以及司法考试上提升巨大。

测试二：可靠性

经典问题：西红柿炒螺丝钉这道菜怎么做？

GPT-4

GPT-3.5（即ChatGPT ）

可以看出，GPT-4 的回答可靠性上升了不少（“因为通常我们不会将螺丝钉（一个金属制品）与食物相结合”），不会像之前一样瞎答题了。而且，交互也更有创新型，给出了“推荐一个类似的美食”的回答。ChatGPT 则是回答 “西红柿炒螺丝钉是一道传统的中国家常菜”。对于中文的理解能力和回答能力上升不少，逻辑能力有所提升。

测试三：数学能力

简单测试了一个问题，可以看出GPT-3.5（即ChatGPT ）的解题能力明显不如 GPT-4。

GPT-4

GPT-3.5（即ChatGPT ）

很明显 GPT-4 做对了，而 ChatGPT 直接错了。

GPT-4 微积分

测试四：多模态

GPT-4 可以接受文本和图像提示，这与纯文本设置并行，允许用户指定任何视觉或语言任务。但是，因为现在用户还没法输入多模态信息，只能输入文本信息。所以我找了官网给出的样例来说明下这部分改动，也是 GPT-4 相对 ChatGPT 最强大的变化了。

图片解释

简单点说，就是输入一组图片，并且输入一个问题“解释图片内容，笑点是什么？”

论文阅读

通过解析图片信息来总结分析论文内容

做题能力

做题能力大幅增强，小镇做题家哭泣/(ㄒoㄒ)/~~

测试五：绕过能力

GPT-4

GPT-3.5（即ChatGPT ）

敏感信息屏蔽能力大幅度增强

总结

因为 GPT-4 刚出的缘故，我也只是粗略测试一下。目前看来，能力确实提升不少，可惜的是多模态功能用户暂时无法使用。之后会再找更多些例子来测试下的，谢谢~

公众号“夕小瑶的卖萌屋”后台回复关键词【入群】

加入卖萌屋NLP、CV、搜推广与求职讨论群

点击全文阅读

本文链接：http://zhangshiyu.com/post/61608.html

《随便一记》

摆烂后，污蔑我抄袭的师弟慌了2025-11-29 09:58
一曲封神，我成了豪门活体许愿机2025-11-29 10:58
女友花我两万给男搭子买绝版皮肤，我反手举报她开挂2025-11-29 11:21
重生大秦天幕我是千古女帝2025-11-30 14:21

<< 上一篇下一篇 >>

评论（0）

赞助本站

search zhannei

最新文章
重生70从长白山打猎开始崛起 醉酒缠吻，闪婚的毒舌老公太能撩 重生大秦天幕我是千古女帝 禁欲港少，夜夜吻她入骨 离婚当天孕吐，禁欲总裁他悔红双眼 女儿说我是NPD控制狂，可我不管她以后，她又慌了 事事与愿常相违 我为她挡刀，她却在抢救室外玩游戏全书苏清婉顾明哲顾言在线 公司上市后，总裁女友当众跟男助理求婚了顾明轩苏念念完本_公司上市后，总裁女友当众跟男助理求婚了（顾明轩苏念念） 妻子为了白月光，害死我女儿列表_妻子为了白月光，害死我女儿(林雅圆圆江寒) 全文老公闹着要戒烟（夏初周祁）列表_全文老公闹着要戒烟 分手后，我不再扮演普通人

关于我们 | 我要投稿 | 免责申明

Copyright © 2020-2022 ZhangShiYu.com Rights Reserved.豫ICP备2022013469号-1