关于人工智能的浅见

ai，大模型如此卷，我也有幸作为圈外人参与了一个讨论，结果被喷民科，我也反驳了几句，“至少我还是程序员，而你只是程序员，如果你连智能都不懂，何谈人工智能？在心理学，脑科学，语言学，动物行为学，生理学，进化论，范畴论，控制论… 这些人工智能必遭遇的领域，包括你我在内的这里所有人，都是民科…”，人工智能属实跨界，引号内的几个领域我稍有涉猎但完全谈不上业余，但这不妨碍我输出自己的观点，那些房地产自媒体都能蹭一下 ai 热度，我为什么不能呢。
作为连业余都算不上的人，怕言多必失，所以长话短说，但语言表达也不太行，可能还是会显得啰嗦。
观点一：学习事物的关系而不是事物本身。
chatgpt 成功的背后来自 “把字词句编码到语义空间”，即编码和语义一一对应。“经理” 和 “工人” 语义上离得很远，在编码空间离得同样远，这就绑定了编码和语义的相对关系，此基础上构建和训练模型才能事半功倍。
作为反例，传统计算机编码与此相悖。这导致计算机操作很难容错，“浙江温州皮鞋湿” 这句诗在网络上传输被误码成 “浙江杭州皮鞋湿”，则校验码不通过要被重传，但如果采用语义编码，就很容易纠错。
以上论述基于编码和语言，但编码和语言属于抽象范畴，可能人类独有，如果涉及要学习的世界万物，目前的方法或许是另一个反例。
图像识别作为一个单独方向被研究，但当前的方法还是基于像素(我的浅见，或许并不是)，或许如果没有强大算力，模式识别反而会有进展。
图像识别只是 “万物识别” 的一个侧面，人工智能同样要学习关系而非像素的轮廓，颜色，明暗。关系可以框定前后左右上下等广延，彻底摆脱过拟合。一个前景工人挡住了后面一个经理的皮鞋，传统方法可能会认为后面这个构成经理的像素没有构成皮鞋的像素，而关系则忽略工人，经理，皮鞋等这些具体轮廓，直接断定前面的某个人挡住了后面的某个东西，至于工人，经理这些像素，可以理解为称谓，不重要。
要学习关系，就要学习物理。
观点二：学习物理和物理学习。
chatgpt 通过注入信息的方式训练，因为自然语言本就抽象，但你不能想象一个只有眼睛和耳朵，没有躯干的人从出生就固定在一个地方，他竟可理解这世界，虽然他也能学会说话并和你对话。
将一辆车冲着一个人开过来的视频分解为连续帧的图片训练模型，它能得出人会跑开的结论吗？但猫冲一个老鼠跑去，老鼠就会躲开，因为老鼠懂物理规则，如果不跑开，猫就会和自己接触，猫爪和牙齿就会进入自己的身体。同样，一个工人挡住了经理的皮鞋脚，你知道这只是工人挡住了皮鞋脚的漫反射光线。
曾经流行的愤怒的鸟，你也可基于 box2d 构建一个类似的游戏，box2d 内置物理模型，这类游戏中，如果一个目标躲在弹球运动的死角就不会被击中，因为这可以通过物理定律轻松计算处理，而前提是你要先学会基本物理定律。
遗憾的是，物理定律可能只能通过物理的方式学习。婴儿通过接触硬物的疼痛感获得负向反馈，通过接触被子的舒适感获得正向反馈，通过费力抬起胳膊获取物体会自然掉下来的感受，通过父母或宠物的移动接触获取惯性的理解，这些感受需要实际和物理世界交互而获得，而不仅仅只是通过成型的信息来训练。
有了物理接触，就有了世界的关系。
观察动物的行为也有收益。我养过的一只小猫照镜子看到自己时，会试图从镜子后面找自己，看到电视里会动的小动物时，会扑向屏幕。虽然这也是过拟合，但显然这是 “智能” 的过拟合。
如果不在物理世界学习，就要言传身教，但如果你不实际接触一下物品，就要理解 “接触” 这个词，而这个词需要更多的词来解释，最终总要在物理世界落实，否则就是一个永远封闭不了的环。
先感觉到，接触和交互，才能描述，而不是反过来。物理世界的训练，需要聚焦的视角。
观点三：聚焦的视角。
一间屋子里，如果你的眼睛布满一面墙，就无法理解这屋子里物体间的关系，因为屋里的一切在你看来是不变的。要理解屋里的物体关系，你需要一双聚焦且会移动的眼睛。当你盯着椅子看，它是形状 a，往左偏一下眼睛，它是形状 b，再往右偏一下且走近，它是形状 c，然后你就有了椅子的概念，这一切，你都要这种不断变换视角来获得认知。
作为反例，参考毕加索的立体主义作品。
这观点一个抽象的含义是，只有不对称，才能形成认知。第一人称视角形成模式，他在不同视角可识别到同一个物体，位置信息不一样，但相对连续移动的第一视角而言，它竟是同一个，如果是平坦的知识，就不会形成这种认知，这也符合信息熵的原理。
现代人工智能方法显然是从一面墙的眼睛 “硬” 分析像素的差异而看到的，这太累了，而且不准，但我们认为不那么智能的动物却比这要强得多。
观点四：大多数哺乳动物已经足够智能了
猫在镜子后面找镜中猫(自己)说明猫没有自我意识，它就很难理解真正的语言逻辑，因为语言逻辑涉及 “指代”，没有 “我” 就理解不了 “非我”，如 “它”，“他”，“这”，“那”，从而无法真正理解语言，也就无法和人媲美。
人工智能有门派专攻对理解语言，但问题是同样不理解语言(它们只是对音素进行反射，而不是理解语言)的猫狗已足够好，它们在识别和模拟等物理世界的特殊领域具有真正智能，人工智能应该先向它们看齐。
既然当前人工智能无非就是拟合 “目标函数” 最优解，为什么不向猫狗学习呢。一些街头变戏法的人展示自己的猫狗猴子会算术，计算还挺快，可它们并不懂真正的数学逻辑，这类似现在人工智能，但另一面，那些猫狗猴子对物理世界的理解却完败当前最好的人工智能。
诸如自动驾驶这些物理世界的智能需求，向猫狗学习的人工智能即使不必理解人类理性，也足够胜任了。在我看来，即使类比和反思，也并非神之赐予，物理世界的刺激就可以给到这种能力。
观点五：人工智能的目标太大或太小
连续第一人称视角和交互体验，区分物品的位置，事物的性质，立体空间方位关系，前景背景，这些才是亟待解决的问题。
但目前两极分化的是，要么大谈自由意志，要么沉迷于基于统计模型的具体算法调用 api，这两个方向都不屑于让人工智能先达到猫狗的水平。
当我提出这些时，一个大厂 ai 专家用一大堆专业术语怼我，“你这些都不对，我就干这个的，难道还不如你的理解深刻？” 这些术语和细节大多是我不懂的，但我不在意也不认输，我曾经质疑假牛肉时，地下假肉丸子作坊的操作工也说过类似的话，“我就做这个的，还能不懂肉吗，这东西不如两个大馒头顶饿”，我没必要跟他讲碳水化物和蛋白质，虽然，它这个假肉也是蛋白质做的，只是他不知道而已，他理解的豆制品和白面馒头是一类东西。
虽然也有人 chatgpt 并不是真懂你在说什么，它也是依赖强大算力的最佳匹配，也基于统计模型和概率分布，依然没有自我意识，但这重要吗？当一个成年人大谈笛卡尔哲学时，他是真理解了这个哲学，还是仅仅复述了他从老师或书上学到的呢？甚至，又有多少人的思想是真正自由的呢？熟读唐诗三百首，就能写顺口的打油诗，这是一种理解，还是不那么拙劣的模仿？

浙江温州皮鞋湿，下雨进水不会胖。

张士玉小黑屋

当前位置：首页 » 《随便一记》 » 正文

16 人参与 2024年02月11日 12:11 分类 : 《随便一记》评论

评论（0）

赞助本站

search zhannei

最新文章