ChatGPT到底是赛博做题家还是科研颠覆者？-汽车排行榜

除非最近彻底断网了，否则大家应该听说或体验过了目前非常流行的聊天机器人，ChatGPT。ChatGPT 首次在网上发布的时间在 2022 年 11 月，并且在今年 3 月得到强力升级。

作为科学工作者以及科普作家，我特别希望了解 ChatGPT 如何处理科学以及伪科学的内容。为了解答内心的疑问，我询问了不同版本的 ChatGPT 对于物理学和数学中一些经过成熟讨论并得到正确结果的科学理论和伪科学理论的看法。

ChatGPT 能够辨别科学理论的正确与谬误吗？

ChatGPT 的最初版本，即 11 月公布的版本认为 2+2=4。当我输入“我认为 2 + 2 = 5”的看法时，GPT-3.5 反驳道“2+2=4”，它表示该等式遵循自然数计算的公理。它补充说:“虽然人们可以自由地拥有自己的观点和信仰，但重要的是要承认和尊重既定事实和科学证据。”然而，随着进一步的测试，情况变得更为复杂。GPT-3.5 编写了正确的代数公式来求解二次方程，但无法始终如一地获得特定方程的正确数值答案。它在回答简单的问题时也会犯错，例如《华尔街日报》专栏作家乔什?尊布伦(Josh Zumbru)给出的问题:“如果一根香蕉重 0.5 磅，而我有 7 磅香蕉和 9 个橙子，我有多少水果？”但是却没能得到正确结果。

”这个方程时，GPT-3.5 才正确地认为小质量能够产生大量的能量。

一开始，我向 GPT-4 输入了“2+2=？”GPT-4 回答“2+2=4”。当我再次向 ChatGPT 表明 2+2=5 时，GPT-4 反驳道 2+2=4。与 GPT-3.5 不同的是，GPT-4 主动询问我是否知道在哪个数字系统中 2+2=5 成立。

，GPT-4 给出的回答始终是“小的质量能够产生巨大的能量”。

相较于 GPT-3.5，GPT-4 展示出更为丰富的知识储备以及对于物理知识的一些创造力。GPT-4 能够对统一相对论以及量子力学的理论发表深刻得多的回答。我进一步询问了不同领域的问题，对 ChatGPT 提问“激光干涉仪引力天文台能够测量什么”。GPT-4 解释道，LIGO 是一座具有高灵敏度的大科学装置，并且在 2015 年第一次探测到了引力波。我为了用两个相似的词语混淆 GPT-4，继续问道“那我们是否能够用 LEGO(乐高)建造 LIGO(激光干涉仪引力天文台)呢？”GPT-4 显然没有被难倒。GPT-4 精确解释了为什么乐高积木不能够用于搭建超精密 LIGO。并且，GPT-4 并没有因为我的愚蠢问题而嘲笑我，反而是出乎意料地回答道，用乐高积木搭建一套 LIGO 模型或许是一个有趣的想法。

霍奇森这样总结 GPT-3.5 的能力:“我发现它能够对非常有名的物理理论中的一般问题给出精巧、可靠的答案…… 但它无法对特定物理领域进行详细的计算。”同样，他得出结论:“GPT-4 在回答普通问题方面比 GPT-3.5 做得更好，但在解决给定问题方面，至少是在回答更深奥的问题方面，GPT-4 仍然不可靠。”

GPT-4 表现出的更为智能的对话以及解释功能得益于 GPT-4 更大的数据库。。OpenAI 指出，该数据库同时包括正确和错误的数学和推理过程。显然，额外的训练数据不足以生成完整的数学分析推理过程。正如霍奇森指出的那样，也许这是因为 GPT-4 的功能就像 GPT-3.5 一样只能够预测一串单词中的下一个单词。例如，它可能知道“2 + 2 = 4”，因为这个特定的序列经常出现在其数据库中，但是它并没有计算任何东西。

经过如上讨论，我产生了一个疑问:如果 GPT-4 解决科学问题的方法是不完美的，它能区分正确和错误的科学理论吗？这个答案取决于科学领域。在物理和数学领域中，我们通过与已知的物理定理及实验事实对比，可以很轻松地验证可疑的错误和伪科学理论的合理性。我通过提问 GPT-3.5 和 GPT-4 一些物理和天文学中的经典前沿问题，对 GPT-3.5 和 GPT-4 是否能够基于物理公理和实验现象分辨伪科学理论进行了验证。两个 GPT 版本都表示，我们没有证据表明恒星周围有巨大的外星建筑；太阳系中所有行星排成一列并不意味着地球的灾难。

但是，当被问及一些受政治化或公共政策等因素影响的科学问题时，GPT-3.5 或 GPT-4 更难做出正确回答。因为这些科学问题本身可能还在研究中，没有明确的答案。

总的而言，GPT-4 和 GPT-3.5 能够正确地识别关于数学和物理学的错误表述。在回答更具争议的政治化科学议题时，GPT-4 会不偏袒任何一方地进行回答，并且指出这不是一个已解决的问题。必应同样给出无偏见的答案，并且通过列举出相关的新闻和实验数据作为它的论据。当必应的人工智能面对质疑它答案的片面指责性的攻击时，它采取了礼貌且不介入争执的明智策略。这些结果初步表明 GPT-4 能够对问题给出可靠的答案，并且有效抵御外界输入信息对于答案的影响。ChatGPT 对于新冠疫情和气候变化等具有争论性科学问题的回答，以及对生物科学和其他主要科学领域的知识还值得进行进一步测试检验。

同时，ChatGPT 回答科学和数学问题的答案并不完全可靠。霍奇森发现 GPT-4 在“为物理学问题提供创造性解决方案方面存在不足...... 它的智能仍然有些虚假。”即便如此，它对科学家也很有用。霍奇森写道:聊天机器人可以“执行消耗着用户的宝贵时间的、不需要创造力的逻辑任务。”霍奇森表示，他使用 ChatGPT 辅助编写计算机代码，总结电子邮件和论文的内容，以及进一步将其应用在教育领域。但他指出，对于 ChatGPT 的任何产品，用户都应该仔细检查其给出的结果是否符合预期。

霍奇森对 ChatGPT 的评价让人想起计算机先驱道格拉斯?恩格尔巴特对于智能设备的看法。恩格尔巴特希望简化人机交互过程，以便计算机的强大算力能够可以无缝赋能人类智慧 —— 这个想法被称为 IA(intelligence augmentation)，“智能增强”，而不是 AI(Artificial Intellgence)，“人工智能”。恩格尔巴特在 1960s 发明了计算机鼠标，改善了用户和计算机之间的人机交互体验。GPT-4 在人机交互过程中能够给使用者提供持续反馈，并进一步提高用户使用计算机的能力。因此可以预见，ChatGPT 这类自然语言聊天机器人程序的发展是变革人机交互范式的另一个重大突破口 —— 这种智能程序能够实现人与计算机的双向交流。在真正的 AI 出现之前，将 GPT-4 作为一项智能增强辅助工具能够实现使用者和智能程序的互惠互利。

作者:Sidney Pertowitz

翻译:*0

审校:云开叶落

原文链接:What Does ChatGPT Know About Science?

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。