和大伙聊聊天：我们创造AI技术是为了不再学编程？

April 30, 2024

大家好，我是赛博红兔。你刚才听到的是英伟达老总黄仁勋在今年二月份迪拜的世界政府峰会上的发言。简而言之，他的观点是：虽然过去的10到15年，大家都认为学习计算机科学至关重要，每个人都应该学编程。但事实上，我们的目标应该是发展出无需编程的技术，让编程语言更加人性化。现在，有了人工智能的帮助，几乎人人都能成为程序员。”为了让大家更好地理解黄仁勋的意思，我站在他的立场上给你们打一个比方。如果说，AI技术的应用是黄金，那么显卡就是挖黄金的铲子，我们的任务就是去创造一把智能的铲子，使得没有人需要亲自去挖黄金，如今，世界上每一个人都是淘金者，就等着买我的智能铲子吧。

作为一个站在时代前沿的人物，黄仁勋发出的这种“从向科技大公司出售铲子，到将智能铲子普及到普通老百姓手中”的野望，目前也正在被一点一点地证实。从特斯拉和Waymo的自动驾驶车辆，到OpenAI的GPT和谷歌的BERT这些大型语言模型，再到DALL-E 2、AIVA、Sora等图像和视频AI工具，AI的每一个突破都极大地提升了我们的生产力。但是，黄老板这句话一出，被各大媒体、自媒体、短视频反复引用报道之后，可谓在社会上激起了很大的反响。不少媒体为了吸引眼球，标题党甚多，宣称“黄仁勋说，随着AI的发展，将来人们不需要学编程了！”正巧前几天有个戏剧性的事情，号称首个人工智能软件工程师Devin翻车了。Devin号称可以独立在Upwork一个软件外包平台接活，但实际上，它并不能按照要求去提出方案并且完整地完成任务，而且Devin的公司还涉及了虚假宣传。当时挤破头报道Devin的这批媒体，最后翻车来吃瓜的还是他们。

根据Ipsos调查，2023年有66%的人认为AI在未来三到五年将极大地影响他们的生活，52%的人对AI产品和服务感到焦虑。超过三分之一的人对AI持概念上的悲观态度，担心他们的工作在五年内可能被AI取代。我自己也调研了一下，网络上大众对于黄仁勋这段话看法大致分为几种：支持者认为自然语言编程（NLP）具有革命性潜力，能显著简化编程过程，使编程变得更加普及；反对者则认为，尽管AI的发展可能减少了对传统编程语言的需求，学习编程思维仍然是必要的，包括理解基本的逻辑和结构；还有人担心使用AI生成的代码可能带来安全风险，尤其是如果用户不理解代码的内部逻辑。还有一部分人担心技术可能被大型科技公司垄断。这些不同的声音显示，每个人的观点和理解深度不同，因此立场也各不相同。我想知道，你对这件事怎么看呢？

大多数关注我的频道的朋友可能已经在科技信息领域工作，或者正在进入这一领域。既然人工智能是一种科学技术，那么今天我就站在技术的层面上和你们一起思考一下这件事当前以及长远的意义。我自己算是体验ChatGPT比较早的人了，在2022年底参与了ChatGPT 3.5的公开测试。确实刚开始它给我带来的体验就是“惊艳”两个字，我从来就没有玩过如此听得懂人话的人工智能了。但兴奋之余，我们有必要先了解一下当下机器学习在大语言模型领域最先进的ChatGPT的技术深度。ChatGPT 是由 OpenAI 开发的一种基于转换器的生成式预训练模型（Generative Pre-trained Transformer）也就是GPT架构的自然语言处理模型。它主要用于生成文本和处理与理解自然语言的任务。它的核心就是 Transformer的模型，这是一种主要用于处理文本的深度学习模型。首先，在训练时，训练文本会被转换成一连串的数字标识，英语叫token。接下来，模型会用一种叫做自注意力的机制来处理这些token。这个过程中，模型会计算输入中每个词与其他词之间的关系，看看哪些词更重要，这样它就能更好地理解整个文本的上下文。当我们跟这个模型交流时，我们会给它一个输入。这个输入可以是一个问题，一个句子的开头，或者是一个特定的指令。比如说，“今天天气怎么样？”或者“讲个鬼故事”。基于这些信息，模型开始输出它的回答。基于它之前训练学到的语言模式，模型会根据设定好的策略持续生成token，直到它形成了一个完整的句子或达到了设置的最大长度限制。整个过程模型在不断地计算和选择，每次都尝试找到最合适的下一个词汇，以确保生成的文本既自然又符合我们的输入意图。这样，它就能以一种看似理解我们的问题或指令的方式来回答我们。那么就GPT目前编写的程序代码过程，它可以生成看似准确的代码，因为它学习了大量的编程语言的示例文本，注意这里我用的词是文本而不是程序。这种生成代码方式是基于统计匹配和模式识别，而非真正的逻辑理解或编程技能。因此，尽管GPT在人类的干预下，在很多任务明确、指令明确、方案明确的情况下能生成有效的代码，但主要的是它无法理解代码的深层含义或逻辑背后的复杂性。这是概率论、统计学的结果而不是真正的编程逻辑。

要理解我刚说的大语言模型背后的逻辑，举一个很简单的例子。你可以挑最好的ChatGPT4，然后问它这么一个问题“Take the letters in lollipop and reverse them.”中文是把棒棒糖这个单词反过来写。你会发现，它给你的结果是pilollol。目前最强的模型，别说去理解文本，竟然无法完成简单的单词字母反转问题。这里我捎带解释一下，不知道刚才你没有认真听我说GPT的训练过程，它不是反复去训练一个个的单词而是反复训练一个个token。这些token并不一定是完整的一个词，而是英语文本中结合符号出现频率最高的单词片段活着片段的组合，比如组成棒棒糖的token就是l，oll，和ipop，像这个样子让GPT去反转单词就有些强人所难了。所以，目前最强人工智能在大语言模型领域的深度就是这样一个结合概率和文字的模型。

看完深度再来看看目前人工智能的广度。人工智能主要有以下几种分支：

监督学习：模型根据带有标签的数据学习，用来进行分类和回归任务。
无监督学习：模型根据没有标签的数据学习，用于聚类和关联规则挖掘。
当然还有半监督学习，就是介于前两者之间的学习模式。
强化学习：模型通过与环境交互，根据奖励机制来学习策略，主要用于机器人和游戏这一块。
深度学习：基于人工神经网络，特别是在处理大规模数据集时表现出色。
计算机视觉、机器人学
生成式AI，包括自然语言处理、图像视频音频生成。等等等等，可以看到是一个非常庞大的理论体系。

每一个AI分支都需要不同的专业知识和方法，这些技术在公众目光中如潮起潮落，先是Deep Blue和AlphaGo掀起了一阵强化学习的狂潮。紧接着，人脸和图像识别技术推动了卷积神经网络，也就是深度学习的热潮。然后波士顿动力的机器狗和其他人形机器人引爆了机器人学的热情。到了现在，好像全世界的注意力都被引导到了大语言模型为首的生成式AI上了。因为语言、声音和视觉体验都是对人类感官最有刺激性的。但是，生成式AI的应用就当下和不远的未来都只占据了一小部分。吴恩达教授在23年的斯坦福大学讲座上提到，目前人工智能应用领域占据主导地位的是监督学习，包括但不仅限于图案、语音识别与处理，金融投资服务，医疗诊断，市场分析，客户分类，推荐系统。让我们以这个视频网站推荐系统为例。首先，系统会从用户的活动中收集大量数据，包括他们观看哪些视频、观看多长时间、何时暂停或跳过，以及他们的搜索历史还有点赞、评论或分享这样的互动。这些信息帮助构建出每个用户的profile和视频的标签系统。为了确保这些标签的准确性与一致性，需要人工介入。接下来，数据科学家和机器学习工程师会从这些数据中选择或创造出影响推荐效果的关键特征，比如视频的流行度或用户与视频内容的关联性。这一步行话叫作特征提取，它是让模型有效从数据学习的关键。模型训练的过程中，目标是减少预测结果与实际结果之间的差异，即优化模型的准确性。尽管训练可以自动进行，但挑选适合的模型参数、算法和训练方法往往需要人工干预。工程师会根据模型的表现调整这些参数以优化性能。训练完毕的模型随后被用于推荐系统，这些算法会根据用户过去的数据和他们的实时行为调整推荐内容，目的是提高用户满意度和增加他们在平台上的活跃时间。最终，推荐系统的表现需要持续评估和优化。这包括监控系统的效果、用户的反馈和参与度等指标。数据科学家和业务分析师会深入参与评估过程，解读结果，并根据反馈调整模型或其训练方式以改进推荐系统。你可以看到，这个把观众拿捏得死死的视屏网站，需要具备广泛理解知识和跨学科的专家们干预才能创造出更健壮的AI解决方案。而且，在监督学习中，数据必须准确标记，选择并调整合适的模型以便高效工作。这个过程非常复杂，通常需要人类的洞察和干预来处理细微差别和异常。接着来说说机器人领域，说到人工智能，大家肯定会第一个想到机器人。但是大伙有没有想过，为什么最近机器人被生成式ai抢走了风头？是因为研究机器人的科学家工程师们躺平了吗？我觉得正是因为现在机器人领域的相对冷寂，凸显了目前人工智能发展的真实现状。首先，我来看一下目前优秀的人工智能的准确率：在图像识别任务，如ImageNet竞赛中，顶尖的深度学习模型的准确度可以超过 90%。在自然语言处理领域，优秀的监督学习模型常能达到 80% 到 90% 的准确率。在医疗影像分析等应用中，监督学习模型的准确度往往在 85% 到 95% 之间。这样的准确率在生成式AI的用户看来会觉得已经很高了，因为一个是一般人的视觉听觉和语言系统天然就有较高的包容性和较弱敏感性。哪怕你在和人交流的时候或者看电影电视剧听广播的时候都会去包容或者忽略掉细小的口误、瑕疵还有一些无关的内容。另一个是，犯错的风险也很小，大多数情况下用户对ChatGPT偶尔产生的幻觉、答非所问不会很介意，对吧？但是，在机器人行业就不行。在许多工业和商业应用中，对机器人执行的操作的精确度要求非常高，比如工业装配和焊接、医疗手术机器人。目前的机器学习模型和机器人传感器技术仍然无法在所有情况下达到这种精确性，尤其是在复杂的或变化的环境中。现在最新的医疗机器人（STAR），霍普金斯大学研发的，能够实现相对高精度的手术，尽管使用了先进的图像处理和机器学习算法，机器人在手术计划和执行过程中仍然需要在人类操作者的监督下进行调整和确认。如果我告诉你，这台医疗机器人最大误差在3毫米左右，你会放手让它独立给你做手术吗？另外，在现实和人或者环境互动的复杂性，收集高质量的数据，安全性和可靠性上，机器人领域的人工智能一直远远没有达到人类的预期。我聊了这么多，就是希望给大伙一个目前人工智能发展的一个概念。引用Sam Altman的一句话就是“ChatGPT4一个标志性的早期AI系统，它还存在很多问题，对于人工通用智能的开发，我们还有很长的路要走。”

现在，我们着眼于未来，我们到底想要创造出一个服务人类利益的工具还是扮演神去仿造自己创造一个新的物种呢？就像是电影《普罗米修斯》里的工程师，按照自己的DNA，创造出了人类。从现在Sam Altman和黄仁勋的访谈里来看，他们还是偏向前者，但是居我观察到还是有不少所谓的AI大牛会去按照后者的标准来指责现在AI的发展方向。不管怎样，也许就像黄仁勋所说AI技术的鸿沟被填上了，人工智能能够真正地提高准确率、稳定性，人类的语言就是未来的编程语言。在那个时间到来之前，我们还需要继续学编程吗？任何编程语言其实和人类语言一样，当你学会了语言的词汇和语法，你就真的会说话了吗？这里的说话指的不是小孩子的牙牙学语，而是人与人之间正真的沟通交流，包括清晰有逻辑地表达思想、理解并分析对话的人的意图、如何利用知识储备去与他人沟通合作。一名优秀的演说家还要懂得去调动听众的情绪，产生共鸣。人类和AI之间的沟通也是如此，不知道大伙有没有听过一个最近火起来的词叫作“Prompt Engineering”提示工程？Prompt engineering 是指设计和构建输入数据的过程，用于优化机器学习模型特别是在自然语言处理领域中的表现。很多人看不起这个词，觉得现在之所以Prompt engineering很重要，是因为现在ChatGPT4还不够先进、不够发达。等以后GPT9527出来之后，AI的理解能力增强了，Prompt engineering就不重要了。所以我们没有必要去费劲地学Prompt engineering。可能，如果AI能够像X战警里的X教授，哈利波特里的分院帽那样会读心术的话，也许还真的不需要prompt engineering了。但是X教授不还是要张嘴念台词和别人交流的嘛。这里提示工程的本质就是如何使用人类的语言去跟AI更好地沟通。那么如何学好Prompt Engineering呢？首先，了解机器学习和自然语言处理的基础知识是非常必要的。这包括了解不同类型的基础模型（像是SVM，Decision Tree, Random Forest, Deep Learning, Transformer）及其它们工作原理。我们以前大学上机器学习的课讲的都是这些，Transformer没有奥。然后，学习和分析成功的prompt engineering案例，理解什么类型的prompt对特定任务更有效，并且尝试模仿这些成功的案例。接着，自己去尝试构建和优化prompt。可以通过大语言模型比如说GPT，Gemini，Claude，它们提供的API接口进行实验，测试不同的输入对输出的影响。比如说，同样是学习Python，”不好的Prompt：”教我Python。” 好的Prompt可以是：”我是一个初学者，对编程几乎没有了解，但我想学习Python来进行数据分析。请给我一个详细的学习计划，包括推荐的学习资源、实战项目以及如何逐步建立我的技能。还有人说，以后大公司或者牛人们会帮我们优化好提示工程，替我们去和AI直接交流。那么我想问问他们，虽然现代汽车已经提供了很多高级功能，为什么很多汽车爱好者还是喜欢对自己的车辆进行改装，更换发动机或者更改车身外观。因为，这些爱好者通过改装来获得更个性化的驾驶体验和满足自己对汽车性能的特定需求。有些人更愿意把掌控权拿到自己手里，而那些大公司AI在优化你的prompt的过程当中，它会代替你去做很多的决定，比如说你怎么也画不出亚裔男和白人女在一起的图画，小美人鱼永远是黑的，游戏女主永远是丑的，对吧？

不知道大伙怎么想，至少大多媒体认为AI技术更加平民化了对我们人类的要求就会降低了，我们不需要去学这个学那个了。但是对我们频道想要拥抱、掌控AI的兔粉来说其实要求更高了。这不仅仅是对数学、数据结构和算法的知识的要求，更是对个人能力，比如问题解决、创新思维和技术应用的全面要求。最近有个叫llm.c的项目，它将大语言模型的训练过程剥离到最基本的层面，用C语言编写并且不依赖任何其他库，显然它对标的是PyTorch。像GPT-2这样的模型训练，llm.c只用了1000行代码，集中在一个文件里，而PyTorch代码量超过了两百四十万行分布在四千多个文件中。这个项目是开源的，感兴趣的小伙伴可以去看看。我觉得这个精巧的项目，不仅仅是编程的胜利，更是对问题解决策略和算法理解的胜利。因为和使用PyTorch这样的复杂框架相比，你必须能够推导出每一层网络的前向和反向传播公式，还必须非常小心地处理所有数组计算。当然，我不是说它可以完全替代PyTorch，因为在灵活性、运行速度上它还是比较吃亏的，毕竟PyTorch是一个社区性质千锤百炼的大项目。但是，我们现在追求的不正是精简和效率吗？这就需要你的对数学、编程和人工智能的良好教育和深入理解。那么，对于编程来说，挑一门或者少数几门编程语言去深入挖掘数据结构和算法的知识可能是最好的实践和拥抱AI的准备了。我想起一个关于Google网页搜索的发展挺有趣的故事。早期的搜索引擎主要依靠关键词匹配来排列搜索结果，这种方式经常不能真实反映网页的重要性，也不太能满足用户的实际需求。这时候，Google的创始人拉里·佩奇和谢尔盖·布林就出手了，他们开发出了PageRank算法。想象一下，整个互联网就像一个巨大的网络图，每个网页是图中的一个节点，而链接则是连接这些节点的有方向的线。PageRank算法就是在这个基础上工作的，它的目标是给每个网页一个“重要性”或者说“权威性”的评分。它用了个称为“随机游走”的模型，就像一个随机游客在网上闲逛，通过点击链接随机移动到下一个网页，有时候还会随机跳到网络中的任何一个网页去。所有网页一开始的PageRank分都是一样的，然后通过一系列的迭代计算，不断更新每个网页的排名，直到这个排名稳定下来。但是，PageRank算法主要依赖于链接的数量和质量，这就忽视了内容的实际相关性。这就意味着，如果一个网页虽然被很多其他网页链接，但内容和用户查询不够贴近，它还是可能排名很高。这时候，有经验的AI开发者就会利用文本分析和自然语言处理（NLP）技术，机器学习模型能够理解查询和网页内容之间的语义关联，帮助搜索引擎更准确地抓住用户的查询意图，提升搜索结果的相关性。还有个问题是PageRank容易被操纵，比如有人专门构建链接网络来提高网页排名。这种情况下，有经验的AI开发者就会推荐用支持向量机（SVM）这样的工具，这个经典模型以后如果我开机器学习课肯定会讲。SVM通过分析链接模式和网页内容与外部链接之间的不一致性等特征，能有效识别并压制那些人为推高排名的网页。所以说，真正重要的是我们要有能力去识别问题，创新地思考并运用技术来解决问题。这些能力对于未来尤其重要。

最后我还想跳出科技层面，来聊一聊我比较关注的人工智能的普及以及伴随其而来的法律法规和伦理道德问题。我觉得其实这部分才是目前最需要发展的点。我在准备这期节目的时候，刚好看到斯坦福大学的李飞飞教授发布的《2024年人工智能指数报告》。我比较关注的，首先一个是，前沿模型非常昂贵。比如，OpenAI的ChatGPT4使用了7800万美元的计算资源，而谷歌的Gemini Ultra计算成本高达1.91亿美元。投资还在不断激增，这变成一个大资本才能玩的转的游戏。这种模式不可避免地引发了一个问题：这是否意味着只有少数富有的公司才能掌控这些强大的技术？这样的大模型生成式AI的发展方向真的正确吗？这不仅是技术的问题，更是公平性的问题。从历史上看，开源运动已经在某种程度上解决了这个问题，如Linux，ROS这样的开源系统，它们推动了技术的民主化。因此，我认为我们需要更多地推动AI技术的开源化，以确保技术进步的成果能够普及给更广泛的社会群体。第二个是，严重缺乏健全可靠的大语言模型评估手段。包括世界上所有的头部AI机构都是依据不同的安全标准测试他们的模型，没有行业的标准没有行规。我觉得该有一个全球性的、独立的AI评估框架，类似于在金融行业中广泛使用的标准普尔和穆迪评级体系。这样的系统可以提供统一的评价标准，增加AI技术的透明度，帮助政策制定者、企业和公众更好地理解AI技术的实际效能和潜在风险。第三个是，人工智能的法规数量急剧增加，这是一个积极的信号。美国关于人工智能的法规在2023年有25项，相比2022年增长了56.3%，而2016年的时候只有一项。但这还不够，我们需要更多关注于如何贯彻执行这些法规，以及如何评估它们的实际效果。AI现在能够生成看似真实的新闻、社交媒体帖子、甚至假视频和音频，这些内容可以极具误导性，影响公众意见，甚至操纵选举结果。例如，深度伪造技术（Deepfake）已被用来创造假的政治人物讲话视频，这种视频在没有明确标示的情况下极易误导公众。所以是不是应该去开发和部署更高级的检测工具来识别AI生成的内容，另外就是抓紧在社会中对人工智能知识和风险的普及和预警？

数据民主化是另一个我非常关注的领域。给人工智能带来长远发展就需要数据民主化。它能带来的数据质量和多样性的提高，使更多的个体能够贡献到AI模型中，这导致了更健壮和具代表性的数据集的形成。这反过来增强了AI模型的训练和应用，促进了各个领域的创新和应用。我这么说是不是很好听？但是，数据民主化意味着从多样化的来源收集大量数据，包括个人敏感信息。如果这些数据的收集、存储和处理不受严格监管，就可能被滥用，例如被用于未经授权的监视、数据挖掘和个人信息的不当使用。另外一个是虽然在理论上，数据共享可以加速知识的传播和技术的发展，但在实际我们能不能相信这些拥有我们信息数据的大公司们的实际操作呢？信息就是金钱，流量就是财富，AI技术真的能够做到平民化吗？

这让我想到一个叫《永恒之柱》的跑团游戏。在这个架空背景的游戏里有一种叫做铸魂学的技术，它允许人们观察、操控，甚至吸收和转移灵魂。这种能力不仅对个人的身份和命运具有深远的影响，而且还可能改变社会结构和伦理观念。例如，铸魂学可以用来治疗因灵魂问题引起的疾病，或是用于复活已故的人，创造没有灵魂的劳动力，甚至是创造神性。你有一个圣骑士队友叫作帕莱吉娜，她让你帮她解救一位被绑架的导师同时也是著名的铸魂师贾科洛。在解救贾科洛的过程中，绑匪们向你提出了三个问题，一个是，一个女人怀孕了，通过铸魂学判断，她要出生的孩子的灵魂上不完美，以后会遭受很大的痛苦，如果她在孩子的生命真正开始之前结束了孩子的生命，这是好事还是坏事？第二个是，你发现了一项强大的新技术，但你担心有些人可能会滥用它来达到不良目的。你会破坏这项技术、监管它的使用，还是让每个人平等地使用它？最后一个是，你会发现一个为很多人带来巨大好处的人，却会无意中给很多人带来巨大伤害。严重到让他所做的善事相形见绌的时候。你有机会通过杀死他来防止这种情况发生。你这样做吗？我们回答这些问题的时候决定了贾科洛的命运。一旦获救，贾科洛也会向你询问建议铸魂学该不该发展？如果要发展，那么该如何去管控铸魂学，是靠政府立法监管（立法官员可能缺乏对新兴技术的深入理解，法规的制定难以跟上技术发展的步伐）、行业监管（行业自律可能存在利益冲突，特别是在盈利动机与公共利益之间发生矛盾，缺乏强制执行力，可能导致某些企业或个体不遵守共同的规范）还是公众监管（公众和非专业团体可能缺乏对技术细节的深入了解，他们提出的要求或担忧可能基于不完全的信息）？这些问题也想交给大家来思考。

讲了这么多，可能大家发现我并没有给出任何的指导建议，我只是抛出一些问题，带着大家去思考。也许AI带来的焦虑也是一种好事，这能让我们更加清楚地了解自己，去了解更加深入的问题。好了，今天我就聊这么多！那就下期再会啦！

播客《和大伙聊聊天》

ChatGPT, 和大伙聊聊天, 大语言模型, 播客, 数据民主化, 人工智能

Posted by:

CyberHongTu

赛博红兔的科技博客

和大伙聊聊天：我们创造AI技术是为了不再学编程？

Leave a comment Cancel reply

和大伙聊聊天：我们创造AI技术是为了不再学编程？

Share this post:

Leave a comment Cancel reply