笔者认为,人工智能本身代表新型生产力,是人类的发展方向;Web3与A的结合将使得Web3成为新时代的新型生产关系,成为组织未来人类社会,避免 AI 巨头形成绝对垄断的救赎之路。
作为一名长期奋战在 Web3 一级投资一线,以及曾经的 AI研究者,写一篇赛道 mapping,弟认为自己责无旁贷。
一、本文目标
为了更充分地理解 A,我们需要了解:
1.A的一些基础概念如:什么是机器学习,为何需要大语言模型。
2.AI开发的步骡如:数据获取,模型预训练,模型fine tune,模型使用;都是在做什么。
3.一些新兴方向如:外置知识库,联邦学习,ZKML,FHEML,promptlearning,能力神经元。
4.整个 A链条上对应 Web3 都有哪些项目。
5.对于整个 AI链条 什么环节具有比较大的价值 或者说容易出大项目。
在描述这些概念的时候,笔者会尽量不使用公式、定义,而是用打比方的方式进行描述。
本文尽可能覆盖了较多的新名词,笔者希望在读者心里留下个印象,如果未来遇到,可以回来查其处于知识结构中的什么位置。
二、基础概念
Part 1
当今咱们熟悉的 web3+ai项目,他们的技术是属于人工智能 中的 机器学习 中的 神经网络这一思路。
下面的这段主要界定清楚一些基础概念:人工智能、机器学习、神经网络、训练、损失函数、梯度下降、强化学习、专家系统。
Part 2
人工智能
定义:人工智能是研究开发能够模拟、延申、扩展人类智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能的研究目的是促使智能机器,会:听,看,说,思考,学习,行动
我的定义:机器给的结果和人给的结果一样,真假难辨(图灵测试)
Part 3
专家系统
如果一件事 有明确的步骤、需要用到的知识:专家系统
Part 4
如果一件事 难以描述怎么做到:
1.有标注数据:机器学习,比如分析文本中的情感
例子:需要的训练数据
配钥匙师傅问我:”你配吗”neutral
隔壁很壮的小王问我:”你配吗“-negative
2.几乎无标注数据:强化学习,比如 下棋
Part 5
神经网络是怎么教会机器一个知识的
机器学习现在涉及的知识和范围很广,我们这里仅仅讨论机器学习中最经典的套路,神经网络。
神经网络是怎么教会机器一个知识的呢?我们可以类比为我们:
如果想教会小狗如何在垫子上小便(经典案例,无不良指向)——(如果想教会机器一个知识)
方法1:如果狗狗在垫子小便则奖励块肉,如果不在则打屁股
方法2:如果狗狗在垫子小便则奖励块肉,如果不在则打屁股;而且距离垫子越远,打得越狠(计算损失函数)
方法3:狗狗每走一步,就进行一次判定:
如果是朝向垫子走,则奖励块肉,如果不是朝向垫子走,则打屁股
(每进行一次训练,计算一次损失函数)
方法4: 狗狗每走一步,就进行一次判定
如果是朝向垫子走,则奖励块肉,如果不是朝向垫
子走,则打屁股;
并且给狗狗在指向垫子的方向摆一块肉,吸引狗狗往垫子走
(每进行一次训练,计算一次损失函数,之后向着能最好降低损失函数的方向,进行梯度下降)
Part 6
为什么最近十年神经网络突飞猛进?
因为最近十年人类在 算力、数据、算法上突飞猛进。
算力:神经网络其实上个世纪就被提出了,但是当时的硬件运行神经网络,耗时过长。但随着本世纪芯片技术的发展,计算机芯片运算能力以18个月翻一倍的速度发展。甚至还出现了 GPU这种擅长并行运算的芯片,这使得神经网络在运算时间上变得“可接受”。
数据:社交媒体,互联网上沉淀了大量训练数据大厂们也有相关的自动化需求。
模型:在有算力,有数据的情况下,研究者研究出了一系列更高效,更准确的模型。
“算力”、“数据”、“模型”也被成为 人工智能 三要素。
Part 7
大语言模型(LLM)为什么其很重要
为什么要关注:今天我们欢聚于此,是因为大家对Al+ web3 很好奇;而A 火是因为 ChatGPT;ChatGPT 就属于 大语言模型。
为什么需要大语言模型:我们上面说了,机器学是需要训练数据的,但是大规模数据标注成本太高;大语言模型以一种巧妙的方式解决了这个问题。