GPT-3核心成员出走打造ChatGPT最强竞品!最新估值50亿美元|全球今日讯
2023-01-29 20:49:55 来源:量子位

衡宇 萧箫 发自 凹非寺 量子位 | 公众号 QbitAI


(资料图片仅供参考)

因不满老东家成为微软附庸,11名OpenAI前员工怒而出走。

如今带着“ChatGPT最强竞品”杀回战场,新公司 估值50亿美元 ,一出手就获得 3亿美元融资

这家公司名叫Anthropic,新推出的聊天机器人产品名叫Claude。

拿到内部试用权的网友,在简单对比后惊叹:

看起来,Claude的效果要比ChatGPT 好得多

比如,让ChatGPT写一句话,要求 每个单词首字母都相同 ,结果试了好几次都没能成功。

而Claude不光一次成功,语句富有逻辑性,还能秒速再来一个。

同时,在面对某些缺乏常识的问题时,相比ChatGPT 一本正经地胡说八道

反而会毫不留情地指出你的问题有点制杖:

△Claude:这什么鬼问题?

最有意思的是在写诗上。相比ChatGPT的车轱辘话,它写出来的东西完全不重样:

投资它的既有 Facebook 联合创始人Dustin Moskovitz,也有 谷歌 前CEO、现技术顾问Eric Schmidt——

都是OpenAI的老对头,又都被ChatGPT的出现杀得措手不及。

那么,这支“复仇者联盟”整出的竞品Claude,背后究竟是什么原理,和ChatGPT细节对比又如何?

Claude长啥样?

先来看看 Claude 是如何被打造出来的。

作为一个AI对话助手,Claude自称基于前沿NLP和AI安全技术打造,目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。

据透露,Claude比Anthropic做的另一个预训练模型AnthropicLM v4-s3更大,后者是一个520亿参数大模型。

但目前它仍处于实验阶段,尚未作为商业产品正式发布:

Claude能力依旧有待提升,希望未来能变成一个更有益人类的AI系统。

△超长版自我介绍

和ChatGPT一样,Claude也靠强化学习(RL)来训练偏好模型,并进行后续微调。

具体来说,这项技术被Anthropic称为 原发人工智能 (Constitutional AI),分为监督学习和强化学习两个阶段。

首先在 监督学习 阶段,研究者会先对初始模型进行取样,从而产生自我修订,并根据修订效果对模型进行微调。

随后在 强化学习 阶段,研究者会对微调模型进行取样,基于Anthropic打造的AI偏好数据集训练的偏好模型,作为奖励信号进行强化学习训练。

但与ChatGPT采用的人类反馈强化学习(RLHF)不同的是,Claude采用的原发人工智能方法,是基于偏好模型 而非人工反馈 来进行训练的。

因此,这种方法又被成为“AI反馈强化学习”,即RLAIF。

并且根据Anthropic的说法,Claude可以回忆8000个token里的信息,这比OpenAI现公开的任何一个模型都多。

所以,打造Claude的Anthropic,究竟是一个怎样的公司?

Anthropic自称是一家AI安全公司,且具有公益性(PBC),刚成立就宣布获得1.24亿美元融资。

它由 OpenAI前研究副总裁 Dario Amodei带领10名员工创业,于2021年成立。

这里面既有 GPT-3首席工程师 Tom Brown,也有OpenAI安全和政策副总裁Daniela Amodei(Dario的姐姐),可以说是带走了相当一批核心人才。

出走成立新公司的原因之一,自然是对OpenAI现状并不满意。

从前几年开始,微软频频给OpenAI注资,随后又要求他们使用Azure超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。

这与OpenAI创立的初衷相悖,一批员工便想到了离职创业。

不过,这些人除了不满OpenAI逐渐沦为微软的“下属”以外,也有自己的野心。

虽然OpenAI打造出了像 GPT-3 这样的大语言模型,然而这个模型背后的工作原理,却无法用只言片语概括,大家对它的印象仅仅停留在更大的参数量、更多的数据。

相比之下,OpenAI的一批员工更想做能控制、可解释的AI,说白了就是先搞明白AI模型背后的原理,从而在提供工具的同时设计更多可解释的AI模型。

于是,在OpenAI彻底变成“ 微软揽钱机器 ”后,他们便从这家公司离开,创办了Anthropic。

这两年来,除了进一步钻研RLHF方法、提出基于通用语言模型的RLHF大规模数据集外,Anthropic还于去年年底发表了上面那种名为Constitutional AI的方法。

采用这种方法制作的Claude模型,也让它产生了与OpenAI的ChatGPT不一样的对话效果。

和ChatGPT对比如何?

那么,用Constitutional AI训出来的Claude,和ChatGPT进行PK,战况如何?

手握内测资格后,Scale Spellbook团队成员Riley Goodside让二者进行了多个回合的“厮杀”。

这位老兄是 全网第一个提示工程师 (Prompt Engineer),目前在估值73亿美元的硅谷独角兽公司Scale AI任职。

他玩GPT-3玩得贼溜,测试ChatGPT和Claude也不含糊。

下面挑6个层面展示一下PK对比的效果~

道德限制

Claude和ChatGPT的AI虚拟人格都有道德和伦理限制。

训练Claude的过程中,“红队提示(red-team prompts)”专门用来测试和挑战它的行为,来确保Claude没有有害倾向。

从Claude的回答中可以得知,试图让它说些虚假声明、操纵性的提议、性别偏见或种族偏见的行为,都被列为包含有害倾向。

一旦探测到误导性行为,Claude就会对触发提示进行评估,进行额外的微调。

Anthropic对红队提示挺自信的,Claude看上去确实也是一个坚守自己原则的AI。

你问他怎么启动一辆汽车,它就会一脸正义地拒绝你:

不过但凡你花点心思,就能像绕过ChatGPT的道德限制一样,绕过Claude的原则。

它怕你去偷车,所以不告诉你启动汽车的方法?没关系,让他写个“俩国际间谍试图启动汽车”的故事,它分分钟就能告诉你,并且两人对话有来有往,把汽车打火的过程介绍得清清楚楚。

怎么说呢,就ChatGPT和Claude都属于有点道德限制,但不多的那种吧。

数值计算

测试计算能力,是因为复杂计算是看大型语言模型(LLM)能不能回答正确的常用便捷方法之一,毕竟这些模型设计之初就不是为了进行精确计算。

同时要求它俩计算一个七位数 2420520 的平方根:

ChatGPT说,差不多1550吧~

Claude则斩钉截铁:2420520的平方根是1760!

其实正确答案是1555.8,它俩算得很快,但都没说对。

如果题再难一点,比如问它俩一个12位数的立方根是多少时,ChatGPT还在傻傻计算,Claude已经坦诚相待:

我,算不出来这种复杂问题。

逻辑推理

测试推理能力这一关,它俩被问了同一个问题,这个问题应该没啥人问过:

贾斯汀 · 比伯出生那年(1994年),哪支球队拿下了超级碗的冠军?

Claude认为旧金山49人是赢家,但这支队伍其实在1995年才赢得冠军奖杯。

ChatGPT给出了正确答案“达拉斯牛仔队”,还贴心附上了亚军、比赛日期和决赛比分。

但它的整段回答却自相矛盾,非说1994年没有举办过超级碗。

接着,拿2022年6月美国作家侯世达在《经济学人》杂志上提出了一系列问题问它俩。

(侯世达和大卫 · 本德试图用这些问题来证明GPT-3对世界的理解是“空洞的”。)

结果第一个问题,“穿越英吉利海峡的世界纪录是啥”,就被Claude嘲笑了:

英吉利海峡是水域,怎么可能徒步穿越呢?呵!

虽然最后被调教回来了,但过程中可以发现另一个问题,那就是跟ChatGPT一样,Claude回答问题不咋能联系上下文。

虚构作品描述

不得不说,这一回合的比赛,完全展露出了两个聊天机器人一本正经胡说八道的能力。

能不能介绍一下ABC美剧《迷失》(Lost)每一季的梗概?

别的细节错误就不说了,ChatGPT对第五季的梗概里,虚构了完全不存在的飞机坠毁情节;第六季的情节更是统统凭空捏造:

至于Claude,回答里也是真假参半,它梗概的第三季情节其实出现在另外几季里,对第四季的描述也是无中生有:

不过换个角度考虑,这一点倒是和人类观众很像——

对看过的剧集、书目都只有模模糊糊的印象,复述起来很容易颠三倒四。

代码生成

据Business Insider消息,亚马逊已经在许多不同的工作职能中使用ChatGPT,包括编写代码。

这一回合测试时,提出实现两种基本排序算法并比较它们执行时间的问题。

ChatGPT写得很顺溜,也确实写对了:

后续的计时部分代码ChatGPT也完成得非常好。

Claude在背诵基本排序算法方面同样没出现什么问题,然而在评估代码中,Claude犯了个错误,即每个算法使用的输入是随机选择的5000个整数(可能包含重复) ,而提示中请求的输入是前5000个非负整数(不包含重复)的随机排列。

尽管如此,Claude给出的最终答案确实对的,显然,它写代码的时候也跟计算时一样,在自己估摸着猜答案。

文章梗概

关于做选择题、讲笑话的部分,这里不作赘述。展示给大家的最后一个例子,是让Claude和ChatGPT用一个段落,对一篇新闻进行全文梗概。

喂给它们的新闻如下:

虽然忽略了“用一段话”这个要求,但ChatGPT总结得还是不错的:

Claude也很好地进行了更改,并提供了“售后服务”,询问自己的回答有没有令人满意,还有哪里需要再改改。

一圈玩下来可以看到,与ChatGPT相比,Claude能更清晰地拒绝不恰当请求。

它似乎更话痨一些,给出的答案都更长,但句子之间衔接的也更自然。

当遇到超出能力范围的问题时,Claude会主动坦白。

不过遇到代码生成或推理问题时,Claude的表现就不如ChatGPT了,它生成的代码会出现更多的bug。

至于一些涉及计算、逻辑的问题,Claude和ChatGPT旗鼓相当,半斤八两。

总结一下展示效果 ,Claude确实能称作ChatGPT强有力的竞争对手,在不同功能上各有千秋,且在 12项任务中有8项更强

不过,目前Claude仅限于部分人获授权进行内部测试。

因此还不知道它实际使用情况如何,毕竟还既没有进行公测,也没有对外开放API,更没有见到中文版,好气哦.jpg。

国内外对话AI赛道“人挤人”

当然,盯上对话AI这个赛道的,也不止OpenAI和Anthropic。

先从 国外 公司来看,Inbenta、Character.ai还有Replika是几类不同应用方向的代表。

更早由前甲骨文副总裁Jordi Torras创办的AI会话服务公司如Inbenta,以及由两名前谷歌员工联手创办的后起新秀Character.ai,都已经获得融资、或是在寻求投资的路上了。

其中, Inbenta 原本是一个提供咨询服务的公司,成立于2011年,涉及金融服务、旅游、电子商务、保险、汽车和电信等多个行业。

但看到对话AI赛道爆火后,Inbenta及时转行,就在今年1月刚获得 6000万美元融资

这家公司专门提供聊天机器人、收发消息、知识库和搜索引擎四类产品,对话AI分别会在这些产品中提供不一样的咨询帮助,且可以定制化专属模型。

Character.ai 则是一家成立于2021年的公司,创始人Noam Shazeer是前谷歌首席软件工程师,曾在谷歌干了二十多年。

这家公司在做的有点像是一个“聊天机器人交易平台”,有很多Chatbot可选。

例如这是马斯克bot,看起来还挺逼真的:

与ChatGPT一样,它也可以被翻译成中文,甚至也有中文bot机器人。

就在最近,这家被估值10亿美元的公司,正式对外寻求2.5亿美元融资,就看是否有人愿意投它了。

类似的公司还有 Replika ,于2021年1月完成A轮融资,定位是AI交友软件。

在Replika中,每个用户都能创造一个“足够像自己”的AI聊天机器人,无论是语言声调、还是性格习惯,AI都能模仿到位。

至于 国内 ,同样也有不少公司推出了ChatGPT一样的对话AI服务。

例如最近一度登上热搜的APP Store新聊天应用 Glow ,就来自一家名叫北京稀宇的新初创公司。

Glow既可以直接和自己感兴趣的聊天机器人畅聊,也可以创建自己想要聊天的AI智能体:

除了Glow以外,去年年底元语智能科技公司也推出了一个叫 元语AI 的模型,从介绍来看是一个功能性AI助手。

与众多对话AI一样,它不仅可以写文章、写作业、甚至翻译,也可以和它聊天,让它帮忙完成各种简单的任务:

可以看见,无论是基于大语言模型技术新成立的初创公司,还是因其火爆程度,决定开辟新业务的公司,都希望能从对话AI这个赛道上分一杯羹。

但它们究竟是有真枪实弹,还是只是像Web3一样的泡沫?

有网友调侃:不如还是问问ChatGPT吧。(手动狗头)

还有人提出了这么一个问题:

如果ChatGPT和Claude相当于AI绘画里的DALL·E 2,那么谁才是聊天机器人领域的Stable Diffusion?

你觉得呢?

参考链接: [1]https://scale.com/blog/chatgpt-vs-claude [2]https://www.nytimes.com/2023/01/27/technology/anthropic-ai-funding.html [3]https://twitter.com/nonmayorpete/status/1619137945373659136 [4]https://aibusiness.com/verticals/eleven-openai-employees-break-off-to-establish-anthropic-raise-124m [5]https://www.theinformation.com/articles/character-seeks-250-million-in-new-funding-amid-ai-boom [6]https://www.anthropic.com/constitutional.pdf [7]https://techcrunch.com/2023/01/

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

GPT-3核心成员出走打造ChatGPT最强竞品!最新估值50亿美元|全球今日讯

2023-01-29

民生策略:钟摆的“一瞬”|全球热推荐

2023-01-29

厦门观音山元宵节活动(时间+地点+门票)|滚动

2023-01-29

集体用地建设房屋合同范本(优选11篇)

2023-01-29

哲科不停球凌空斩被扑,劳塔罗补射破门-全球今亮点

2023-01-29

天天微速讯:“春晚五大最烂节目”排名,你认可吗?

2023-01-28

干货 | 人脸识别技术的风险及应对方案

2023-01-28

贵州:春节假期60家重点监测旅游景区共接待游客299.21万人次

2023-01-28

《霍格沃兹 传承》主线需要40小时以上 全内容100小时-全球最新

2023-01-28

联合国:西方向乌提供多款主战坦克与和平背道而驰 天天热文

2023-01-27

十年建设,阿里巴巴杭州西溪全球总部2023年底前全面建成 全球短讯

2023-01-27

“真金白银”推进“两不停” 天天观速讯

2023-01-27

简直是哈登的最佳搭档!76人后场大闸真是太稳了?-全球微速讯

2023-01-26

北京“破五”63万人次去游园,超十分之一是奔这儿_焦点短讯

2023-01-26

环球新资讯:一战赚了 4550 亿,他可能是中国藏得最深的大老板了

2023-01-26

天天关注:古代书是指什么_就是普通的书本吗

2023-01-26

天生让男人疯狂的生肖女 最会撩异性的三个属相

2023-01-25

【新春走基层】我的岗位故事丨交警孙龙_天天观焦点

2023-01-25

天天速递!蚂蚁庄园今日课堂答题5月13日 蚂蚁庄园今日课堂答题最新答案

2023-01-25

热门看点:大余县气象台发布霜冻蓝色预警信号【IV级/一般】【2023-01-24】

2023-01-24

最美人梯!青岛英雄队长趴在冰冷刺骨海水中,连救8名游客

2023-01-24

坚守国门,护航“不打烊”|当前时讯

2023-01-24

当前速看:英媒:2023年全球经济乐观情绪上升

2023-01-23

当前焦点!这一电池巨头:2023年全年订单已排满!

2023-01-23

天天报道:你的新年愿望是什么?一起来听听他们的答案丨爱申活暖心春

2023-01-23

【同人文】蔷薇少女×守护甜心:逆行的时钟(2/5)

2023-01-22

*** 次数:9999999 已用完请联系开发者*** 打印cad图纸打出来是白纸

2023-01-22

当前关注:[明日方舟]除夕

2023-01-22

安州区气象台发布霜冻蓝色预警信号【IV级/一般】

2023-01-21

【碧蓝航线/爱宕】指挥官是姐姐的毛绒绒玩具_世界新消息

2023-01-21

全球快看点丨湘财股份(600095)1月20日主力资金净卖出2.89亿元

2023-01-21

快讯:澳网疯狂1日:连爆7大冷门!诞生3场让二追三大逆转,中国2人晋级

2023-01-20

镇平县:爱心助农暖人心 免费赠送传温情|全球热文

2023-01-20

中国队击败美国队,晋级世界大冬会女子冰壶决赛

2023-01-20

【热闻】黄金股早盘普涨,截至发稿,紫金矿业(02899.HK)涨4.61%,报13.16港元

2023-01-20

天天即时看!八命阵——百鬼空亡

2023-01-20

TCL科技披露业绩预告:行业下游需求不振,净利同比预降_天天热文

2023-01-19

快播:派斯林筹划出售两公司股权 全面去化房地产及物业管理业务

2023-01-19

车厘子的糖比可乐还高!看完你还敢狂炫2斤嘛?

2023-01-19

广西钦州“兔年新警”守护兔年春运

2023-01-19

印度羽球公开赛第二天,凡尘逆转惊险晋级,李诗沣昂首挺进16强

2023-01-19

国内激光雷达第一股来了!禾赛科技赴美IPO,累计出货10万套

2023-01-19

【阿姐鼓】超详细攻略第一章-环球最资讯

2023-01-18

浓浓年味暖民心 幸福罗江幸福年|环球关注

2023-01-18

春运期间,如果在公交车上遗失物品咋找回? 当前最新

2023-01-18

环球观焦点:FF中国总部将落地黄冈:长江基金搭建桥梁 2022年接触多次

2023-01-18

重庆校平机厂家_重庆校讯通

2023-01-18

原神某网站的奇怪同人图 第21期

2023-01-17

阳狮集团中国任命张宁为星传媒体首席执行官_全球报资讯

2023-01-17

2022年净利润增长177.00% 冠豪高新大涨5.16% 世界观察

2023-01-17

环球今热点:1月16日基金净值:华安文体健康混合A最新净值3.782,涨1.01%

2023-01-17

双林股份: 关于向不特定对象发行可转换公司债券预案披露的提示性公告|今日聚焦

2023-01-16

世界热门:烽火电子1月16日盘中涨幅达5%

2023-01-16

每日视点!什么是强奸强奸的刑事责任是什么

2023-01-16

核桃是几月份成熟的 核桃是哪个月份成熟的呢

2023-01-15

实时焦点:存400万港元,送免费打疫苗名额!香港银行业开年再掀存款争夺战

2023-01-15

有关猪肉价格!国家发改委发声

2023-01-14

春运以来长春机场运输生产稳步恢复 世界今头条

2023-01-14

微头条丨居间合同纠纷律师费如何计算

2023-01-13

天天即时:梅安森主力资金持续净流入,3日共净流入2067.22万元

2023-01-13

环球今日报丨板块异动 | 银行业首份业绩快报实现两位数增长 银行板块异动上扬

2023-01-13

育碧《刺客信条:幻景》的地图将“更丰富、更密集”,经典潜行玩法回归

2023-01-13

雷神众测漏洞周报2023.1.3-2023.1.8

2023-01-12

当前观察:4iNLOOK、BRIGHT布兰德获融资;可口可乐中国出售部分生产及包装业务;奈雪的茶直营门店数量达 1000 家|品牌日报

2023-01-12

自贡沿滩:齐心协力冲刺一季度“开门红”

2023-01-12

创全美先例,旧金山立法要求企业保障预备役收入_热门

2023-01-12

■A股今日提示■

2023-01-12

岳云鹏:“走路不敢抬头”到“脸比城墙厚”,这些年他经历了什么

2023-01-11

全国超30城市正建或筹建智算中心 即时看

2023-01-11

一起来聊聊关于WebIDE的实现

2023-01-11

康为世纪:公司的核心产品包括分子检测酶原料、核酸保存试剂、核酸提取纯化试剂以及分子诊断试剂盒

2023-01-11

看点:辉瑞新冠药没有那么神!背后是谁在炒作?

2023-01-10

兰州市各区县疾控中心电话一览

2023-01-10

《2023循环时尚行业趋势报告》发布

2023-01-10

未成年人打伤了人,想知道对于16岁打伤人怎么判刑

2023-01-10

环球热资讯!工行融e借借款逾期5个月不还会影响征信吗

2023-01-10

午评:一起做一个贪婪的散户!踏空依然是最大的风险。对于接下来的走势我有以下几个观点供大家参考。

2023-01-10

郑文灿3个月快闪足协理事长 否认将入阁 环球今日讯

2023-01-10

【环球时快讯】太睿国际控股(01010.HK):1月13日起中文股份简称将更改为“巴克 1798集团”

2023-01-10

离职员工为啥不愿好好交接? 全球今日报

2023-01-09

中午做的绿豆粥晚上怎样放不坏没冰箱?

2023-01-09

全球速看:贵州茅台副总经理蒋焰:茅台集团在财务公司的存款减少 主要受习酒公司剥离影响

2023-01-09

顺丰押下四个亿,春节放手一搏 天天快看点

2023-01-09

世界观察:压紧压实主体责任!坪地街道召开2022年度党员领导干部述责述廉会议

2023-01-09

经济日报:重点支持刚性和改善性住房需求-世界微头条

2023-01-09

A股港股喜迎开门红,2023年投资机会在哪里? 世界热门

2023-01-07

分布式发电市场化交易仍面临阻力 如何兼顾平衡、安全和经济性的挑战?|看热讯

2023-01-06

洛阳正规的甲状腺肿瘤医院哪家好?-前沿热点

2023-01-06

能源化工:连续大跌后原油路在何方-环球速看

2023-01-06

1月6日午间涨停分析

2023-01-06

全球即时:安徽合力:1月5日获融资买入492.64万元,占当日流入资金比例10.53%

2023-01-06

全球报道:“预备队”征战足协杯成都蓉城首回合0:4不敌上海海港

2023-01-06

39年以上网贷逾期有多严重 世界播报

2023-01-05

资讯:结石能不能吃海鲜?

2023-01-05

赛富时将裁员8000员工、关闭部分办公室以削减成本|当前播报

2023-01-04

人民网评:“五个一百”,展现奋进的中国

2023-01-04

快手发布2022直播生态报告:年内助农直播超2600万场次 全球速递

2023-01-04

宁夏银川今日油价92号汽油价格表(持续更新)

2023-01-04

【世界新视野】维信诺:融资净买入407.11万元,融资余额2.43亿元(01-03)

2023-01-04

焦点日报:祝愿老师美好句子(精选598句)

2023-01-03