即将上市的社交巨头Reddit,其前景与其与OpenAI等AI厂商的数据合作关系密切相关。

在最近提交给美国证券交易委员会的IPO招股说明书中,Reddit一再强调其与训练AI模型的公司签订数据授权协议能带来的巨大收益。招股书显示:“2024年1月,我们与某些数据授权方签订了总合同价值2.03亿美元、期限为2-3年的协议。我们预计在2024年年底前确认至少6640万美元的收入,其余将在之后确认。”

目前尚不清楚哪些AI厂商从Reddit获得数据授权。早些时候,彭博社和路透社报道称,一家“未命名的大型AI公司”——可能是谷歌——与Reddit签订了一份价值约6000万美元的年度数据授权协议。OpenAI也可能是潜在客户,因为OpenAI CEO萨姆·阿尔特曼持有Reddit 8.7%的股份(使其成为第三大股东),曾是公司董事会成员。

Reddit数据为何值钱?正如Reddit解释的那样,AI模型通过学习例子来生成文章、代码、电子邮件、新闻等,而像OpenAI这样的厂商会从网络上抓取数亿甚至数十亿个例子添加到其训练集。一些例子是公共领域的,但其他例子不是,或者——例如Reddit内容——受到限制性许可的约束,需要引用或特定的补偿形式。

过去,Reddit没有限制AI训练对数据访问。但该公司去年改变了做法,首席执行官史蒂夫·霍夫曼表示,他们的数据不应“免费提供给世界上一些最大的公司”。

招股书继续说道:“我们的数据API可以提供对体育、电影、新闻、时尚和最新趋势等不断演变和动态主题的实时访问。我们相信,Reddit的大量对话数据和知识将继续在训练和改进大型语言模型方面发挥作用。随着我们每天刷新和增加内容,我们预计模型会希望反映这些新想法并使用Reddit数据更新其训练。”

从股票媒体库到新闻出版商,内容生产商越来越多地与AI厂商签订数据授权协议,因为像OpenAI的ChatGPT和谷歌的Gemini这样的聊天机器人威胁到流量。大西洋月刊最近的一个模型发现,如果像谷歌这样的搜索引擎将AI集成到搜索中,它将在75%的情况下回答用户查询,而无需点击进入其网站。

另一方面,由于面临大量指控,称他们没有法律依据在未经许可或支付的情况下训练模型,厂商们被推促寻求许可协议。最近,《纽约时报》指责OpenAI利用其作品,实质上是在打造新闻出版商的竞争对手,损害其业务。

OpenAI与图片库Shutterstock以及包括政治新闻和商业内幕所有者Axel Springer在内的出版商达成协议。然而,据报道,这些协议的规模相当小,每年最高不超过500万美元。

——————————————————————————————————————————————————————

雨昔资本的是一家新锐投资服务机构,是国内少有的同时具备政府资源、产业资源、机构资源、学校资源为一体的投资服务机构。

股权融资服务:我们为创业公司的融资提供一站式服务包括物色合适的投资者开展交易、协调交易的执行及持续的交易后支持服务。发现及配对平台有效整合交易来源信息,促成创业家,我们的咨询团队与投资者直接互动。

项目并购服务:我们为境内外上市公司以及大型企业,提供一站式服务包括项目并购服务,为需求方寻找合适的被并企业。发现及配对平台有效整合交易来源信息,协调需求方与项目方的交易,促成项目交易。

政府产业服务:雨昔资本通过自身的资源优势,充分发挥产业资源、机构资源,同地方政府相结合,帮助各地政府寻找优质项目,实现产业落地与人才落地,匹配优质的社会化资金,助力地方政府『双招双引』,从而实现地方从项目引入到产业发展到集群式产业带落地。

合作联系方式

purair@betterrain.cn

jennie@betterrain.cn

作者 purair

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注