世界上最多产的写手:中国算法

也许有一天,所有网页上的竞价广告全都由机器自动生成。 Image copyright Getty Images
Image caption 也许有一天,所有网页上的竞价广告全都由机器自动生成。

阿里巴巴是中国一个类似eBay的批发采购平台,如今已经是电子商务巨头。无论你想买什么,小到厨房水槽,大到豪华游艇,都能在这个网站上找到相应的商品图片和具体描述。每样商品都有一个简短的标题,大多由几个关键词组成:不论是USB手机充电器还是防火工装裤,商家为了让自己的商品在从成千上万个同类产品之间脱颖而出、出现在搜索结果的前列,这几个关键词大多经过精心筛选。

这种文案听上去并不难做,但实际上是一门很讲究的艺术。阿里巴巴最近透露,他们正在开发一款能够自动生成产品描述的人工智能(AI)。在过去的几十年里,人们已经用AI写过音乐,画过画,甚至还写过(糟糕的)诗。而如今阿里的这款AI,每秒能自动生成20000条商品文案。

伦敦大学学院的汪军(Jun Wang)教授说,“生成型机器人是新一代的聊天机器人,而生成文案副本只是功能之一。”

这款智能文案AI由阿里巴巴旗下数字营销部门“阿里妈妈”研发,它在深度学习淘宝、天猫上的海量产品描述后,采用自然语言算法的技术,自动生成新文案。

阿里巴巴发言人表示,“以前为了找灵感,通常要花上好几个小时去研究竞争者的商品目录和厂家网页,AI工具解决了这方面的不便。现在只要点几下鼠标,理想的文案就生成了。”

Image copyright Getty Images
Image caption 阿里巴巴最近宣布,公司正在使用AI生成产品目录。

尽管他们已在艺术界初做尝试,但就短期而言,这种系统能发挥的最大作用,还是生成单调乏味的文本,比如广告文案。软件每天都能生成数以百万计的文字和图片,让成千上万的人都能看到,并受其影响。假如系统做的足够好,我们可能都觉察不到其中差别。

在互联网上,人与机器代理之间的界限早已模糊。推特(Twitter)机器人经常传播假消息,垃圾邮件机器人推送的伟哥(Viagra)广告甚至带有稀奇古怪的诗意,新闻整合器搜索到在线新闻后能快速洗稿,快到几乎分不清原创作者是谁,文章又是在什么时候发表的。

就拿阿里巴巴撰稿器这条新闻来说。英国、美国和印度等国家的几个新闻媒体追踪了阿里的英文公关稿。在最早的报道中,有一个相关视频发布在“突发新闻”(Breaking News),一个不太出名的YouTube频道上。视频里的配音由一个合成声音完成,画面上是一系列阿里和其他电商的资料图,还配有字幕。视频描述中藏有出处文本的链接,打开后发现,是一篇一小时左右前发布的文章,发表在印度一个网站——国际商业时报(International Business Times)上。

从洗稿速度之快和制作之草率中不难看出,这个视频是自动生成的,而且新闻的副标题复制过来后都和正文融为了一体。除了这个阿里巴巴视频之外,这个频道的其他视频都是经过洗稿的国际足球新闻。

虽然不排除新闻题材需要人为筛选的可能,但无论从频道本身还是其关联的推特账号上,都看不出明显的人工操作痕迹。也因此有新闻报道说有AI能大量创造出AI。总而言之,欢迎来到未来世界:从前怪诞不已的事情,如今早已稀松平常。

“这不是科幻小说,”汪教授说。商品推广的目的性很强,他也因此认为生成型AI能够胜任这类工作。他表示,“(推广商品)看重的是点击率和购买率。我们不是在谈艺术创作。”

Image copyright Getty Images
Image caption 阿里巴巴称该AI每秒可生成20000条文案副本。

阿里巴巴表示,这款AI操作起来并不复杂。只要提供商品链接,点一下鼠标就可以生成产品描述了。阿里巴巴发言人说,“生成的待选文案有很多。用户可以自己选择,从文案的长度到风格都可以调整,直到满意为止。”

当然,这款AI工具还很多产。阿里巴巴称,它每秒可以生产2万条文案,每天有近百万的使用量(用户包括美国服装品牌Dickies)。出于不同的页面大小需要,有些公司需要的广告文案不只一条,而他们希望这一系列的文案都能够吸引消费者的眼球。

阿里不是唯一一家使用AI的企业。京东是阿里巴巴的主要竞争对手之一,他们表示也在使用一种称之为“AI编写机器人”的软件生成商品描述。技术网站ZDNet的报道称,京东的AI系统每天可以生成超过1000条文案,语言华美,能把婚戒描述成是佳偶天成的象征。

然而,佐治亚理工学院的里德尔(Mark Riedl)却怀疑这类AI工具有没有公关口中那么出色的能力。阿里巴巴在其新闻稿中声称,他们的AI编写器已经通过了图灵测试(即已经拥有了人类智慧),暂且抛开结论不谈,其中的过程也疑点重重。有一点是,我们不知道AI系统对流量转化率——也就是顾客的点击率和购买率,有多少助益。

里德尔说,生成类系统无疑十分擅长学习撰写描述事物的文本,“只要一张图片或几个关键词就能写出一段商品描述。”AI能够识别照片,换句话说,AI只要调用对这张照片所有的理解,就可以串联出一小段商品描述,看起来和人类写的别无二致。

Image copyright Getty Images
Image caption 阿里巴巴的竞争对手京东表示,它也在使用人工智能来生成商品描述。

生成文案只是完成了一半工作。“文案写作还是要考虑到长尾理论,”里德尔说。尤其是在互联网热点竞争如此激烈的今天,要将点击量转化成销量,就一定要找准群体和市场定位,了解他们的喜好,解决他们的诉求。

“这是一款相机,有一堆七七八八的功能,这么写文案肯定不够。文案上肯定需要展现为什么这款相机值得买,有什么独一无二的功能。”里德尔说。“要写出这样的文案则需要更多的信息,这就要求写手更了解这款产品,以及产品所针对的消费群体。”

阿里和京东的机器学习技术有一个共同的问题,那就是AI学习到的话术很难出彩。里德尔说,“对于一般的文体而言,AI一定会掌握得很好,但如果想要追求专业、追求独到,那就十分棘手了。我们的科技水平还没有到达那个高度。”

事实可能确实如此,但这正是我们前进的方向。

想要了解为什么难以出彩,首先需要了解广告如何做到了解用户,然后精准投放。例如王旭与人联合创办的伽马传媒公司(MediaGamma),主要利用强化学习的算法为厂商提供广告服务——强化学习是机器学习的一种,深度思考(DeepMind)旗下著名的围棋圣手阿尔法狗就是采用这种算法。一个有广告的网页,每个人打开看到的广告可能都不一样,因为这些广告是基于用户喜好而精准投放的。

网页一旦开始加载,英特网上的广告代理商就能知道是谁打开了这个页面,随即便开始了一场快速的竞价战,最后得以展示的广告通常是近100个厂商之中的竞价最高者。整个过程不过100毫秒,比眨眼还快。

在这场自动化竞价战中,伽马传媒的AI扮演了一个智能开价的角色。这个人的注意力值多少钱? “我们不知道你是谁,但我们知道你的上网记录,”王旭说。

谷歌掌握着三个最大的广告网络公司——广告联盟(Adsense)、移动广告(AdMob)和双击公司(DoubleClick)。而谷歌的追踪器几乎覆盖了百万个最受欢迎网站的75%,它几乎能追踪到互联网上的每一寸土地。即使逃出了谷歌的手掌心,大概也难逃脸书(Facebook)追踪器对剩下25%网站的追踪。

追踪器会记录下搜索条目、访问页面以及停留时长。假如有个人爱好收集鞋子,追踪器就会记录下他从哪个网店买了哪双鞋子。伽马传媒的AI能够根据手头上的信息对互联网用户进行归类。假如有人的上网记录恰好与那位刚好买过鞋子的人类似,AI就会让鞋商开始投标竞价。

王旭说,“收到广告的人可能马上就会萌生要买鞋的想法。对于某个市场中的某一用户群体,我们还需要估算中标的金额。”

Image copyright Getty Images
Image caption 新华社称,其机构已经开始使用人工智能来生成新闻简报。

这仅仅只是个开始。上个月,伽马传媒获得了英国政府的“创新机构”拨款,用于开发更先进的AI,为定向广告生成文本和图像。这款AI将高度融合阿里广告撰稿器和当前伽马传媒的用户分析技术。很快,人们就可以利用这个技术来快速生成定向广告,不用再通过上网记录来分析要投放哪些广告了。“我们可以根据个人喜好来制作横幅广告,”王旭说。

如果这项技术被阿里掌握,那么就能生成定制的商品描述,即根据个人的购买习惯和购物偏好来生成商品描述,也就完美地符合了里德尔所设想的长尾效应模型。

AI系统确实是越来越智能,但它们是否愈发富有创造力?海明威写过一个著名的故事,仅由三个词组成:“出售:婴儿鞋,全新。”可以说类似于阿里巴巴的AI撰写的文案。在海明威笔下,这三个词能让人产生情感共鸣。这种能力来自于他对人类生活的深刻理解,这是机器永远所不能具备的。即便AI生成了同样的词,人类也难以有所共情。

至少到目前来讲,人们还没突破这一技术壁垒。里德尔致力于培养AI的叙述能力,让它像人类一样,能够构建故事、理解情节。谢扎雷德(Shezarade)是里德尔开发的一个实验系统,能够基于人类日常活动(例如看电影)生成简单的叙述文字。以下是其中一个故事的摘录:

约翰(John)开车去莎莉(Sally)家,他的掌心全都是汗,心脏狂跳不止。这是他俩的第一次约会。莎莉那漂亮的白色连衣裙随风飘动,她小心翼翼地坐进约翰的车。约翰和莎莉开车去了电影院。约翰和莎莉把车停在了停车场。为了给自己打气,约翰提前买好了电影票。检票员是一个脸色苍白的人,约翰出示了电影票,两个人就入场了。莎莉口渴了,约翰急忙在电影开始前买了饮料。

约翰和莎莉在影院后方的两个好位置上坐了下来。约翰坐下之后抬起了扶手,这样他和莎莉就可以依偎在一起了。电影播放时,约翰紧张地喝着他的饮料,同时更加关注莎莉。最后他鼓起勇气伸出手抱住了莎莉。他感觉到莎莉在回应他,既是宽慰又是狂喜。中途莎莉站起来去洗手间,在出口前羞怯地对着约翰微笑。

虽然确实没有海明威的故事动情,但AI生成叙事文本的能力正在逐渐提升。里德尔认为,叙事能力能够帮助AI贴近人类看待世界的方式——编故事通常能帮我们明白一些事。如果能掌握人类理解事物的能力,与AI沟通(像Siri那样)也会更人性化一些。

除了能编故事、做销售,创意型AI还能为选举服务,针对不同人群生成各种竞选运动的电子邮件和社交推文。第一台能够生成新闻简报的AI编写器已经诞生:新华社近期宣布将使用软件生成部分新闻报道。许多人认为新华社是中国政府的宣传机器,因此此举引起了不小的关注。数百个AI同时写一个版本的故事,其影响一定难以制衡,产生的新闻偏见也一定对社会影响巨大。

但科技的行进方向就是这样。如今越来越多的企业、政治活动家以及咨询公司都开始使用人工智能来辅助交流。即使知易行难,我们也应该尽力去分辨哪些东西是AI撰稿,趁现在还能有所区分。也许有一天,所有网页上的竞价广告全都由机器自动生成。王旭说:“没有人会察觉。”

请访问 BBC Future 阅读 英文原文

更多有关此项报道的内容