微软、谷歌和Meta押注合成数据构建AI模型
聊天机器人每一个巧妙的应答背后都有海量数据作为支撑——在某些情况下,需要从文章、书籍和网上评论中摘取数万亿个词汇,以教会人工智能系统理解用户的查询。业界的传统观点是,创建下一代人工智能产品将会需要越来越多的信息。
然而,这个计划存在一个大问题:互联网上能够提供的高质量数据是有限的。为了得到这些数据,人工智能公司通常的做法是,要么向出版商支付数百万美元以获得内容许可,要么从网站上下载数据,使自己面临版权纠纷的风险。越来越多的顶流人工智能公司正在探索另一种在业内引发分歧的办法:使用合成数据,从本质上来说就是假数据。
0 0 2024-05-10