中国生成式人工智能:尴尬开场,砥砺前行  第1张

中国人工智能发展历程中,其蕴含的价值观不容忽视。关键在于,人工智能应服务于中国人,满足他们的思考需求。然而,这一目标背后,诸多问题亟待梳理。

人工智能与价值观关联

人工智能算法虽持续演进,但模型性能与所用语料紧密相连。当前,数据语料的价值观念呈现多元化趋势,大型模型能够直接进行学习,而缺乏对对错的判断。因此,输入具备正确价值观的语料变得尤为关键。以2023年初出现的“麻婆豆腐”、“胸有成竹”等问题为例,其背后可能与语料库的状况有关。这表明,拥有正确价值观的语料库是人工智能健康发展的基石。同时,在中国,公众普遍期望人工智能能够秉承中国价值观,为广大民众提供服务。

构建与我国价值观相契合的人工智能服务,语料库作为其基石不可或缺。然而,若语料库出现偏差,其后果可能导致服务结果与预期不符。此类情形犹如列车误入歧途,难以抵达既定目标。

早期英文语料库的主导地位

众多模型过往依赖LAION数据集,该数据集自2021年起构建,被誉为全球最大的数据集,包含500亿图文对且对公众开放。它在全球图文模型领域具有重大价值。然而,数据集中超过95%的图文对为英文,中文图文对数量稀少且标注质量普遍不高,这一问题相当严重。

由于比例失衡,诸如牡丹等富含细节的中国元素在数据集中严重不足。截至2023年,高质量中文描述的图片语料仍显匮乏。然而,大模型独特的跨语言能力使得即便训练数据不含中文,也能将英文转换为中文描述。但这种做法并非长久之计。这反映出早期以英语语料库为主导的状况,对中文语境下的人工智能发展并不利。

CCI3.0语料库现状

CCI3.0语料库已更新至3.0版本。该库累积数据量达1TB,位居全球最大高质量中文数据集之列。此成果初步解决了高质量中文语料库的缺失问题。其问世具有深远意义,标志着重要进展。

全球中文创作在整体中所占比例较低,大约仅为5%左右。与英文语料库相比,中文数据集的规模较小,且在国外的开源语料库积累过程中,英文的比重较大。然而,我们的联合团队积极努力,迎头赶上,并取得了显著成果。基于该语料库训练的模型在中文能力上展现出明显优势。这标志着中国在人工智能语料库构建方面取得了重大进展。

CCI3.0的优势和局限

CCI3.0语料库训练所产出的模型,在中文质量方面显著优于其他现有中文开源语料库所训练的模型。这一成果为构建符合中国价值观、服务于中国人民的人工智能系统,提供了坚实的基石。

尽管如此,该语料库仍存在一定的局限性。仅凭此一语料库,尚无法全面解决相关问题。我们期待涌现更多高品质的中文语料库,以便企业拥有更丰富的选择。多样化的选择将助力人工智能行业迈向更高层次的发展,进而催生更多满足我国需求的产品。

移动端数据未充分利用的情况

指出者认为,语料库的采集主要针对网页数据,然而,近十年来,中国互联网上的大量数据集中在移动端,尤其是手机上。这些数据尚未得到充分挖掘,造成了资源的浪费。考虑到中国拥有庞大的手机用户群体,其产生的海量数据若能被有效利用,将极大地促进语料库的丰富和完善。

高的语料库必须全面覆盖中文数据,对此,移动端数据源不容忽视。引入移动端数据是构建与中国实际高度贴合的语料库的关键。

语料库对中国人工智能发展前景的影响

语料库的高质量对人工智能的发展具有重大影响。这不仅关乎现有模型的表现,更是决定未来人工智能服务中国人水平的关键因素。中国人工智能是否能够基于本土价值观提供优质服务,其关键在于语料库的构建质量。

各位读者,关于如何进一步提高我国人工智能语料库的品质,除了文中已阐述的内容,您是否还有其他建议?期待您的积极参与,发表宝贵意见。同时,欢迎点赞、分享和关注本篇文章。