人工智能竞赛中,语料数据被视为推动现有格局变革、实现技术飞跃的关键,因此吸引了众多行业的广泛关注。数据质量对大型模型的训练效果至关重要,进而对整个大模型行业的发展走向产生直接影响。

语料数据的关键作用

国内大型模型在算力和语料数据方面与国外存在不足。尤其是高阶语料数据,对训练成效有显著提升。黄海清强调,高质量的语料数据可以显著减少对算力的需求。例如,经过微调的高质量语料数据,仅需百卡GPU即可实现万卡的效果,凸显了其在大型模型训练中的高效性。同时,未来语料数据的发展应着重于构建包含新鲜度、真实性等要素的高质量语料集,为人工智能的进步打下坚实基础。此外,优质语料数据的构建对于降低算力成本、推动产业发展具有深远影响。

语料数据如何助力中国AI实现‘换道超车’?黄海清独家揭秘未来大模型主战场  第1张

上海在数据服务领域尚非领先城市,然而库帕思科技计划于2024年在此设立基地。该公司是在市委和市政府的引导下成立的,专注于语料库的建立,并定位为专业的功能性语料服务运营平台。这一决策体现了上海在语料数据处理领域的积极尝试。

大模型数量的收敛趋势

黄海清指出,未来基础大模型的数量预计将大幅缩减,不会超过十个。市场竞争激烈,部分企业可能面临淘汰,而其他企业可能转向专注特定行业的大模型。这一转变由市场竞争和资源优化配置推动,将重塑大模型行业的整体格局。

上海市委和市政府已设立了一个大型模型产业园区。此举旨在促进特定领域大模型技术的发展。这一策略被认为是恰当的。该技术领域对技术要求较高,有助于增强行业竞争力。随着基础模型数量的减少,特定行业的模型将获得更多关注。预计在未来模型领域,这些模型将扮演关键角色。

商业模式的探索方向

未来,大模型企业需重视商业及政府领域的商业模式。黄海清指出,ToB与ToG市场在行业中将扮演关键角色。特别是在国有及央企智能化转型阶段,市场潜力尤为突出。这些商业模式与特定行业的大模型发展密切相关。双方相互助力,协同推进大模型在企业和政府领域的应用及发展。

当前,国有企业和央企对智能化转型的需求持续上升,这一发展态势导致对大型模型的需求量持续增长。众多大型模型企业正积极投身于该领域的发展,不仅能够抓住商业机遇,同时也促进了自身技术的创新与进步。此外,针对特定行业的垂直领域大模型,更能满足国有企业和央企的个性化需求。

著作权相关的问题

我国现行的著作权“合理使用”条款无法应用于大规模模型训练,这一限制给我国模型企业造成了诸多挑战。一方面,企业面临合法获取所需语料的难题,这直接阻碍了基础模型和特定领域模型的商业化步伐。另一方面,这一限制也制约了模型技术的进步和更新,对国内大型模型产业的长期发展造成了不利影响。

企业遭遇授权方面的挑战,这影响了它们收集资料的能力,从而制约了业务规模的扩大。在当前法律体系内,迫切需要应对这一挑战,否则大型模型的发展进程将持续受到阻碍。

解决问题的建议

黄海清就语料数据存在的问题提出了优化方案。他认为应迅速确立大模型语料数据的使用规范。此外,他建议借鉴欧盟的“文本与数据挖掘”相关法规或日本的“非欣赏性原则”。黄海清还强调,推动“文本与数据挖掘”在预训练领域的应用,有助于协调著作权人与科技发展的需求。这一举措有望减轻授权方面的困扰。

政府需制定激励措施,以鼓励语料数据企业参与自动化工具链平台的研发。此举预计将减少语料数据的成本。得益于政策扶持,企业得以迅速成长,进而为大模型提供更优质且价格更优的语料数据。

语料数据在上海的发展

上海正积极进行大模型产业领域的战略规划。在最近的上海两会期间,黄海清提交了《关于研究语料数据合理应用规范,助力大模型产业持续进步》的议案。该议案反映了上海对语料数据管理问题的关注态度。

库帕思科技的成立凸显了上海对语料数据产业的关注。该市正致力于促进该行业的发展,并研究合适的应用规范。此举有望在全国大模型产业领域树立典范。

大型模型产业发展的关键在于语料数据的积累与否,抑或是商业战略的规划?对此,我热切期待您的观点。同时,本文亦期待您的点赞与分享。