“合成数据”迎来新的发展契机

发布日期：2023-08-21 08:27:25

随着ChatGPT持续火爆，背后的大型语言模型（LLM）和生成式AI技术（Generative AI）日益备受关注。目前人工智能正在从“以模型为中心”向“以数据为中心”（Data-centric AI）进行转变。以数据为中心的人工智能将重点转移到治理和增强用于模型训练的数据上，通过数据治理等方式，利用各类工具平台和技术手段，形成优质的标准化数据产品和完备的数据应用策略，最大化释放数据的价值。

然而，即便是人工智能，也会有“灵感枯竭”的一天。有研究预测，到2026年ChatGPT等大型语言模型的训练就将耗尽互联网上的可用文本数据，届时将没有新的训练数据可供使用。为了给人工智能喂上充足的“养料”，一种“基于算法人为生成出符合真实世界情况的数据”——“合成数据”应运而生。

合成数据得益于高质量、高效率和低成本，将是人工智能发展的重要支撑，更是数据要素市场“增量提质”不可或缺的有效手段。Gartner预测到2024年，60%用于AI开发和分析的数据将会是合成数据；到2030年合成数据将彻底取代真实数据，成为AI模型所使用数据的主要来源。截止2022年，国外合成数据企业数量已经突破100家，市场规模正在逐步增长，预计2027年将达到11.5亿美元。

毫无疑问，这又将是AI为人们带来的一个新的市场。那么，合成数据究竟是“何方神圣”？它能够为AI的技术发展提供怎样的帮助？又有怎样的产业价值？今天，请跟随《中国科技信息》一起来了解“合成数据”。

能喂饱AI的“合成数据”

所谓“合成数据”，是指运用计算机生成的人造数据，以模拟现实世界的观测，从而为训练、测试、验证AI模型和算法提供一种“题海”。

合成数据的生成技术包括基于物理仿真、基于统计模型、基于机器学习等方式，生成式AI技术的进步将快速推动合成数据的产业发展。在合成数据的生产和应用过程中，数据质量的评估和对模型影响评估至关重要，此外还包括数据的管理、隐私保护、工具平台和开放共享诸多方面。

此前，以ChatGPT为代表的AIGC技术基本都基于真实的庞大数据集训练而成，但随着AIGC应用端不断丰富，类似技术在开发过程中对数据的要求也不断提高。因此，开发人员在训练 AI 模型时通常需要大型、准确标记的数据集。当使用更多样化的数据进行训练时，神经网络可以实现更高的准确性。不过，用数千甚至数百万个对象收集和标记这些大型数据集可能非常耗时且昂贵。

而由于合成数据是人为生成的，具有成本低廉和隐私保护优势，将解决真实数据应用过程中的痛点问题，如真实数据短缺、数据采集耗时费力、数据标注量大成本高和真实数据隐私泄露风险等。

不过，作为一种数据增强技术，合成数据不能取代数据采集和标注。数据增强大大提高了模型的精确度，但并不会使模型达到完美。采取的任何方法或生成的数据都必须使模型更可靠。根据模型的不足之处明确定义模型的需求，有助于选择合适的工具并生成正确的数据。

就目前而言，合成数据大致可分为三类：表格数据/结构化数据，图像、视频、语音等媒体数据，以及文本数据。这几类合成数据在多个领域都有应用。AIGC技术的持续创新，让合成数据迎来新的发展契机，开始迸发出更大的产业发展和商业应用活力。

大部分合成数据的“根”仍然是真实数据

由于能够反映原始数据的属性，合成数据可以作为原始数据的替代品来训练、测试和验证AI模型。但人工合成并不意味着完全凭空捏造。现阶段，大部分合成数据的“根”仍然是真实数据。

在计算机视觉相关项目中，合成数据产品的普遍生成过程分为以下几步：首先，在现实中找到可识别的对象，通过扫描技术，将物体模型真实地还原在3D场景中；其次，对该物体模型进行打标签，如颜色、大小等，具体标签类型依据训练需求而定；最后，将这些物体放置于各种设定的场景中，随机组合，快速地生成多张图片。

因此，训练同一个AI模型时，使用真实数据也许需要摄像头不断变换地捕捉物体在不同场景、状态下的多张照片，而合成数据则能够通过调整物体位置、角度、所处背景等参数，一分钟内生产成百上千张不同的图片，降低成本，提高数据集生成效率。

在早期，合成数据早期主要应用于自动驾驶汽车、机器人、安防、制造业等领域，在这些应用场景中打造AI模型都需要大量的被标注的图像、视频数据，但获取现实数据往往并非易事，但又关涉重大，有的还涉及人身安全，对数据质量要求极高。

以自动驾驶汽车为例，由于实际道路交通场景千变万化，让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的，必须借助于合成数据才能更好地训练、开发自动驾驶系统。为此，自动驾驶企业开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据，并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。如此，能够在保障人员和设备安全的条件下，提升自动驾驶能力。公开资料显示，许多自动驾驶汽车厂商都在合成数据和模拟方面进行了大量投资。

目前，合成数据正迅速向金融、医疗、零售、工业等诸多产业领域拓展应用。其中，合成数据在金融服务领域的探索仍处于早期且不断拓展，并且受到咨询公司、金融巨头和监管机构的关注。

2024年AI训练中合成数据超六成

合成数据对人工智能未来发展的巨大价值使其加速成为AI领域的一个新产业赛道。一方面，国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。国外各大主流科技公司如英伟达、微软、亚马逊等瞄准合成数据领域，布局各类工具平台，为各种应用提供服务。

另一方面，合成数据作为AI领域的新型产业，相关创新创业方兴未艾，合成数据创业公司不断涌现，合成数据领域的投资并购持续升温，开始涌现了合成数据即服务（synthetic data as a service，SDaaS）这一发展前景十分广阔的全新商业模式。

根据预测，到2024年用于训练AI的数据中有60%将是合成数据，到2030年AI模型使用的绝大部分数据将是人工智能合成的。可以预见，合成数据作为数据要素市场的新增量，在创造巨大商业价值的同时，也有望解决人工智能和数字经济的数据供给问题。

但是，在乐观看待合成数据产业发展前景的同时，也要注意其应用过程中存在的一些问题：一是合成数据的生产与应用流程尚未规范；二是合成数据的质量评估问题尚待解决；此外，合成的数据同样会出现质量问题，目前还缺少对于合成数据质量评估的维度和方法，来保障合成数据的质量。

总之，合成数据技术是一个快速发展的技术方向，具有广阔的前景和潜力，但同时也存在数据质量和法律法规方面的挑战。因此，在采用合成数据作为独立解决方案之前，需要彻底研究和分析人工智能系统的结果。相信随着进一步的研究，合成数据对于多种操作可能会变得更加可靠。（中国科技信息）

上一篇 > 2022年中国数据中心服务市场仍处于缓慢修复阶段
下一篇 > 国家数据局正式揭牌，机构看好2030年数据要素市场规模破万亿

“合成数据”迎来新的发展契机

腾讯混元大模型负责人胡瀚离职创业，创业方向为 “具身大脑”+“世界模型”

微容电子冲刺IPO，创始人为前康佳总裁陈伟荣

“ 和光量子 ” 完成首轮融资

极佳视界拟年内赴港IPO