数据标注是对数据进行添加标记、说明、解释、分类和编码的过程,是提升人工智能算法、模型核心能力的关键环节。数据标注质量直接关系到模型输出的准确性和可靠性。随着各行业数字化、智能化进程的加速推进,数据标注自动化水平显著提升,专业化趋势日益明显,应用领域也在不断拓展和深化,从传统的语音转写、图片文字识别等领域,向更高端、更复杂的场景延伸,应用价值持续提升。
我国七个数据标注基地数据标注规模再创新高,总规模达到17282TB,相当于中国国家图书馆数字资源总量的6倍左右;目前已形成医疗、工业(工业行业分析报告)、教育等行业的高质量数据集335个;赋能121个国产人工智能大模型研发;引进和培育标注企业223家;标注从业人员达5.8万人;带动数据标注行业相关产值超过83亿元。我国作为人工智能大国,必须加快在数据要素及标注数据确权、数据流通安全以及“主权AI”建设等方面的布局,以确保在人工智能领域的国际竞争力和话语权。
要完善数据要素确权机制,筑牢数据市场的基石。数据要素确权是数据标注产业健康发展的前提和基础。在数字经济时代,数据已成为至关重要的生产要素,其权属问题直接关系到数据的流通、利用和价值实现。数据的无形性、易复制性及权属界定模糊等特性,使得数据要素的确权工作成为亟待解决的棘手问题。
要明确标注数据的权属归属和利益分配机制。作为在原始数据基础上通过人工或机器标注而产生的新数据,标注数据的权属问题需综合考虑原始数据提供方、标注服务提供方及标注数据使用方等多方权益。同时,应加强法律法规的宣传和培训力度,提高产业界的法律意识和合规意识,确保数据要素确权工作顺利进行。