□作者 梁斌(清华大学人工智能博士、北京八友科技创始人)
我是北京八友科技创始人梁斌,一名清华大学人工智能专业的工学博士,在数据采集和处理领域创业10年,服务了很多国内AI大模型企业。想给大家介绍下AI人工智能相关的数据行业,希望能为同学们在填报大学志愿时提供一些参考。
我们正处在一个数据爆炸的时代。数据的重要性,怎么强调都不为过。数据的多样性和数量决定了AI大模型的泛化力,高质量的数据决定了AI大模型的智能下限,数据的时效性决定了AI大模型的信息迭代能力。
在数据行业中,数据采集和数据处理是两个最重要的环节,它们分别对应着爬虫工程师和ETL工程师。爬虫工程师,主要负责从互联网上抓取海量、高质量的原始数据,需要巧妙运用各种合法技术手段,从公开渠道获取所需信息;ETL工程师的任务是,将爬取到的原始数据进行清洗、转换、合成,使其符合分析和模型训练的需求。这就像一个“数据炼金师”,将杂乱的原始数据合成符合AI需要的高质量数据。
这两个岗位,从编码角度来看,入门门槛并没有那么高,并不需要一定是计算机专业科班出身。事实上,在我们公司里,采集工程师中真正科班出身的很少,数据处理工程师中科班出身的就更少了。不少跨专业的同学,特别是理工类专业的同学,通过自学和实践,都能够胜任这些重要的工作。
关于行业风险,国家已出台《关于构建数据基础制度更好发挥数据要素作用的意见》,为行业发展提供制度保障。只要合法采集公开数据,不采取非法手段,不触碰红线,相关工作是受到法律保护的。一定要选择去正规的公司,守住职业道德和法律底线。
数据相关工作的职业长期性毋庸置疑,比如在以下三个方面,AI大模型是无法独立完成的。一是大模型无法独立整理训练语料,需要加上人的认知。特别是一些垂直大模型,更需要有专家和特定数据的参与;二是大模型无法独立决定哪些数据在不同阶段以什么方式参与进来。预训练、微调、推理阶段都需要不同的数据,推理阶段更加复杂,需要复杂的知识库,而知识库的构建大模型无法独立完成,同样需要人的认知;三是数据质量的反馈需要人的反馈。有知名公司就号称通过人类反馈的标注方式提高数据质量,这也是大模型无法独立完成的。
大模型,或许可以替代部分行业,但给其提供数据支持的行业则难被替代。数据采集和处理的岗位,我认为将长期稳定。
如果没有选择计算机专业,又想加入数据行业,我认为需要快速学习以下东西:学习和掌握现有基础设施。学会使用大模型的工具,比如Copilot、Cursor,我们公司现在90%的代码都是用这些工具写的。同时,要学会使用各种开源工具,如任务队列、内存数据库等;争取机会到公司参与实习,在实际的项目中学习是提升最快的途径;掌握最先进的想法。过去我们常说“Talk is cheap, show me your code”(少说多做,用代码说话);现在,我认为更应该是“Code is cheap, show me your talk”(代码易得,想法更重要)。因为有太多的工具可以帮助你实现想法,所以开拓思维,不要给自己设限至关重要。很多数据采集和处理的方法,都需要非凡的创意和想法。
数据行业是一个充满活力和机遇的领域,它正在为人工智能的未来奠定基础。如果你对数据充满热情,渴望在人工智能时代发挥自己的价值,那么无论你目前的专业是什么,其实都有机会在这个领域找到属于自己的一片天地。祝愿同学们都能找到自己热爱并愿意为之奋斗的方向。
编辑 赵瑜