新闻资讯
腾讯云NLP的诗与远方:解放人力做更有意义的事情!
上周末跟一个约了很多次的朋友一起吃饭,每次约他,结果都是在加班。
这次见面,我问他前段时间在忙什么,需要这么频繁加班。原来,因为国家的净网行动,他工作的线上文学网站要求他们编辑部几乎时时待命,不仅要加大作者每天上传稿件的审核力度,而且在保证审核质量的前提下,要求做到今日稿件、今日审核、今日发布。
吃饭间隙,他跟我狠狠地吐槽了一番:做一个线上小说网站内容编辑的辛酸历程······
自从全国“扫黄打非”办公室部署开展“净化网络文化环境”的专项行动,针对文学网站、游戏网站、视听节目网站以及移动智能终端应用程序平台、在线视频播放软件、网络资源下载工具、网络游戏推广广告等,这些在互联网上进行内容生产制造、传播推广的平台和软件,都是集中清理和监察的对象。
听这个编辑朋友说,净网行为的第一步就聚焦在整治网络色情和低俗问题上,而众多线上文学网站就是净网行为的第一批清理名单。所以,前段时间他们编辑部才会那么忙,不仅需要加强现有稿件的审核强度,制定新的审核规范,细化审核粒度,而且需要重新对历史发布稿件进行二次审核,将不符合现行规范的内容筛出并剔除。
事实上,随着净网行为的全面铺开,不只是网络文学领域,还有渗透到我们日常生活中的微信公众号、微博、论坛、贴吧、社交网站、即时通信群组、短视频、网络直播、搜索引擎、网络硬盘等,都是国家大力监察和管控的渠道。
这个编辑朋友称,以前的网络写手们为了吸引更多的读者、提高点击量和订阅率,多多少少会在文中写一些“肉”和“H”的内容或情节;而自从净网行为开启后,小说的内容规范已经从“打直球”到“打擦边球”,再到现在的“清水文”。比如BL耽美小说圈子里比较有名的“晋x文学城”,作者和编辑们就戏称:现在的文中可不能出现“脖子以下的不可描述”,否则小心会被“请去喝茶”呦。
网络文学领域的内容规范变化,只是净网行动的冰山一角。
随着互联网技术的不断发展,网络平台和软件的多元化和普及化,互联网文本数据也呈现爆炸式的增长。而在利益的驱动下,高危有害的的黑产信息也在互联网环境中大量涌现,例如非法交易、淫秽色情内容、政治敏感信息、反社会言论、垃圾广告等等。
这些黑产内容多变且隐蔽,混杂在海量的互联网文本数据中,危害着我们的网络安全和文化环境。因此,国家的“净网行动”正是意在通过强化司法打击、行政管理、行业规范、道德约束等多种手段综合治理网络安全问题,真正促进中国互联网事业的健康发展。
为了达到这个目标,互联网文本审核、内容审核的工作成了各类网络平台不可或缺的一环。
就像刚才那个在小说网站做内容编辑的朋友一样,还有许多从事运营或编辑工作的人,每天需要花费大量的时间在平台的内容审核上,这些繁杂而重复的审核工作消耗了他们大量的精力。而对于企业来说,为了做到真正的“净网”,也需要投入比以前更多的人力成本来完善平台的风控能力。
但是,随着审核量的暴涨,人力的局限性也变得愈发突出:
1. 人力无法持续进行高强度、高质量的审核工作,不可避免地会出现人工审查效率低下的现象;
2. 审核规则复杂,新人培训成本较高,人员流动性大,导致审核和风控的业务经验较难沉淀和传递;
3. 新人学习成本高,导致审核标准存在不一致和遗漏的现象,造成错误率偏高。
因此,省时省力又高效精准的智慧AI文本处理能力,成为了各种内容型网络平台可以依靠的好帮手。
腾讯知文自然语言处理 NLP 正是腾讯云大数据及人工智能产品中心旗下的智能文本处理产品,它深度整合了腾讯内部顶级的NLP技术,依托积累的千亿级中文语料,提供了18项智能文本处理能力,其中就包括了当前各大网络平台急需的文本审核能力相关接口服务。
概括说来,腾讯云NLP的文本审核接口(TextApproval),能够自动判断一段文本是否符合网络发文规范,有效识别政治、色情、辱骂/低俗、暴恐/毒品、广告/灌水、迷信/邪教等9大违规类别及各类别下触发的敏感词,并提供违规、人工审核两大违规等级,供不同审核尺度的业务场景进行适应性选择,例如UGC评论审核、游戏对话/视频弹幕敏感词过滤、社区发帖审核、舆情监控等等,帮助用户及时、精准地防范违规风险。
当前,腾讯云NLP文本审核接口可支持审核不超过2000字的文本数据,同时支持全领域审核的模式。因此,该接口功能可广泛应用于各领域的的文本审核和内容风控场景中,从而帮助各类平台减少审核人力的投入,以及提高审核效率和审核的覆盖度和精准度,真正实现文本的智能处理,达到自动、稳定、高效“净网”的目的。
技术方面,腾讯云NLP的文本审核接口是基于10万级大规模敏感词库,结合多种文本对抗方法、政策权威指令等,并运用深度学习模型,来综合对文本中的涉政、涉黄、暴恐、辱骂等高危有害内容进行智能分类及敏感词识别。同时,腾讯知文团队也会根据大规模语料和实时反误杀系统,对该接口功能进行不断地更新迭代,确保审核效果持续提升。
文本审核接口的整体架构主要包含以下四部分:
- 词库策略
- 先验策略
- 模型策略
- 信安能力
词库策略和先验策略作为第一、二道防御关口,对于审核效果具有保障性作用;而且,腾讯知文团队仍在不断收集相关场景语料,持续完善功能,提高文本审核效果。
这里以敏感词库为基础,预处理模块用来提高接口的鲁棒性,先验策略具有较大灵活性,能够根据词库的变更适应性地调整覆盖范围;然后,再通过引入各种NLP深度学习模型,不断优化第三道防御关口——模型策略,以达到更多上下文信息的导入,以及对各类变种更准确的识别。
AI已至,未来已来。
腾讯云NLP 为各行各业的文本智能需求提供了开箱即用的NLP能力,除了各类内容型网络平台急需的文本审核能力,还包括智能分词、实体识别、文本纠错、情感分析、文本分类、词向量、关键词提取、自动摘要、智能闲聊、百科知识图谱查询等共计18项智能文本处理能力,并可广泛地应用于互联网文本敏感审核、用户评论情感分析、资讯热点挖掘、电话投诉分析等多种场景中。
对于腾讯云NLP来说,它的诗与远方正是在企业服务领域,解放更多的人力来做更有意义的事情,为社会创造更多的价值。
就像前文提到的在小说网站做编辑工作的朋友一样,他们编辑团队耗费了大量的时间和精力去做那些重复而繁重的内容审核工作,如果能将这些人力更好地释放出来,或者减轻他们在审核工作上的投入占比,他们编辑部可以利用多出来的这些时间去挖掘更多优秀的网络文学作品、去培养更多有潜力的新人作者;此外,他们也能避免频繁而长时间的加班,效率的提升使得他们不用满负荷工作就能更好地享受生活。
提升社会效率,实现更大价值,让人生更有意义,这难道不是你、我和企业共同寻找的诗与远方吗?
回复列表