有碰到这5个问题吗?
小红书的铁粉认为,虽然很多评价都是花钱买的。大V粉丝量多了就会接广告。但是,小红书整体测评感比较强,和无脑水军还不太一样,即使是托儿,也写得很诚恳。 评论是“UGC(用户生产的内容)”,既真实,又新鲜,可以挖掘出潜在商业价值。对用户来说,人人都需要“真实”而且“好用”的评论,无论是“经验”“干货”,还是“指南”。
三、为啥没有管好“评论”? 预训练语言模型,就像在无标注文本的大海里,学到潜在的语义信息,而无需为每一项任务单独标注大量训练数据。语言模型预训练结束,再使用少量标注语料进行微调(Fine-tuning)来完成具体的NLP任务,比如分类、序列标注、句间关系判断和机器阅读理解等。 总之,算法的“性能”得到显著改善,BERT做大了NLP技术的蛋糕。 二、运营组,也挺行的 《亲爱的数据》和几位互联网大厂的运营小哥哥聊了一会,各家“评论”的运营花了很多心思。 抖音的评论区是双轨制,既有最热的评论,也有最新的评论。最新的评论可以理解为一个小池子,根据用户的点赞数量,来看要不要继续推。这样能保证发得比较晚的神评论也能排上来,属于推荐思想在评论区的一种应用。 抖音搜索是有考虑过识别到评论区如果提问的人比较多,会有提示搜索的建议。但路径太长,直接改成了目前的高热社会类视频下面,加一个今日头条的文章链接。 常见的处理评论区数据的方法是结构化,电商和酒旅APP都对几十亿条评论区做了结构化处理,这里是指对数据做结构化处理,因为计算机能处理的都是结构化的,非结构化的数据它理解不了,所以文本在涉及到“理解”这一层,都是需要先结构化。 NLP分析了评价,提炼了“分词”,加了结构化的外展,相当于找到了“标注”,提高了用户浏览评论的效率。英雄所见略同,用户理所当然的认为,人数越多,观点越可信。 日常中,在淘宝购买一款升降桌,“安装效果好”“质量好”“用后感觉好”。选酒店的时候,你能看到多少人提到了“便宜”、“舒适”,又有多少人提到了“安静”“交通方便”。 很显然,消费+社区的评论会有门槛,淘宝、小红书、大众点评、马蜂窝等。商品没下单,没经历的用户不能参与评论。
看热闹的是外行,探店的往往是内行,平台会倾向把好评往前排,促进转化,消费后的诉求也会偏多,需要专门的回应,处理。纯娱乐、纯讨论的社区,参与评论的门槛低,抖音、快手、B站、芒果、豆瓣。一般来说,电商评论运营得好,有卖货的诉求,大家聊的都是和商品相关的。 作为一种非结构化文本,用户评论蕴含了大量非标准表达的“单词”。 机器根据句子所在上文的一系列“单词”,预测后面会跟哪个“单词”,预测的是概率大小,句子里面每个“单词”都有个根据上文预测的过程,把所有这些“单词”的产生概率乘起来,数值越大,代表这句话越像一句人话,而不是鬼话或者胡话。 所以,除了人类,机器也可以判断,哪个句子更像一句人话。 “黄鹤楼”一词,可能有三个意思。武昌蛇山之巅的名楼,北京的商家,湖北香烟品牌。AI算法也不傻,预测则可结合上下文,前文在讲长江、景点、旅游、票价、登高远眺,就不会推测出此处的“黄鹤楼”是在讲香烟,而是景点的概率更大。 再比如猫眼文娱,可以获取电影、电视剧、艺人等信息,形成一部“词典”。但是随着搜索体量增大,搜索表述复杂,词典满足不了用户需求,就会使用AI模型,作为词典的补充。
再看学术界,诞生了名叫Transformer的模型(一种深度神经网络),基于Transformer的 BERT模型(2018年技术重大进展),GTP模型(硅谷OpenAI实验室出品),它们都使用预训练和微调的思路来解决问题。 (编辑:宣城站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |