有碰到这5个问题吗？

发布时间：2021-01-30 14:21:06 所属栏目：外闻来源：互联网

导读：小红书的铁粉认为，虽然很多评价都是花钱买的。大V粉丝量多了就会接广告。但是，小红书整体测评感比较强，和无脑水军还不太一样，即使是托儿，也写得很诚恳。评论是UGC(用户生产的内容)，既真实，又新鲜，可以挖掘出潜在商业价值。对用户来说，人人都需要真

小红书的铁粉认为，虽然很多评价都是花钱买的。大V粉丝量多了就会接广告。但是，小红书整体测评感比较强，和无脑水军还不太一样，即使是托儿，也写得很诚恳。

评论是“UGC(用户生产的内容)”，既真实，又新鲜，可以挖掘出潜在商业价值。对用户来说，人人都需要“真实”而且“好用”的评论，无论是“经验”“干货”，还是“指南”。

三、为啥没有管好“评论”?

预训练语言模型，就像在无标注文本的大海里，学到潜在的语义信息，而无需为每一项任务单独标注大量训练数据。语言模型预训练结束，再使用少量标注语料进行微调(Fine-tuning)来完成具体的NLP任务，比如分类、序列标注、句间关系判断和机器阅读理解等。

总之，算法的“性能”得到显著改善，BERT做大了NLP技术的蛋糕。

二、运营组，也挺行的

《亲爱的数据》和几位互联网大厂的运营小哥哥聊了一会，各家“评论”的运营花了很多心思。

抖音的评论区是双轨制，既有最热的评论，也有最新的评论。最新的评论可以理解为一个小池子，根据用户的点赞数量，来看要不要继续推。这样能保证发得比较晚的神评论也能排上来，属于推荐思想在评论区的一种应用。

抖音搜索是有考虑过识别到评论区如果提问的人比较多，会有提示搜索的建议。但路径太长，直接改成了目前的高热社会类视频下面，加一个今日头条的文章链接。

常见的处理评论区数据的方法是结构化，电商和酒旅APP都对几十亿条评论区做了结构化处理，这里是指对数据做结构化处理，因为计算机能处理的都是结构化的，非结构化的数据它理解不了，所以文本在涉及到“理解”这一层，都是需要先结构化。

NLP分析了评价，提炼了“分词”，加了结构化的外展，相当于找到了“标注”，提高了用户浏览评论的效率。英雄所见略同，用户理所当然的认为，人数越多，观点越可信。

日常中，在淘宝购买一款升降桌，“安装效果好”“质量好”“用后感觉好”。选酒店的时候，你能看到多少人提到了“便宜”、“舒适”，又有多少人提到了“安静”“交通方便”。

很显然，消费+社区的评论会有门槛，淘宝、小红书、大众点评、马蜂窝等。商品没下单，没经历的用户不能参与评论。

看热闹的是外行，探店的往往是内行，平台会倾向把好评往前排，促进转化，消费后的诉求也会偏多，需要专门的回应，处理。纯娱乐、纯讨论的社区，参与评论的门槛低，抖音、快手、B站、芒果、豆瓣。一般来说，电商评论运营得好，有卖货的诉求，大家聊的都是和商品相关的。

作为一种非结构化文本，用户评论蕴含了大量非标准表达的“单词”。

机器根据句子所在上文的一系列“单词”，预测后面会跟哪个“单词”，预测的是概率大小，句子里面每个“单词”都有个根据上文预测的过程，把所有这些“单词”的产生概率乘起来，数值越大，代表这句话越像一句人话，而不是鬼话或者胡话。

所以，除了人类，机器也可以判断，哪个句子更像一句人话。

“黄鹤楼”一词，可能有三个意思。武昌蛇山之巅的名楼，北京的商家，湖北香烟品牌。AI算法也不傻，预测则可结合上下文，前文在讲长江、景点、旅游、票价、登高远眺，就不会推测出此处的“黄鹤楼”是在讲香烟，而是景点的概率更大。

再比如猫眼文娱，可以获取电影、电视剧、艺人等信息，形成一部“词典”。但是随着搜索体量增大，搜索表述复杂，词典满足不了用户需求，就会使用AI模型，作为词典的补充。

再看学术界，诞生了名叫Transformer的模型(一种深度神经网络)，基于Transformer的 BERT模型(2018年技术重大进展)，GTP模型(硅谷OpenAI实验室出品)，它们都使用预训练和微调的思路来解决问题。

（编辑：宣城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

NASA将计划周三对登月	费时2年打造传Zoom计
谷歌高空气球项目绝处	弹丸之国以色列如何创