618大促将至，用AI开掘差评，零代码实现亿级评论观点情感分析

凶魔宫 · 发布于 2023-4-20 14:11:11

马上就要到一年一度的618大促，我在添加购物车时，选择困难症又犯了。
如今的电商评论区，大量刷单行为吞没了重要的产品评价，有的被吞没在了追评区，有的甚至已经不分好评/中评/差评区了，而是“一眼望去好评如潮”。

▲某净水器评论区

比如某净水器的评论区，看似只要200条差评，但在1.3w条追评、10w条好评中其实隐藏着数不清的差评，这些差评往往可信度极高。
对电商平台来说，通过分析评论区中用户对商品的情感倾向，从评论中开掘产品优缺点，可以快速理解消费者的心声，以便对产品停止针对性的优化，提升产品体验，满足用户需求。
然而，由于热门商品评论量极大，人工审核从精神、本钱还是效率上都无法满足需求，而且热门商品众多，显然是无法通过人工的方式来开掘数以亿计的评论。
但AI模型一秒看100条甚至1000条评论是不成问题的（只要有好显卡部署效劳）。为了验证AI模型做这个事情的可行性，我准备亲自打造一个“差评开掘AI”！
说！干！就！干！

工欲善其事必先利其器
首先我将这个“找差评”的问题笼统成NLP中的“情感极性分类”问题，进而我们的任务就变成了四步：
富集评论情感极性分类数据集 —> 训练调优情感分类模型 —> 部署模型得到API —> 调用API处置问题
富集评论情感极性数据还好说，中文社区有不少公开数据集。但AI模型的训练和部署就费事多了。假设基于传统的深度学习框架从头折腾，无论代码量还是调试调优本钱都不低。
这对于只想快速实现情感开掘功能的我来说无疑效率太低了。
这时大佬给我推荐了一个高效低本钱的平台——EasyDL，不到一天就能完成从数据集到部署API。

AI开发可以如此简单？
半信半疑的我开端了试用之路…
翻开EasyDL官网后，首先要选择做什么任务：

▲EasyDL任务支持

好家伙，我开端以为是个high-level深度学习框架，看到上图才意识到原来这是个更上层的AI应用开发平台，涵盖了图像、文本、语音、OCR、视频、构造化数据等各种任务场景和数据场景。
这里我们关注的是里面的EasyDL-文本任务。针对本次的任务目的，我们可以选择文本分类-单标签，但我发现还有更加详细的“情感倾向分析”任务，于是直接选择了后者（上图红框部分）。
完成任务选择后，平台给到了开发任务的流程提示：

这个流程对于一个久经疆场的算法工程师来说已经非常熟悉了，于是我跳过指导，开端了开发。

零代码也能完成AI开发？
随着开发的停止，我渐渐发现不对劲了。

▲数据载入与处置完成

数据载入处置完了，我没写代码？

▲模型训练完成

模型训练&效果调优完了，我仍然没写代码？

▲部署完成，拿到API

部署完成，效劳的远端API我也拿到了，我最终一行代码都没写？？
甚至，就连调用API的client端脚本，平台都给出来了，也不用自己写。
我进而将某商品评论区爬下来的数万条评论存到文件comments.txt中，调用我们已经部署完成的API来开掘负面评论：

负面评论被源源不时的开掘出来了！
最后发现某净水器商品的差评区虽然只要200条差评，但通过我们的脚本过全部的数万条评论，却开掘出来了3300多条差评。
此时我陷入了深深的考虑——
“做了这么多年的AI算法工程师，到头来，却发现AI的训练和部署已经不需要写代码了？”

[img=100%,430]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/T8c5UX2C0HwVDM~tplv-tt-large.image?x-expires=1997334568&x-signature=CsNmsAAjd%2FhCoenEPrGZoMJpJeA%3D[/img]

初次跑通以上全流程，本着把3天开发时间降低到1天的心态试用，结果没想到3小时就处置了，其中还包括了1个多小时的模型训练与自动调优的时间。

[img=100%,95]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/SnQntBeEsilpEb~tplv-tt-large.image?x-expires=1997334568&x-signature=ZxoNwYwrkqvUTvHstteERM1NyQY%3D[/img]

入群福利

参与「新闻资讯分类」「电商评论观点分析」实战营，15分钟轻松训练高精度的NLP模型，更有精巧礼品与证书免费发放
获取理论+实操课程视频链接

好效果来源大揭秘：文心大模型
我还有一点不解，从最终的负面评论开掘效果来看，是非常精准、冷艳的。但是我却只丢了1万条标注样本给平台，是什么撑起来了模型效果呢？
我在配置模型训练环节时，注意到了EasyDL平台有这么一个选项：

假设训练阶段是选择了高精度，那就会调用文心大模型作为backbone并完成参数热启。
关注NLP预训练停顿的小伙伴对文心大模型“ERNIE”一定不陌生了。
2019年12月，文心ERNIE 2.0登顶GLUE：

[img=100%,870]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/T8c5VP6D38kcS6~tplv-tt-large.image?x-expires=1997334568&x-signature=nQgFVRaaLgPraw0SadSk1%2BIMbZ4%3D[/img]

2021年7月，百亿参数规模的文心ERNIE 3.0霸榜SuperGLUE：

[img=100%,922]https://p3-sign.toutiaoimg.com/tos-cn-i-tjoges91tu/T8c5VPeGziHBZl~tplv-tt-large.image?x-expires=1997334568&x-signature=HeUckXcIxrbf1kRynWZg6AbIny4%3D[/img]

在中文任务上，文心ERNIE 3.0更是实现了全面屠榜：

而在EasyDL文本任务中内置了文心大模型ERNIE 3.0系列模型，除了通用大模型外，还包括了抽取、匹配等专属任务模型和金融、法律、医疗等领域模型。
正是文心大模型的赋能，EasyDL文本才得以在实现极简易用性的同时，做到超高精度的模型产出。
毫不夸大的说，这个写了0行代码、花了3个小时部署得到的评论极性判别的API，可能比许多专业的算法工程师折腾数天搞出来的API都好用。
至此，作为一个AI算法工程师，我深深的感慨：
我们开发了AI，但AI开发可能不再需要我们了。

福利时间到：