看火山引擎DataLeap如何做好电商治理(二):案例分析与解决方案

news/2024/6/19 4:41:57 标签: 火山引擎, 大数据, 数据挖掘

接上篇,以短视频优质项目为例,火山引擎DataLeap平台治理团队会去对每天发布的这种挂购物车车短视频打上标签,识别这些短视频它是优质的还是低质的,以及具体原因。一个视频经过这个模型识别之后,会给到奖惩中心去做相应的奖惩策略。简单来说,如果它是优质视频,会去做这种流量的扶持,是低质,直接通过奖惩中心去做这种流量的打压。

算法开发阶段,数据预处理产出训练数据集

以前因为模型的测试集量级很大,处理起来会很慢,平台治理团队现在使用 火山引擎DataLeap的 Notebook 任务,做这种数据的一些预处理。在预处理完这些数据之后会把数据放到 Hive 表,或者是放到 HDFS 上面去,这些数据在HDFS上可以设置长久保存。这就很好的满足了在实际应用场景中需要收集很长一段数据的需求,不必受存储的有效期只有 7 天时间的限制。

 (图:DataLeap数据开发平台)

之后平台治理团队再离线地去处理这些数据,产出训练集合,比如把在 HDFS 上存储的路径下载到自己的的开发机里面,就可以去进行模型训练了。因为Notebook任务可以支持任务的每天运行,不必人工去搭建Notebook环境去训练数据,这样可以大大节省人力成本,提升数据处理和统计效率。

算法上线,验证模型效果

训练好了模型,需要去评估它的效果好不好,这个时候我们通过火山引擎DataLeap把线上的Kafka数据写到 Hive 里面,再离线地分析对应的落的 Hive 表来看模型的效果是怎么样的,发现有哪些是漏放,有哪些是误伤等等不同的模型平台治理团队看的指标不一样,通常的话主要看准确和召回,还会看一些比如说 AUC 或者是 ACC 这样的一些数据,总的来说不同的模型关注的指标是不太一样的。

风神Aeolus)结合,进行监控看板的搭建

关于如何做好监控,可以与Aeolus结合搭建监控看板,具体来看通过火山引擎DataLeap hsql任务分析这种落好的 Hive 表,然后产出统计指标(比如召回率 漏放率 审出率 驳回率 ),把指标做成数据集,在Aeolus上面去建立这样的一些看板。这种看板每天也能够例行的给到监控人员一些结果,对于上线之后的数据监控是有极大帮助的。同时也会对badcase,进行深入的分析,进而优化算法模型。

平台治理效果

据了解,火山引擎DataLeap平台治理团队去年全年累计挖掘优质短视频超147万条,助力超26万名电商作者平均流量增长56%;累计处罚违规低质短视频超3280万条、违规低质直播超1500万场。整体内容质量有明显改观,消费者好感度上升7.2%。

此外,平台还持续强化直播内容真实可信,通过构建商品信息清晰、真实可信的直播生态,规范达人带货行为。882名电商作者因在直播中虚假营销受罚,消费者推荐度提升11.85%。


http://www.niftyadmin.cn/n/303092.html

相关文章

直击中国国际金融展:实在智能携多项科技成果亮相,展现数字金融力量

4月25日-27日,中国国际金融展于北京首钢会展中心成功举办。作为我国规格最高、历史最久的金融科技展,本次展会以“荟萃金融科技成果,展现数字金融力量,谱写金融服务中国式现代化新篇章”为主题,吸引了众多国内金融机构…

花菁染料CY5.5标记活性脂 Cy5.5-NHS

Cy5.5 NHS ester用于染色蛋白质、标记DNA、标记细胞表面抗原、标记抗体和其他生物分子。Cy5.5 NHS ester还可以用于分子影像学,可以追踪细胞内的变化。它还可以用于荧光免疫检测,以检测细胞表面抗原和抗体。 产品名称:五甲川花菁染料CY5.5标记…

linux检测按键

出处&#xff1a;https://stackoverflow.com/questions/58360050/detecting-keyboard-key-press-and-release-on-linux #include <stdlib.h> #include <stdio.h> #include <string.h> #include <sysexits.h> #include <glob.h> #include <li…

IDEA Tomcat7插件启动java web应用的demo

本文讲演示一个使用IDEA的Tomcat7插件来启动java Web应用 添加依赖 <dependency><groupId>org.apache.tomcat.maven</groupId><artifactId>tomcat7-maven-plugin</artifactId><version>2.2</version><scope>provided</sco…

windows平台下获取电脑温度数据

项目描述&#xff1a; 想开发一个在windows平台下可以显示电脑温度的软件 注意&#xff1a; 软件需要在管理员模式下运行。 简单的实现&#xff1a; 使用系统命令 QProcess process;process.start("wmic /namespace:\\\\root\\wmi PATH MSAcpi_ThermalZoneTemperature g…

Linux驱动开发笔记(二):ubuntu系统从源码编译安装gcc7.3.0编译器

若该文为原创文章&#xff0c;转载请注明原文出处 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/130533941 红胖子网络科技博文大全&#xff1a;开发技术集合&#xff08;包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

分片上传和断点续传的区别?实现思路是什么?

相同&#xff1a; 分片上传和断点续传都是网络传输中常用的重要技术 不同&#xff1a; 分片上传&#xff1a;将一个大文件切分为多个小文件进行上传。这种方式能够加快上传速度&#xff0c;降低服务器压力&#xff0c;特别适用于大型文件的上传。例如&#xff0c;在云存储系统…

6.其他函数

1.时间日期类 -- current_date() 返回当前日期 -- date_add(date, n) 返回从date开始n天之后的日期 -- date_sub(date, n) 返回从date开始n天之前的日期 -- datediff(date1, date2) 返回date1-date2的日期差 -- year(date) 返回…