什么是用户画像?
用户画像(User Profile),作为大数据的根基,它完美地抽象出一个用户的信息全貌,为进一步精准、快速地分析用户行为习惯、消费习惯等重要信息,提供了足够的数据基础,奠定了大数据时代的基石。
用户画像,即用户信息标签化,就是企业通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。用户画像为企业提供了足够的信息基础,能够帮助企业快速找到精准用户群体以及用户需求等更为广泛的反馈信息。
用户画像的四阶段
用户画像的焦点工作就是为用户打“标签”,而一个标签通常是人为规定的高度精炼的特征标识,如年龄、性别、地域、用户偏好等,最后将用户的所有标签综合来看,就可以勾勒出该用户的立体“画像”了。
具体来讲,当为用户画像时,需要以下四个阶段:
用户画像的意义
用户画像的构建是有难度的。主要表现为以下四个方面:
为了精准地描述用户特征,可以参考下面的思路,从用户微观画像的建立→用户画像的标签建模→用户画像的数据架构,我们由微观到宏观,逐层分析。
首先我们从微观来看,如何给用户的微观画像进行分级呢?如下图所示
总原则:基于一级分类上述分类逐级进行细分。
第一分类:人口属性、资产特征、营销特性、兴趣爱好、购物爱好、需求特征
第二分类…
第三分类……….
完成了对客户微观画像分析后,就可以考虑为用户画像的标签建模了。 从原始数据进行统计分析,得到事实标签,再进行建模分析,得到模型标签,再进行模型预测,得到预测标签。
最后从宏观层面总结,就是得到用户画像的数据架构。
LotuseeData莲子数据在具体设备分析的统计基础上,提供了更强大的自定义时间,用户分组,渠道活动转化追踪等新功能,并累计了大量的设备和用户标签,为进一步的用户画像提供了坚实的基础。
百分点技术总监郭志金
谈用户画像数据建模方法
伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调查、购物篮分析,大数据第一次使得企业能够通过互联网便利地获取用户更为广泛的反馈信息,为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息,提供了足够的数据基础。伴随着对人的了解逐步深入,一个概念悄然而生:用户画像(UserProfile),完美地抽象出一个用户的信息全貌,可以看作企业应用大数据的根基。
一、什么是用户画像?
男,31岁,已婚,收入1万以上,爱美食,团购达人,喜欢红酒配香烟。
这样一串描述即为用户画像的典型案例。如果用一句话来描述,即:用户信息标签化。
如果用一幅图来展现,即:
二、为什么需要用户画像
用户画像的核心工作是为用户打标签,打标签的重要目的之一是为了让人能够理解并且方便计算机处理,如,可以做分类统计:喜欢红酒的用户有多少?喜欢红酒的人群中,男、女比例是多少?
也可以做数据挖掘工作:利用关联规则计算,喜欢红酒的人通常喜欢什么运动品牌?利用聚类算法分析,喜欢红酒的人年龄段分布情况?
大数据处理,离不开计算机的运算,标签提供了一种便捷的方式,使得计算机能够程序化处理与人相关的信息,甚至通过算法、模型能够“理解” 人。当计算机具备这样的能力后,无论是搜索引擎、推荐引擎、广告投放等各种应用领域,都将能进一步提升精准度,提高信息获取的效率。
三、如何构建用户画像
一个标签通常是人为规定的高度精炼的特征标识,如年龄段标签:25~35岁,地域标签:北京,标签呈现出两个重要特征:语义化,人能很方便地理解每个标签含义。这也使得用户画像模型具备实际意义。能够较好的满足业务需求。如,判断用户偏好。短文本,每个标签通常只表示一种含义,标签本身无需再做过多文本分析等预处理工作,这为利用机器提取标准化信息提供了便利。
人制定标签规则,并能够通过标签快速读出其中的信息,机器方便做标签提取、聚合分析。所以,用户画像,即:用户标签,向我们展示了一种朴素、简洁的方法用于描述用户信息。
3.1 数据源分析
构建用户画像是为了还原用户信息,因此数据来源于:所有用户相关的数据。
对于用户相关数据的分类,引入一种重要的分类思想:封闭性的分类方式。如,世界上分为两种人,一种是学英语的人,一种是不学英语的人;客户分三类,高价值客户,中价值客户,低价值客户;产品生命周期分为,投入期、成长期、成熟期、衰退期…所有的子分类将构成了类目空间的全部集合。
这样的分类方式,有助于后续不断枚举并迭代补充遗漏的信息维度。不必担心架构上对每一层分类没有考虑完整,造成维度遗漏留下扩展性隐患。另外,不同的分类方式根据应用场景,业务需求的不同,也许各有道理,按需划分即可。
本文将用户数据划分为静态信息数据、动态信息数据两大类。
静态信息数据
用户相对稳定的信息,如图所示,主要包括人口属性、商业属性等方面数据。这类信息,自成标签,如果企业有真实信息则无需过多建模预测,更多的是数据清洗工作,因此这方面信息的数据建模不是本篇文章重点。
动态信息数据
用户不断变化的行为信息,如果存在上帝,每一个人的行为都在时刻被上帝那双无形的眼睛监控着,广义上讲,一个用户打开网页,买了一个杯子;与该用户傍晚溜了趟狗,白天取了一次钱,打了一个哈欠等等一样都是上帝眼中的用户行为。当行为集中到互联网,乃至电商,用户行为就会聚焦很多,如上图所示:浏览凡客首页、浏览休闲鞋单品页、搜索帆布鞋、发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。
本篇文章以互联网电商用户,为主要分析对象,暂不考虑线下用户行为数据(分析方法雷同,只是数据获取途径,用户识别方式有些差异)。
在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如何对用户行为数据构建数据模型,分析出用户标签,将是本文着重介绍的内容。
3.2 目标分析
用户画像的目标是通过分析用户行为,最终为每个用户打上标签,以及该标签的权重。如,红酒 0.8、李宁 0.6。
标签,表征了内容,用户对该内容有兴趣、偏好、需求等等。
权重,表征了指数,用户的兴趣、偏好指数,也可能表征用户的需求度,可以简单的理解为可信度,概率。
3.3 数据建模方法
下面内容将详细介绍,如何根据用户行为,构建模型产出标签、权重。一个事件模型包括:时间、地点、人物三个要素。每一次用户行为本质上是一次随机事件,可以详细描述为:什么用户,在什么时间,什么地点,做了什么事。
什么用户:关键在于对用户的标识,用户标识的目的是为了区分用户、单点定位。
以上列举了互联网主要的用户标识方法,获取方式由易到难。视企业的用户粘性,可以获取的标识信息有所差异。
什么时间:时间包括两个重要信息,时间戳+时间长度。时间戳,为了标识用户行为的时间点,如,1395121950(精度到秒),1395121950.083612(精度到微秒),通常采用精度到秒的时间戳即可。因为微秒的时间戳精度并不可靠。浏览器时间精度,准确度最多也只能到毫秒。时间长度,为了标识用户在某一页面的停留时间。
什么地点:用户接触点,Touch Point。对于每个用户接触点。潜在包含了两层信息:网址 + 内容。网址:每一个url链接(页面/屏幕),即定位了一个互联网页面地址,或者某个产品的特定页面。可以是PC上某电商网站的页面url,也可以是手机上的微博,微信等应用某个功能页面,某款产品应用的特定画面。如,长城红酒单品页,微信订阅号页面,某游戏的过关页。
内容:每个url网址(页面/屏幕)中的内容。可以是单品的相关信息:类别、品牌、描述、属性、网站信息等等。如,红酒,长城,干红,对于每个互联网接触点,其中网址决定了权重;内容决定了标签。
注:接触点可以是网址,也可以是某个产品的特定功能界面。如,同样一瓶矿泉水,超市卖1元,火车上卖3元,景区卖5元。商品的售卖价值,不在于成本,更在于售卖地点。标签均是矿泉水,但接触点的不同体现出了权重差异。这里的权重可以理解为用户对于矿泉水的需求程度不同。即,愿意支付的价值不同。
标签 权重
矿泉水 1 // 超市
矿泉水 3 // 火车
矿泉水 5 // 景区
类似的,用户在京东商城浏览红酒信息,与在品尚红酒网浏览红酒信息,表现出对红酒喜好度也是有差异的。这里的关注点是不同的网址,存在权重差异,权重模型的构建,需要根据各自的业务需求构建。
所以,网址本身表征了用户的标签偏好权重。网址对应的内容体现了标签信息。
什么事:用户行为类型,对于电商有如下典型行为:浏览、添加购物车、搜索、评论、购买、点击赞、收藏 等等。
不同的行为类型,对于接触点的内容产生的标签信息,具有不同的权重。如,购买权重计为5,浏览计为1
红酒 1 // 浏览红酒
红酒 5 // 购买红酒
综合上述分析,用户画像的数据模型,可以概括为下面的公式:用户标识 + 时间 + 行为类型 + 接触点(网址+内容),某用户因为在什么时间、地点、做了什么事。所以会打上**标签。
用户标签的权重可能随时间的增加而衰减,因此定义时间为衰减因子r,行为类型、网址决定了权重,内容决定了标签,进一步转换为公式:
标签权重=衰减因子×行为权重×网址子权重
如:用户A,昨天在品尚红酒网浏览一瓶价值238元的长城干红葡萄酒信息。
-
标签:红酒,长城
-
时间:因为是昨天的行为,假设衰减因子为:r=0.95
-
行为类型:浏览行为记为权重1
-
地点:品尚红酒单品页的网址子权重记为 0.9(相比京东红酒单品页的0.7)
假设用户对红酒出于真的喜欢,才会去专业的红酒网选购,而不再综合商城选购。
则用户偏好标签是:红酒,权重是0.95*0.7 * 1=0.665,即,用户A:红酒 0.665、长城 0.665。
上述模型权重值的选取只是举例参考,具体的权重值需要根据业务需求二次建模,这里强调的是如何从整体思考,去构建用户画像模型,进而能够逐步细化模型。
四、总结:
本文并未涉及具体算法,更多的是阐述了一种分析思想,在计划构建用户画像时,能够给您提供一个系统性、框架性的思维指导。
核心在于对用户接触点的理解,接触点内容直接决定了标签信息。内容地址、行为类型、时间衰减,决定了权重模型是关键,权重值本身的二次建模则是水到渠成的进阶。模型举例偏重电商,但其实,可以根据产品的不同,重新定义接触点。
比如影视产品,我看了一部电影《英雄本色》,可能产生的标签是:周润发 0.6、枪战 0.5、港台 0.3。
最后,接触点本身并不一定有内容,也可以泛化理解为某种阈值,某个行为超过多少次,达到多长时间等。
比如游戏产品,典型接触点可能会是,关键任务,关键指数(分数)等等。如,积分超过1万分,则标记为钻石级用户。钻石用户 1.0。
百分点现已全面应用用户画像技术于推荐引擎中,在对某电商客户,针对活动页新访客的应用中,依靠用户画像产生的个性化效果,对比热销榜,推荐效果有显著提升:推荐栏点击率提升27%, 订单转化率提升34%。
转自灯塔大数据,来源:大数据人
新浪微博的用户画像是怎样构建的?
1.概述
从上一篇《认识每一个“你”:微博中的用户模型》里面对用户模型维度的划分可以看出,属性和兴趣维度的用户模型都可以归入用户画像(User Profile)的范畴。而所谓用户画像,简单来说就是对用户的信息进行标签化。如图1所示。一方面,标签化是对用户信息进行结构化,方便计算机的识别和处理;另一方面,标签本身也具有准确性和非二义性,也有利于人工的整理、分析和统计。
用户自标签、达人或认证标签、公司、学校、微群标签、星座、微博关键词……这些来源都可能成为用户的标签。而针对每个特定的用户收集标签除了其自身以外,他关注用户的标签也会传递到该用户身上。如图2所示(蓝色实线代表关注关系,橙色虚线代表兴趣标签来源)。
在收集到一个用户可能存在的标签后,还需要给标签赋一定的权重,用来区分不同标签对于该用户的重要程度。不同标签的来源用户质量,标签的传递路径,转发关系,标签的本身,以及标签与用户之间的共现关系都会考虑在内。
随着时间的变化,用户的兴趣会发生转移,时间越久远,标签的权重应该相应的下降,距离当前时间越近的兴趣标签应该得到适当突出。出于这样的考虑,一般会在标签权重值上叠加一个时间衰减函数,这个时间衰减函数被设计成如图3所示的指数衰减的形式,通过定义衰减幅度和半衰期,调节衰减的程度,体现不同的时效性。
然而,用户具有某方面的兴趣,只代表了他愿意接受这方面的信息,并不能代表他具有产生相关内容的能力。因此,在挖掘了用户兴趣标签的基础上,还需要发掘哪些用户能够针对特定的标签具有一定的内容生产能力。
欢网大数据开启“全网+跨屏”用户画像新时代 |
来源:新华网 |
长期以来,智能电视行业一直局限于电视端数据进行用户画像分析,希望以此进行精准营销,难道仅基于电视端收视数据进行用户画像就可以实现精准营销吗?此方式虽然取得一些成果,但是距大数据时代众多收视用户的精准营销还是距离遥远。近日,欢网大数据以卓越创新的“全网+跨屏”理念,掀起了电视行业融合全网大数据的精准营销革命,该理念通过关联智能电视与PC、移动端数据,不仅能够跨屏识别用户,而且可以获悉用户在不同终端的使用行为。此举打破传统电视行业信息孤岛,实现跨屏全网数据融合,颠覆电视端营销方式,打造通过分析用户线上线下行为数据获知真实潜在需求的精准营销平台,并以此提升基于智能电视平台所实现的“增强电视”、“T2O”等一系列精准营销的服务价值。 欢网作为国内最大的互联网智能电视服务商,自创立以来一直致力于成为电视内容的聚合者和分发者,而用户画像是提供个性化电视营销服务的基础。“全网+跨屏”融合更加全面的用户数据,这包括用户在电视端的收视数据、与其它智能终端的行为习惯数据。以热门综艺《奔跑吧兄弟2》为例,观看该节目的电视用户,平时主要活动区域、偏好何种APP软件、忠爱哪些品牌、喜欢吃什么玩什么等,通过全网数据的融合,了解其行为习惯,建立用户画像,将有助于精准营销、个性化内容推送,再度提升文化娱乐对消费行为的影响。 何谓智能电视用户画像?是收集、融合并分析智能电视用户海量收视数据以及全网使用行为后,判断其家庭收视偏好、消费行为与能力、家庭成员组成、潜在购物倾向等,最终梳理出不同属性的用户人群,为业务运营提供更充足的信息基础。 以下为欢网科技与TalkingData联合发布的热门综艺案列分析: 建立全网用户画像,是颠覆传统意义上仅以电视端数据进行用户画像的革命性的营销方式。多端数据的结合,可将更精准的服务推送给有潜在需求的用户,从而帮助需求方锁定用户群。此举有助于电视台、节目组、制作方、广告商更精确的了解受众用户,为之后编播节目、投放广告等带来极大价值。 欢网大数据打破了固有的“电视归电视,互联网归互联网”的局面。以“全网+跨屏”探索智能电视与互联网行业的未来,在颠覆传统理念的同时,让智能电视用户享受更优质的服务。 |
大数据用户画像在金融行业实践
一. 用户画像背后的原因
金融消费行为的改变, 企业无法接触到客户 80后、90后总计共有3.4亿人口,并日益成为金融企业主要的消费者,但是他们的金融消费习惯正在改变,他们不愿意到金融网点办理业务,不喜欢被动接受金融产品和服务。年轻人将主要的时间都消费在移动互联网,消费在智能手机上。平均每个人,每天使用智能手机的时间超过了3小时,年轻人可能会超过4个小时。浏览手机已经成为工作和睡觉之后的,人类第三大生活习惯,移动APP也成为所有金融企业的客户入口、服务入口、消费入口、数据入口。
用户画像的方法介绍,不要太复杂
金融企业需要结合业务需求进行用户画像,从实用角度出发,我们可以将用户画像信息分成五类信息。分别是人口属性,信用属性,消费特征,兴趣爱好,社交属性。它们基本覆盖了业务需求所需要的强相关信息,结合外部场景数据将会产生巨大的商业价值。我们先了解下用户画像的五大类信息的作用,以及涉及的强相关信息。特别复杂的用户画像纬度例如八个纬度,十个纬度信息都不利于商业应用,不建议金融企业进行采用,其他具有价值的信息,基本上都可以归纳到这五个纬度。金融企业达到其商业需求,从这五个纬度信息进行应用就可以了,不需要过于复杂用户画像这个工作,同时商业意义也不太大。
参考金融企业的数据类型和业务需求,可以将金融企业用户画像工作进行细化。基本上从数据集中到数据处理,从强相关数据到定性分类数据,从引入外部数据到依据业务场景进行筛选目标用户。
移动大数据在预防互联网恶意欺诈和高风险客户识别方面,已经有了成熟的应用场景。很多公司已经开始利用第三方机构的数据,预防互联网恶意欺诈和识别高风险客户,并取得了较好的效果。移动大数据应用场景正在被逐步挖掘出来,未来移动大数商业应用将更加广阔。
来自钱塘大数据
原文始发于微信公众号(PPV课数据科学社区):干货长文 | 如何用大数据构建精准用户画像?
原创文章,作者:ppvke,如若转载,请注明出处:http://www.ppvke.com/archives/9924