最近半年陆续接触内容数据分析的工作,对于广告行业,有点感悟.
广告行业很认可建立样本库来推导整个市场的情况,来支持其购买媒介资源的依据.
这是有历史原因的,早期的电视,户外广告等都是单向传播的媒体.电视台的播出时间资源总和其实是有限的.媒介售卖的其实是时间,
用户总要从中选择一个节目观看.对于市场而言电视的总播出时间和受众的基数是不变的恒量.
在这种情况下,样本库的调研方式是很有效的,电视面对的个体是家庭,国内有多少家庭,那么采用最少的样本库的规模,大致是多少.
样本库的方式有哪些缺陷?
样本库的方式对于大流量精品内容的分析,是可行的.但对长尾的检测对象的分析会有很大的问题.
这个和alexa的原理是一样的,alexa排名对于大站是比较靠谱的,对于小站是极度不靠谱的,网友可以通过网络找找相关的文章.
看到国内几家公司都在依赖于样本库的方式来做买后分析,和买前分析.
比如admaster,秒针,GA的分析都是比较合理,逻辑上可行的. 广告既得流量,这些流量的量,远大于受众轮廓分析维度(地域,年龄,职业),不管怎么分配,都能得出大部分的流量归属. 这种样本库的分析方法是可行的.
而同时我看到一家神奇的公司,艾瑞同学,通过样本库(20W)的方式 可以神乎其技的调研各种(长尾)内容,品牌的数据调研报告.
我个人认为在逻辑上是行不通的.
互联网的内容分析,能不能通过样本库的方式来做? 答案是 大流量内容的可以,长尾流量的内容是行不通的.除非样本库规模足够大(亿).
互联网的内容 有自己独特的特点,内容每年呈几何级数的爆炸式增长,在用户周围充斥各种内容.用户与内容之间的距离越来越远,这也是google,百度公司的搜索价值凸显出来的原因,在早期内容不足的情况下,网友只需关注门户网站就好了.
互联网的视频内容,网友可以随意点播.使用对象 是整个互联网网站+客户端,或单机客户端。
摆在用户前面的是海量的内容,及有限的时间. 简单的通过(1000W以下)人为协商安装软件样本库去分析长尾内容是极度不靠谱的.
当你的样本库不够大(20w),用户在可选择的内容过于丰富,用户对于某部电视剧,某期综艺节目的选择在某个时间点,是几乎很难有交集.
这个在电视机时代是不存在这个问题的.相对互联网内容,电视的内容少了N个数量级.
在理论层面,网络的、数据传播,在主干线路,电信、移动运营商平台,走海底光缆各种途径.可以设置种种的检测关卡,都可以监控所有HTTP请求的数据,然后统一分析内容的欢迎程度,这也是极度靠谱的,Google做DNS解析,恐怕也是想知道什么网站内容好,什么网站内容差吧。
对于用户的分析,依赖于 平台级的互联网产品,比如百度,腾讯庞大的用户群,依赖于用户行为的分析,分辨出用户的属性.
这种方式获的数据,也远好于样本库的分析用户的方式。
因此艾瑞公司依赖于样本库的内容数据检测公司,全网检测内容数据,发布各种长尾内容数据分析报告.这种数据是极度不靠谱的.
如果是大流量的精品内容数据,这家公司又是没有价值的,因为百度指数,google trends比他们好N倍,样本库 尼玛呀。
所以 我力劝这种公司早点关闭这种不靠谱的部门,做咨询公司该干的事情吧.
在互联网文字时代,判断内容的优劣,做的最好的是搜索引擎,百度与google.其他公司都是纸老虎.
至于在视频和图片时代,google 公司也是牛B的一塌糊涂,百度和其他公司暂时也是纸老虎.










