Archive for 十一月, 2016

方法论:用简单的统计获得一个中上的结果

2016-11-29

 今天看到光年更新一篇文章,从一大堆内容中提取出现频率和重要性高的关键词。应用于seo关键词研究、文章或者网站是否主题相关,优化文章标题或者文案。统计seo流量关键词和ppc关键词。

原理:一个词库,自动分词,然后统计出现频率,根据频率+词性,就有一个权重计算。根据权重得分,来应用场景,快速得到一个对未知行业的中位数判断。
 
想起四年前做淘宝的时候,刚开始介入一个行业,做标题、首图、描述时用到的方法,

 

  • 标题:拆分词词组,统计出现频率。
  • 首图:特征分解,是否有模特,产品图片在左还是在右,是否有营销文案(特价,买一送一),主色调(红、蓝)
  • 描述:拆解成参数介绍,首图,细节图,成功案例,品牌介绍,客户反馈,行业排名,应用场影,模特图,好评返现等,统计大家都有的元素,必加,统计出现位置靠前的元素,然后综合因素,重组基础描述,再通过后期的运营数据(后台数据和客服问题反馈)再调整。

总结方法论:对未知行业预判之前,综合现有的行业标杆,拆解共同元素,统计比率,再切入分析,快速达到中位数结果。

alexa前100万网站列表下载与应用

2016-11-14

1、直接上结果:

alexa前100万网站列表下载:

http://s3.amazonaws.com/alexa-static/top-1m.csv.zip

2、在哪里找到这个列表的

https://support.alexa.com/hc/en-us/articles/200449834-Does-Alexa-have-a-list-of-its-top-ranked-websites

3、找的方法

用google查询  site:alexa.com top-1m.csv.zip

4、这个列表有什么用?

(1)例子1:判断域名应用率,国内域名应用率

  1. 先把国内经常会用的域名后缀列出来:com、cn、com.cn、net、net、gov.cn
  2. 从列表中筛选出这些域名
  3. python爬虫遍历,再次确认他们语言是中文
  4. 再拆分后缀,统计数据,计算占比
  5. 一直在吹嘘的某些泡沫后缀,其实可以完全不计了,米农要跳过这些泡沫,不要玩。也可以看前缀,看看有那些优秀的网站用的是什么域名前缀,还是否有这样的前缀机会。同时也可以找到优秀域名将来可能会启用的域名,提前布局。当然还有一种域名就更牛了,直接是行业词,例如geyan.com xiaohua.com 或者大流量站,上升流量站还没有收购终端域名,都值得提前布局。

(2)例子2:挖行业词库

  1. 如例子1找到这些中文站,爬虫抓取标题
  2. Search标题的核心词,举例:手表,就搜索“表”按alexa排序,牛叉的行业站就出来了
  3. python遍历爱站关键词,就是行业词库了

更多应用场景,等你来开发