百度如何判定原创文章:信息指纹技术
2014-03-18 14:11:58

说起来很有意思,我想写的这篇文章是关于百度如何判定原创文章的,利用的是信息指纹技术。但是到百度上搜索一下相关的文章,却发现都是关于百度如何检查伪原创内容的信息,真是很有一些调侃的意味。

当然,关于这一点我也想多说几句。现在的站长朋友大多数关注的是伪原创,因为这样的文章创作时间短,成本低,并且可以批量生产,还能欺骗百度,被认成原创文章,增加收录量和权重。而原创文章却是一种稀缺资源,特别是对站长来说,如果真的指望原创文章来创收,那98%的人都会被饿死。其实,百度识别原创文章和伪原创,只是一件事情的两个方面,那就是信息指纹技术。

对于互联网上数以亿计的网页来说,让一台机器去识别他是否原创,总比让人去识别更现实。就像人一样,每个人的指纹都是独一无二的,如果你发现了2个一样的指纹,那只能说明一个问题:这是同一个人的指纹。识别原创文章的信息指纹技术,也运用了同一个原理:首先运用计算技术提取文章的“指纹”,然后去数据库中对比,如果是唯一的,就是原创,否则就不是原创。

那么,既然互联网上的页面这么多,百度是怎么提取信息指纹的?这里面我也只能将一个大概,让你明白一下它的原理是什么。统计信息表明:对一个文本信息提取指纹,当选取8个关键词及其词频作为其指纹时,准确度在98%以上,查全率在30%左右。这说明要能“概括”该信息,找出其8个使用频率最高的词汇,基本可以代表这个信息。

因此文字信息提取指纹的要素一般为下面信息:

    n     标题
    n     作者
    n     发布时期、修改日期
    n     主要关键词
    其中关键词的选取可以有几种方法:
    ★   作者提供的关键词
    ★   作者提供的摘要,或整理人员编写的摘要
    ★   提取信息中出现频率高的8个关键词
    ★   文章开头或结尾一段话
    ★   文章中固定位置的一段话(如第5行的第一句话)

通过这种方法提取的信息指纹,基本上就能够代表这篇文章的特征,称为信息指纹。根据这个结果,我们很容易想明白,如果是那些互联网上高度采集的文章,那么他的信息指纹肯定与网上其他位置的很多信息是相通的,也就是说,他不是原创文章,是复制的。而百度觉不喜欢采集和复制的文章,他喜欢原创。

说到这里,我想说说用户喜欢什么。作为站长也好,或者企业的电子商务专员也罢,他们关心的应该都是会有多少用户访问自己的网站,又有多少用户成为了潜在客户,潜在客户又有多少转化成了客户。这里有一个关键,就是用户体验。拥有良好用户体验的网站,自然会吸引更多的用户来访,而且还会吸引更多的回头客。用好良好用户体验的一个前提,就是网站拥有丰富的原创内容,有价值的内容。

所以,百度采用的信息指纹技术,是用来识别原创文章的,也是为了增强用户体验的。作为网站管理员,我们应该更多的生产原创文章,有价值的原创文章。