社区应用 最新帖子 精华区 社区服务 会员列表 统计排行
  • 1797阅读
  • 2回复

[分享]让搜索引擎认为我们的内容是原创

楼层直达
级别: 光盘中级
发帖
756
飞翔币
199
威望
666
飞扬币
2011
信誉值
0

让搜索引擎认为我们的内容是原创


做网站的王道就是内容和外链,而相比起外链的构建,网站内容的添加有时更让站长们头痛。原创内容大家都知道是好东西,就是不容易弄到,自己写的话会耗费大量的时间,也不一定写得好。而一味采集和重复别人的内容的话,就会变成搜索引擎所讨厌的垃圾站。伪原创就是介乎于两者之间应运而生的。所谓的伪原创,简单来说就是欺骗搜索引擎,让它以为你转载的内容就是原创内容。

  伪原创的方法一般是在原作者的文章上修改标题,替换同义词,增加或删减一些语句,重写首段和尾段,修改段落的次序等来达到区分原来文章的目的。很多人认为,只要经过以上这些步骤的修改,文章就成为独一无二了,搜索引擎也认不出那是别人的文章,伪原创也就能成功过渡成原创。但我不禁要问了,这是不是我们的一厢情愿啊?搜索引擎真的认不出吗?它又是怎样判断文章是转载还是原创呢?

  其实我们可以用一个简单的模型来解析搜索引擎如何判断内容是否转载。搜索引擎会把收录在数据库两个相近内容A和B各分成N块独立的区域,并对其一一比较,当这些区域相同部分的数目超过了搜索引擎所设定的阀值M时,搜索引擎就会认为A和B是互为转载的内容。这里把内容分成N块区域,就是指搜索引擎的分词技术,而判断重复区域是否超过阀值M,就是指搜索引擎的索引技术。当然,N和M的值是搜索引擎自己的算法设定的,不同的搜索引擎也不同,我们更是无法知道,不过我们可以从上面的模型窥探出很多有用的东西。

  首先,N值和M值决定了搜索引擎判断转载内容的能力。当N值越大,M值越小时,搜索引擎辨别转载内容的能力就越高;反之,就越低。而这两个值是由算法间的协调,算法所消耗的资源等多方面决定的,所以搜索引擎不会一味追求高的辨别能力。

  其次,从模型中可以看出上面所提到的伪原创办法对搜索引擎并奏效。搜索引擎是通过分区来判断内容的重复性,跟内容的次序没有关系,所以修改段落次序的方法是肯定行不通。而其他的几种伪原创方法,包括增减、替换和重写内容等,它们有效性一定程度上由N值和M值大小决定。考虑到搜索引擎发展至今,算法已经相当成熟,判断内容重复的能力也相当有效,所以简单的增加删除内容或替换部分内容并不能让搜索引擎当做原创。

  简单的来说,要让搜索引擎认为我们的内容是原创内容,我们的内容就要有明显的区别,就是大部分都得改。
 
级别: 光盘见习
发帖
109
飞翔币
146
威望
8
飞扬币
1161
信誉值
0
只看该作者 1 发表于: 2010-05-16
学习支持一下。
70515372中小学教师交流群欢迎您~
z3960 
级别: FLY版主
发帖
795491
飞翔币
213223
威望
215737
飞扬币
2672885
信誉值
8

只看该作者 2 发表于: 2010-05-16
支持一下。
我不喜欢说话却每天说最多的话,我不喜欢笑却总笑个不停,身边的每个人都说我的生活好快乐,于是我也就认为自己真的快乐。可是为什么我会在一大群朋友中突然地就沉默,为什么在人群中看到个相似的背影就难过,看见秋天树木疯狂地掉叶子我就忘记了说话,看见天色渐晚路上暖黄色的灯火就忘记了自己原来的方向。