在百度搜索算法的持续迭代中,网站内容质量始终是核心评估维度,旨在通过技术手段规范内容生产生态,提升用户搜索体验。自2016年起,百度陆续推出多项专项算法,针对不同类型的内容质量问题进行精准打击,逐步构建起覆盖全领域、全流程的内容质量管理体系。
百度于2017年7月首次发布飓风算法,聚焦恶劣采集行为的治理,并于2018年9月升级至2.0版本。算法2.0明确将四类行为列为打击重点:一是从外部站点或公众号无序采集、搬运且未整合的内容,存在明显采集痕迹,排版混乱且对用户无增益价值;二是通过多篇文章拼接而成的逻辑断裂内容,阅读体验差;三是站点自身内容生产力薄弱,长期依赖采集;四是发布与站点主题无关的采集内容,领域专注度低,如科技网站发布娱乐八卦。2019年8月上线的飓风算法3.0进一步将治理范围延伸至跨领域采集与站群问题,覆盖PC端、H5及智能小程序。跨领域采集指站点为获取流量发布非所属领域内容,导致领域专注度不足;站群问题则体现为批量构造低质、高相似度站点,通过模板复用损害搜索生态。
2018年6月,百度针对B2B行业推出细雨算法,重点治理标题作弊与正文违规受益行为。标题作弊包括非官网页面滥用“官网”标识、关键词堆砌、插入火星文字或特殊符号,以及标题中穿插联系方式等;正文违规则表现为内容不完整且穿插变形联系方式、配图中嵌入大面积联系信息,或商品信息为乱采集拼接内容。2019年11月,细雨算法2.0升级,除延续对恶劣采集的打击外,新增对软文信息、空白页面、商品信息与功能不符等问题的治理,同时规范图片内容质量(如图片与文字不符、嵌入联系方式)及页面信息完整性,推动B2B内容从“合规”向“优质”迈进。
2016年11月推出的蓝天算法,聚焦新闻类站点售卖软文与目录的违规行为。此类行为通过商业利益驱动内容生产,破坏新闻公信力,算法通过降低站点在搜索系统中的评价,遏制低质商业内容对搜索结果的干扰,还用户以纯净的信息获取环境。
2018年5月,百度上线极光算法,倡导落地页时间因子的规范化。时间因子(包括发布时间、更新时间、最新回复时间)作为判断内容时效性的核心依据,算法要求站点通过JSON-LD格式提交时间信息,并根据首页、列表页、详情页等不同页面类型明确时间提交规范。例如,文章详情页需优先提供发布时间,问答页面需同时提交问题发布时间、首答时间及最新回复时间。此举旨在减少“过期内容”对用户的误导,提升搜索内容的时效性与可信度。