百度搜索于2017年7月4日首次发布飓风算法,聚焦恶劣采集行为的打击;2018年9月13日升级至2.0版本,强化对低质内容的识别力度;2019年8月,飓风算法3.0正式上线,进一步扩展治理维度。该算法的核心目标在于清除内容生产领域的“搬运主义”与“流量投机”行为。具体而言,恶劣采集行为表现为内容未经授权搬运、机械拼接导致逻辑混乱、排版失序,页面存在明显采集痕迹,对用户无实质增益价值;跨领域采集则指站点或小程序为追求流量曝光,发布与自身领域定位严重不符的内容,导致领域专注度下降,搜索系统将据此限制其展现机会;站群问题则通过批量构造低质站点、复用相似模板等方式获取流量,此类站点内容同质化严重,资源稀缺性低下,难以满足用户真实需求。
2020年2月,百度搜索推出劲风算法,针对恶意构造聚合页的行为进行专项治理。聚合页本应是对特定主题下多源信息的有效整合,但恶劣聚合页缺乏实质主体内容,仅为索引链接的机械堆砌,无法满足用户对深度信息的需求。此类问题主要包括四类典型场景:页面内容与站点所属领域不符或无专注领域,多为采集拼凑内容;页面内容与标题及标签标记的主题严重脱节;由网站搜索功能生成的静态搜索结果页,缺乏原创性整合;空短、无有效信息或已失效的聚合页,完全浪费用户搜索资源。
B2B领域作为商业信息交互的重要场景,其内容质量直接影响供需对接效率。2018年6月,百度搜索发布细雨算法,初步规范B2B行业站点行为;2019年11月,细雨算法2.0升级上线,重点治理恶劣违规问题与低质内容。该算法的治理范围覆盖页面标题作弊(如堆砌关键词、穿插特殊符号、冒充官网等)、正文内容中的违规受益信息(如变形联系方式、配图中嵌入联系方式等)、恶劣违规内容(如采集拼接、发布软文、空白页面、商品信息与实际不符等)及低质内容(如图文不符、图片无有效信息等),通过多维度识别与处罚,保障B2B商业信息的真实性与有效性。
2016年11月,百度搜索推出蓝天算法,持续打击新闻类站点售卖软文、目录等破坏搜索公正性的行为。此类行为通过商业交易操纵搜索排名,导致优质内容被低质软文或付费目录淹没,严重损害用户对搜索结果的信任。蓝天算法通过识别站点目录交易行为,降低违规站点在搜索系统中的评价,维护搜索结果的客观性与中立性,为用户营造“信息蓝天”。