请选择 进入手机版 | 继续访问电脑版

安豆模型论坛

 找回密码
 立即注册
搜索
热搜: 活动 交友
查看: 1793|回复: 0

[京东] 京东搜索引擎原理

[复制链接]

0

听众

6

帖子

8

豆苗

幼儿园

Rank: 1

积分
38
发表于 2018-4-19 10:30:51 | 显示全部楼层 |阅读模式
1.爬虫和抓取
   搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。
2.索引
  蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库。
3.搜索词处理
   在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文分词处理,判断是否需要整合类目属性信息,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。
4.排序


对搜索词处理后,搜索引擎程序从索引数据库中找出所有包含搜索词的商品,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。
搜索相关性原理
1、仅标题部分、广告词、类目建索引、用户搜索到的商品需在标题中出现
2、按字切词、索引,保证查全率
3、精确匹配与模糊匹配
4、相关性权重涉及因素:词频、词间距、是否有广告词
5、标题中应含有品牌、型号、类别、关键属性、功能、别称等
6、搜索词与类目关系:商品相关性与商品分类、用户点击有关


7、业务原则和用户搜索原则;例如:用户搜索:“篮球”
搜索排序原理
1、相关性排序计算:标题、类目、属性、销量、评论数、价格等因素的综合
2、交易性排序计算:销量、价格
3、评论数排序计算:好评度、评论数计算
4、时效性排序计算:上架时间
5、综合各种相关性与商品的商业属性综合算出的排序分值。
搜索排序筛选
1、销量排序:七日销量,价格权重,好评度
2、价格排序:按照商品的价格进行高低排序
3、好评度排序:好评度、全部评论数综合因素
4、商品上架时间:按照商品上架时间排列
搜索下拉框提示:
数据来源:用户搜索词,搜索日志
排序:按照相关性进行排序


更新日期:每月更新,采销可提供词表

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋| ( 粤ICP备14012628号 )

GMT+8, 2018-12-19 03:12 , Processed in 0.048036 second(s), 25 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表