而每当用户量减少的时候,系统的爬虫又会在整个互联网上进行抓取,从而重新更新数据库里的内容。
这样周而复始的操作下来,便是一整套搜索引擎工作的基本原理。
而日语版的搜索引擎要修改的部分则是爬虫抓取的规则和评分部分。
所以从改动上来说并不是需要天翻地覆的变化。
只需要针对日语进行一些适配就可以了。
因为有了前期工作的参考,朱勇俊很快就找到了新版本搜索引擎的开发方向。
同时几个方案也在同时进行着开发,至于编程的工作
,一旦算法和方案确定下来,实现只是时间问题。
而最后选择用哪一款方案?则要看在实际应用中搜索引擎的表现。
金在龙虽然没有规定时间,但是朱勇俊擅自把开发时间定在了一个月。
而以前的搜索系统则会把满篇全是关键词的网页列在前面。可这样的网页反而一点价值都没有。
正是这细小的评分系统,成就了谷歌的新一代搜索引擎。
而在h国这边因为朝族语的特殊性,所以,这套技术要重新开发,也就是说是用在朝族语组成的网页页面上,需要一套重新的评价系统来评估这个网页是否有价值推荐给用户。
相同的原理也可以运用在日语的网页上。
当用户在搜索框进入一个搜索词之后,爬虫获取的数据库就会在整个数据库中筛选出有价值的网页推荐给用户。
因为他知道等到一个月之后,李海珍那边就会收到很多用户的反馈数据,到时候整个团队又得重新投
(本章未完,请点击下一页继续阅读)
第230章 新的融资 (第2/3页)
网页评价的论文,研究的爬虫和搜索引擎技术。
每一项技术其实都是在前期技术的积累上实现的。
比如爬虫技术,很早之前就已经很成熟了。谷歌的搜索引擎只是在网页的评价算法上重新树立了一套系统。
这套系统会给网页的信息价值评价一个分数,分数高的网页会被推荐列在前边。
阅读韩城无间最新章节 请关注凡人小说网(www.washuwx.net)



