解密AISou智能搜索
在国外搜索企业磨刀霍霍试验人工智能搜索的同时,拖延已久的国产人工智能搜索引擎AIsou.com的上线事宜也已提上日程表。据AISou项目总负责人全胜介绍,目前AIsou已处于引弓待发状态,在解决了困扰项目推出的安全问题之后,AIsou成熟版本随时可以上线。
据全胜透露,AISou的算法基于用于自然语言分析的人工智能技术,可以对互联网上70-80%网页中的70%以上内容进行理解和解读。然后,基于对内容的理解,系统会以某种独特的格式对信息加以存储。在存储方式上,AISou的方法与google等第二代关键词搜索引擎也有不同,不同在它不是按照全文检索以及标签分类等方式进行存储,而是先理解再存储,存储理解后的内容。因为这个原因,其单个内容的存储量比第二代搜索所占据的空间要大一些,存储的格式也更为复杂。
接下来,当用户输入关键词进行查询时,AISou会根据用户身份、用户搜索记录以及上下文语境、时间、地域等因素进行判断,以此来精确定位用户的搜索意图,进而回答用户提出的各类非定制问题,并返回多级的答案。在上述过程中,系统可以通过基于人工智能的自然语言分析和精确搜索意图两项核心算法,给出与第二代搜索迥然不同的搜索结果列表。
可以说,对于精确搜索意图这个目的而言,识别身份并不需要太多技术含量,而根据用户搜索习惯、语言环境和浏览历史对用户意图进行判断,其难度则与抓取并理解信息相当。这其中,会涉及到一些较为复杂的计算。比如说,一个经常搜索IT内容的用户,如果他偶尔搜索娱乐内容,系统会将这个偶然行为记录在案,并在其搜索记录中加入一些变量。不过,全胜说,该技术至多只是一种趋近式的技术,很难做到百分百准确。
不妨比较一下Google的做法。Google所提供的个性化搜索也会记录用户的浏览历史,但Google这么做,更多的是为了统计用户的搜索情况,进而对整个搜索引擎进行调整,包括重新确定某些网页的相关性排序,而在对用户浏览历史进行个性化利用上,则做得不够彻底。而AISou则在利用用户搜索记录进行统计的同时,也对用户的个性化习惯进行细分,以便实现精确定位用户搜索意图的效果。
不难发现,虽然问答式搜索也要用到精确搜索意图功能,但该功能更多的还是为了辅助关键词搜索。因为如果用户问的是完整的句子,限定的搜索范围已经较小,而且本身已经包含了精确搜索意图的成分在内,而不必再辅之以精准定位功能。关键词搜索就不同。因为关键词搜索返回的搜索结果更多,也更为发散,所以就需要将搜索条件精确化,使返回的结果更为贴近用户的搜索意图。
不过,全胜表示,之所以要为关键词搜索辅之以精确搜索意图功能,并不是说关键词搜索不涉及人工智能和自然语言分析技术。事实上,AISou是把关键词当作一个句子来理解的,区别只在于是一个独立单词的句子,还是一个由多个单词构成的句子。例如,当用户输入给我找包括硅谷动力和雨伞两个词的内容,其结果,和输入硅谷动力 雨伞返回的内容是一样的。
实际上,AIsou对整句问题的理解比抓取网页的理解更为精确。原因很简单,如果系统理解不了某个页面,至多不过是不能返回该页面,而如果理解错某个问题,则根本不能进行回答,或者返回的答案全然牛头不对马嘴。这是很影响用户体验的。
全胜预测,绝大多数用户在使用AISou时,主要使用的还会是关键词搜索,这其中用户也可以使用布尔表达式,只不过输入布尔查询符或者空格之后,系统会将整个输入条件视为一个句子,并以此来理解用户的意图。
精确意图搜索和基于自然语言的理解,本身都可以归结为一种人工智能。抓取内容的同时去理解、理解问句,还有精确意图的过程,这几部分都用到了人工智能技术。全胜说。