你所不知道的音乐搜索
来源:雅虎搜索日志
不知不觉已经在雅虎音乐搜索的team工作2个年头了,没有什么豪言壮语,其实是说不出来。这次借助这个平台和大家聊聊音乐搜索的一些后台的工作。后台工作的主要目的是为了提升搜索的质量,用我们的术语就是RCF和连通率,即相关性,覆盖率,新鲜度和连通率。说通俗些就是让大家能够在雅虎音乐搜索更快更准确的找到想要的歌曲。
后台的东西纷繁而复杂,这里篇幅有限不能一一做介绍,我选取了一部分工作和大家聊聊。
1.试听歌曲时播放器显示准备就绪,但是可以下载,oh no~!
这曾经是一个很头疼的问题,困扰了我们相当长一段时间,作为一名音乐搜索的工作人员同时也是产品的使用者非常了解这种情况的严重性以及对用户使用感受的伤害有多深。当你以100k/s的速度下载歌曲的时候,你却发现这首歌在试听的时候却无法播放,大部分用户会认为这个歌曲听不了而关闭页面或不停的尝试其他的搜索结果。
为此,我们做了大量的采样,测试和研究工作,最终拟定了针对不同的准备就绪错误出现情况的解决方案。经过工程师团队的开发和我们的测试后上线。在每天的例行质量检查中我们欣喜的发现,这种情况得到了很大的改善。准备就绪的情况大幅度的减少。但是,也发现仍然有一小部分准备就绪的情况发生,但是这些音频文件却无法正确的下载。为此我们已经准备下一步的改进,争取让这种错误彻底在音乐搜索消失。
2.Spam?长期而卓绝的斗争,至今仍在继续
我不知道大家在使用音乐搜索的过程中有没有出现在试听歌曲的时候,出现歌曲没有任何声音,自己的浏览器却疯狂的跳出各种窗口。对于这种情况我们将其称之为spam,即是作弊行为。同样是一种危害用户使用感受的行径。
我记得在一次spam的讨论会议中曾说,用户不会了解也不会理会后台究竟做了什么,他们会认为这些讨厌的跳出的窗口是雅虎音乐给他们的,而实际上我们是无辜的,但用户不会理解,他们也没有义务去理解。
spam和反作弊是一个成本的较量,spammer按一个键能创造100个spam,你就必须做到按一个键能干掉200个spam才行,只有你付出的成本比他少,同时加以技术上的改进才能取得战斗队的胜利。就是这样,我们的专门针对spam的工具诞生了,一个人只需短短的2,3步操作即可封杀大部分spam。同时我们对一些有共性的spam进行的技术处理,不管是谁使用它们们均不可能出现在我们的搜索结果中。我们用最小的人力换取了最大的效益。而我们都非常清楚,spam不可能完全消失,我们只有不断的改进使其最小限度的出现在用户的视野中。
3.谁动了我的双节棍–我要找周杰伦唱的双截棍,你怎么给了我一个四川方言版的?
相对于网页的搜索,音乐作为一个垂直搜索技术上是相对简单的。机器是不可能听懂周杰伦的声音和四川话的,那么如何做到精确匹配呢?
这不得不提到后台一个重要的音乐搜索知识库,这个知识库中大概涵盖了上百万条歌曲信息,都是以 歌曲名\歌手名\专辑名 的格式存储的,如果在知识库中存在这样一条信息“双截棍 周杰伦 Jay”,那么机器会用在网页中抓取到的信息和知识库中的信息进行比对后做出判断。很自然的也就出现了本段开头所提到的错误,四川方言版本的双截棍被匹配到了周杰伦原唱歌曲中。这属于知识库信息不完善造成的,如果知识库中存在这样一条信息“双截棍(四川方言版) 周杰伦 Jay”那么根据程序判别,这首四川方言版本的双节棍自然不会匹配到“双截棍 周杰伦 Jay”这条信息中。
完善知识库的信息,这也是后台的一项重要工作,比如,知识库能够知道“忘情水”这首歌被15张不同的专辑收录。知识库知道双截棍有11个不同的版本。其实都是我们对知识库信息的添加,纠错和整理的结果,随着库容量的不断提升,以及抓取,抽取技术改良。机器将能够更为准确的识别歌曲。用户也能更准确的找到他所要的东西。
絮絮叨叨的说了这么多,后台的工作总体说起来是枯燥和乏味的,有时候总觉得自己的工作象维特根斯坦所定义的不可说的东西,我们只能保持沉默。生命,伦理,价值,情感,宗教,激情,想象,直觉。形而上的本体……一切可以赋人生以意义和价值的东西,都是不可说的。它们是如此神圣之物,以至不能被说,只能在沉默中显示。如果说前端的编辑同志们赋予了音乐搜索以肉体,那么后端就赋予了它灵魂。不是么?
PS:雅虎音乐搜索近来还是有许多有用的功能发布的,比较学歌、音乐画报等,但音乐搜索的灵魂,是找到用户需要的音乐,并能正常地播放。作者列出的三个问题,也是用户最关心的,希望雅虎音乐搜索能很好地解决它。
分享此文 →


没有评论▼