摘要:雅虎已经发布了一个巨大的数据集为研究人员进行实验。这个数据集由1亿图片和70万视频的URL组成,同时也包含了它们的元数据。在不久的将来,一个更大的包含音频和视频的由超级计算机处理的数据集将能被使用。

1亿图片+70万视频,雅虎发布超大Flickr数据集-速客网

雅虎已经发布了一个巨大的数据集为研究人员进行实验。这个数据集由1亿图片和70万视频的URL组成,同时也包含了它们的元数据。在不久的将来,一个更大的包含音频和视频的由超级计算机处理的数据集将能被使用。

Yahoo Flickr Creative Commons 当下已有1亿内容,其中包含了9930图片和70万视频的URL以及与之相关的元数据(标题、摄像机类型、描述、标签)。雅虎表示,大约4900万的图片都是地理标记的,各种评论、喜好和社交数据都可以借助Flickr API实现可用。

毫无疑问,对于那些分析图像为了学习新东西或是尝试一些新计算机视觉算法的人来说,这是一个相当可观的资源。新的人工智能算法和技术已经兴起多年,其中大部分算法和技术的灵感来源于访问大量在线图像和视频等方式。然而,一般情况下,对于那些不容易获得内容的研究人员或是公司而言(也就是说,除了谷歌、Facebook、微软和雅虎的其他人),他们不得不通过人工拼凑或其他的方式搜集数据。

据说,尤其是谷歌和雅虎,在各种大数据集贡献上已经颇有建树,尤其是对训练自然语言处理模型非常有用的文本数据。

仅仅为了测试新图像数据集中的一个可能功能,雅虎正在筹备一个比赛,这个比赛能构建无需地理定位就能很容易识别照片和视频拍摄地点的系统。其中,比赛的训练集包括500万的照片和2.5万的视频。

雅虎还与国际计算机科学研究所和 Lawrence Livermore 国家实验室合作,共同处理一个专用超级计算机(Cray Catalyst,针对数据密集型计算设计)中的数据,并从中提取不同音频及视频特征。雅虎声称的超过50TB的数据集(原始的100万URL图片的数据大约只有12GB)和分析该数据集的工具将会于今年夏季末在亚马逊网络服务器上投入使用。

Via 原文链接 CSDN编译

历史上的今天:

  1. 2017:  Advir 和雅虎合作通过不引人注意的广告来营销 VR(0)
  2. 2016:  雅虎卖身进入最后阶段 阿里软银或加入兑购大军(0)
  3. 2016:  你会去做雅虎CEO吗?前软银总裁阿罗拉:不,不,不,不,不,不。不可能。(0)
  4. 2016:  百度困境加深,必应还是雅虎将进入中国?(0)
  5. 2016:  雅虎新闻闹乌龙 《命运》截图被当作照片上科技新闻(0)