无论是大型强子对撞机产生的海量数据,或数以百万计的基地在人类基因组中,许多科学分析现在依赖于计算机退出意义的数据。但有一个巨大的存储的信息,研究文学,迄今为止似乎免疫计算机分析。总的来说,文章只存在于格式设计对人类阅读,如这一段。

文本挖掘旨在打破这个障碍。使用自然语言处理概念磨练在过去的30年里,计算机程序从纯文本开始退出信息,包括专利和研究文章。现在,软件需要高度熟练的操作人员,但在未来十年它可能改变科学家阅读文献的方式。Text-miners希望由数以百计的研究论文搜寻协会科学发现和联系(如药物和副作用之间,或基因和疾病通路),人类阅读每篇论文单独可能不会注意到。

承诺还与具体的例子支持科学的成功——尽管在制药行业,文本挖掘公司已经与研究人员合作,加速药物发现。但是学者们正努力甚至运行实验——因为出版许可证不让他们text-mine研究论文,和出版商是文本挖掘请求反应迟钝。厌倦了经过两年的谈判,一组研究人员正推出一个公共网站日志出版商的反应(见134页)。

毫无疑问,一个完全开放的研究文献更容易证明这种机器阅读会导致科学发现。但问题是如何取得进步的今天,当许多研究背后订阅防火墙,甚至“开放”内容并不总是有一个文本挖掘许可证(包括83%的“免费”研究PubMedCentral在线存档)。

出版商应该同意,科学家们已经支付访问研究论文可能text-mine内容而无需支付额外费用和发布他们的发现——只要他们这样做并不违反原来的防火墙。出版商可以在文章中的数据没有要求,只在文章的编辑和格式化。他们应该让他们的文本挖掘政策明确后,考虑期刊的例子遗传说,它是“寻求鼓励文本挖掘实验”。(它的出版商,自然出版集团还出版这个杂志,我说它不收取用户的内容,合同。)

另一方面,text-miners需要做出一个更好的技术。他们说他们在“第22条军规”的情况下,他们怎么能证明的好处,如果他们不允许运行实验文献?相反,他们text-mine抽象,通常是通过挑选关键词——full-text-mining可能提供的一个苍白的影子。凯西伯格曼曼彻斯特大学、英国、记录项目试图text-mine可用PubMedCentral内容(见go.nature.com/2pqp8g),发现很少的例子,这表明text-miners是我不情愿的甚至免费内容的语料库。

出版商指出,他们很少收到文本挖掘请求,所以不会很热。所以除非text-miners开始充分利用可用的内容,和请求访问发布内容,而总是被清楚他们的项目将如何科学——不满意僵局将持续受益。