发表:2012年3月07

黄金在文本?

自然体积483年,页面124 (2012年)引用这篇文章

3602年访问
6引用
64年Altmetric
指标细节

主题

出版商和科学家应该做更多的工作来促进矿业研究文献的电脑。

无论是大型强子对撞机产生的海量数据,或数以百万计的基地在人类基因组中,许多科学分析现在依赖于计算机退出意义的数据。但有一个巨大的存储的信息,研究文学,迄今为止似乎免疫计算机分析。总的来说,文章只存在于格式设计对人类阅读,如这一段。

文本挖掘旨在打破这个障碍。使用自然语言处理概念磨练在过去的30年里,计算机程序从纯文本开始退出信息,包括专利和研究文章。现在,软件需要高度熟练的操作人员,但在未来十年它可能改变科学家阅读文献的方式。Text-miners希望由数以百计的研究论文搜寻协会科学发现和联系(如药物和副作用之间,或基因和疾病通路),人类阅读每篇论文单独可能不会注意到。

承诺还与具体的例子支持科学的成功——尽管在制药行业,文本挖掘公司已经与研究人员合作,加速药物发现。但是学者们正努力甚至运行实验——因为出版许可证不让他们text-mine研究论文,和出版商是文本挖掘请求反应迟钝。厌倦了经过两年的谈判,一组研究人员正推出一个公共网站日志出版商的反应(见134页)。

毫无疑问,一个完全开放的研究文献更容易证明这种机器阅读会导致科学发现。但问题是如何取得进步的今天,当许多研究背后订阅防火墙,甚至“开放”内容并不总是有一个文本挖掘许可证(包括83%的“免费”研究PubMedCentral在线存档)。

出版商应该同意,科学家们已经支付访问研究论文可能text-mine内容而无需支付额外费用和发布他们的发现——只要他们这样做并不违反原来的防火墙。出版商可以在文章中的数据没有要求,只在文章的编辑和格式化。他们应该让他们的文本挖掘政策明确后,考虑期刊的例子遗传说,它是“寻求鼓励文本挖掘实验”。(它的出版商,自然出版集团还出版这个杂志,我说它不收取用户的内容,合同。)

另一方面,text-miners需要做出一个更好的技术。他们说他们在“第22条军规”的情况下,他们怎么能证明的好处,如果他们不允许运行实验文献?相反,他们text-mine抽象,通常是通过挑选关键词——full-text-mining可能提供的一个苍白的影子。凯西伯格曼曼彻斯特大学、英国、记录项目试图text-mine可用PubMedCentral内容(见go.nature.com/2pqp8g),发现很少的例子,这表明text-miners是我不情愿的甚至免费内容的语料库。

出版商指出,他们很少收到文本挖掘请求,所以不会很热。所以除非text-miners开始充分利用可用的内容,和请求访问发布内容,而总是被清楚他们的项目将如何科学——不满意僵局将持续受益。

权利和权限

再版和权限

关于这篇文章

引用这篇文章

黄金在文本?。自然483年124 (2012)。https://doi.org/10.1038/483124a

下载引用

发表:2012年3月07
发行日期:2012年3月08
DOI:https://doi.org/10.1038/483124a

本文引用的

在全文的文章中提取和量化齐名的人
- Guillaume Cabanac
科学计量学(2014)
我的数据是你的数据
- 薇薇安马克思
自然生物技术(2012)

黄金在文本?

主题

权利和权限

关于这篇文章

引用这篇文章

本文引用的

在全文的文章中提取和量化齐名的人

我的数据是你的数据

搜索

快速链接

主题

权利和权限

关于这篇文章

引用这篇文章

分享这篇文章

本文引用的

在全文的文章中提取和量化齐名的人

我的数据是你的数据

搜索

快速链接