马上注册,结交更多好友,享用更多功能,让你轻松玩转社区
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
来源:汤森路透生命科学与制药
导语:汤森路透出版的白皮书《大数据与制药行业的需求》,探讨了制药行业如何应对当下大数据时代的挑战。我们认为,大数据时代问题与机遇并存。本文从一份针对制药行业的IT 领导人对大数据看法的调研开始,回顾了1960年代到2000年代的大数据发展趋势、总结了人们如何利用当前的大数据获取价值、并对未来的大数据——懂得提出问题并解答给出了预测与分析。将大数据化为小数据是应对大数据挑战的关键,破除内部、外部、公共和商业内容之间的壁垒,将多个来源的信息内容整合在一起,建立数据信息的流动和增加相关性,为分析提供动力,最终把内容转化为洞察力,支持发现更好的新药,才是真谛所在。
目录 ----------------------------------------
引言 化大数据为小数据 大数据,历史趋势的下一波 1960 年代的大数据——专利 1970 年代的大数据——化学 1980 年代的大数据——序列 1990 年代对大数据——阵列 2000 年代的大数据——下一代测序
当前的大数据 未来的大数据 有关大数据的数据 大数据工程师 结论
正文 ----------------------------------------
引言
Gartner, Inc. 公司把“大数据”简要定义为:“海量、高速和多样的信息资产,需要以成本合算的,创新的方式来处理,来增强洞察和决策”。在汤森路透生命科学部看来,“大数据”问题与机遇并存。
汤森路透近日的一项调查,对一批制药业的 IT 领导人征询对大数据的看法。毫无争议,他们百分之百视“大数据”为一个机遇。这不足为怪,从大量证据中找寻经验知识从来都是创新的一个驱动。制药业的工作方式,一般是先找到某种关联(例如在疾病和蛋白质之间),然后再看对其如何利用。虽然近期也有先有科学知识再引领新药发现的趋势,但解释某个关联为什么存在的科学通常是在关联被找到之后才出现的。按寻找先有关联的思路,有更庞大和更丰富的数据集,对制药业寻找新关联和开发新药,就显然是一个机遇。
当被问及哪些方面有大数据机遇,大多数的受访者强调了两个关注点:早期药物发现(41.2%)和了解市场(26.5%)。图 1 清楚的显示出这两个关注点,以及个体化(或精准)药品的新兴趋势。药物发现从来都是由数据推动的活动,把利用的数据源延伸到实验室和公共项目产生的新的海量、多样和高速的数据合乎情理。了解市场则是新的关注点,这一方面反映了付费方对处方行为的更大影响带来药品市场机制的变化,同时也反映了电子健康记录有望产生患者层次的丰富数据。了解患者(个体化药品)在我们的调查中占分 14.7%,也是制药业当下的一大焦点,因此获取和消化理解这种数据的能力将为受访者真正的赢得业务价值。
化大数据为小数据
应对大数据的问题在于:人类不能直接用大数据工作。要实现所有这些数据的价值,我们需要将其缩减到适于人类使用的大小。考察我们的客户应对大数据的具体做法,您会看到用各种工具和技术来“缩减”数据。在汤森路透生命科学业务部,我们把这叫作“让大数据看起来像小数据”。小数据是我们有办法处理的数据。小数据包括有证据支持的可靠事实,科学家将其用于模型、可视化和分析。这样的数据让医药公司在其开发更好新药的核心业务上能够采取相应的行动并获益。
在药物发现中,这常常体现于设计计算机模拟(In-silico)实验。这需要从分散的来源构建数据集,要求跨部门团队协同处理非常多样化的大数据。在数据整合过程中,让这些数据用起来象小数据是个挑战。您将需要共同的本体,以及向技能和背景迥异的科学家呈示数据的方法,来方便他们理解。
要了解患者,挑战在于把数据从一个地方提取和对输出结果过滤:得出的关联关系会包含那些显著却平淡无奇的,或那些似是而非的,而您需要从中滤出让人感兴趣的关联关系,这个情形就像音频业中的信号放大。
大数据,一个历史趋势的下一波
在制药业,数据量大得难以处理不是新现象,其实,大数据是在药物研发中使用数据的一个演进。大数据带来了新的挑战,也提供了新的工具,但不是某些评论员所宣称的彻底变革。多年以来,像汤森路透这样的信息公司一直在支持客户的努力,将当时的“数据大象”分解成可管理的知识块。
1960 年代的大数据——专利
一个早期的大数据挑战是专利的猛增。在 20 世纪上半叶,一个药物科学家可以通过自己看专利文献来保持对其领域的所有专利的了解。图 2 显示,到 1960年,他得每年看 1000 多篇专利来跟上技术的进展,而且还得至少能读英语、德语、法语和日语 4 种语言。这个挑战催生了德温特专利这样的文摘索引服务。德温特专利的编制团队收集和阅读全球主要专利局出版的专利,对其分类编目和撰写英文的描述性文摘(这项工作持续至今),而后把这些深加工的信息按不同领域出版周报,让科学家能够轻易的获得有关的信息。
从图 2 可以看出,专利数据从 1960 年以来一直保持增长的趋势。今天人们要跟踪专利的进展,只需要在专利数据库里设置定题跟踪,而不用考虑别的办法了。
1970 年代的大数据——化学
计算机数据库诞生于 1970 年代。对于制药业,特别是出现了可以储存、检索和显示化学结构的数据库。制药公司从那时开始建立内部的化学物注册数据库,如今则成了公司的核心数据资产,和用于新颖的大数据实验的首要候选品。联机信息检索系统开始出现,象 Dialog、Questel Orbit(如今称 Orbit)和 STN 这样的主机服务,让象 ISI 的科学引文索引(Science Citation Index, SCI)这样的纸质索引服务变为可以以电子方式获取,也让第一批“数据科学”之一的文献计量学得以发展起来。借助计算机处理的论文索引数据,制药业得以从数量不断增长的期刊论文中过滤出高质量的文章。
制药公司也急切的要把内部的注册数据库与外部的专利和期刊中的广泛化学信息关联起来。这个需要造就一批关键的化学数据库,包括Chemical Abstracts Service、Beilstein(现称 Reaxys)和 Current ChemicalReactions,至今仍是至关重要的科研资源。基于这些资源,另一门新的数据科学——化学信息学(Cheminformatics)得以诞生。化学信息学让我们能够发现与疗效或毒性有关的结构单元,并随后为组合化学等技术提供支撑。
1980 年代的大数据——序列
1980 年代早期,GenBank、PIR 和 EMBL 等公共的序列数据库开始提供早期测序技术得到的生物序列信息。图3 显示“人类基因组计划”的启动让这些数据库公布的序列信息指数级增长。
伴随着公开序列数据量的不断增长,序列信息的专利也在增加,如图 4 所示。
序列数据爆炸式增长的同时,是个人计算的出现,伴随着新的数据库的发展,诞生了一门新的数据科学——生物信息学。生物信息学使得这些序列数据能够用于新的药物靶标的发现和研究。
1990 年代的大数据——阵列
1990 年代,能够同时测量大量基因的表达水平从而以前所未有的规模生成实验数据的微阵列技术出现,这带来了新的数据挑战。科学家们使用该技术可评估在不同实验条件下,例如对比使用药物与使用安慰剂的样本,哪些基因被开启或者关闭。
这让科学界欢呼雀跃。然而现实情况是,当微阵列实验可同时测量数万个基因的表达,实验一般只有几十份的样本量。这样在统计上有很大问题,有些不同样本与基因表达谱的相关性完全是碰巧的,科学家会迷失在大数据的噪声中。这就需要生物信息学家和生物统计学家施以援手,立即可用的办法是统计聚类这样的数据缩减技术,通常通过主成分分析和层级聚类来降低复杂度。但是,这些统计方法无法从生物学或药理学的角度获得“为什么”那些基因表达变化是重要的。
GeneGo 公司在 2000 年开发了 Metabase 平台,来收集基因之间的联系,形成如图5所示的生物学通路和通路图。这项工作依赖专家采编团队把科学文献中的高质量信息提取出来和联系起来。通路方法很快以“系统生物学”而知名。而 GeneGo 团队就通路深入的收集各种宝贵信息,包括基因在身体的何处表达、相关疾病、药物靶标和生物标记。这样科学家们可以得到微阵列实验的非常复杂的产出,利用这些信息来更好的了解疾病生物学、识别药物新靶标和生物标记。
2000 年代的大数据——下一代测序
基因组测序的能力曾在 1980 年代带来大数据挑战,如今则又发生新的挑战,因为各种新技术加快了测序速度并降低了成本。过去“人类基因组计划”要花 10 年时间做完的一个基因组的测序,现今则几天时间可以完成对一个人的基因组测序。对患者的基因组测序即将成为医疗检查的常规项。管理原始数据的系统在不断成熟,但解释数据意义的工具仍在开发之中。这些工具将让个体化药品的想法成为可能。但科学家和研究人员需要变种疾病和变种反应的可靠信息。这是个典型的例子,说明人工编制的小数据在理解下一代测序仪器(NGS)所产生的大数据所蕴含的意义时的用武之地。
汤森路透新近提供的关于基因变体数据的编程接口(Gene Variants API)使得处理染色体位点信息成为可能,并可以就所识别到的变种,了解有些什么易感疾病和治疗反应的汇总信息。GenoSpace 公司用这个来生成患者的概要信息,为医生提供决策参考。
当前的大数据
如我们所看到的,每个十年都有新的数据挑战,而信息提供商在化大数据为小数据方面发挥关键作用,这样数据科学家可以将数据转化为公司的价值。当今的大数据挑战是多样性的挑战。这一次,制药企业面临的不是某个单一类型的数据量大得难以管理,而是如何把内部和外部的多来源的数据联系到一起,用于创新的过程中。
如图 6 所示,这在对我们调查的回复中得到证实。最大的挑战是:整合外部数据库内容(45.5%)、内部实验内容(27.3%)、外部社交媒体内容(15.2%)及内部文档内容(12%)。
对付老问题的新工具和技术
对大数据技术的一个希望,是能帮助人们以某种方式来整合数据,最终得出对行动的指导。我们的调查表明制药业对 NoSQL 数据库、关联的数据/语义网技术和视觉分析有浓厚兴趣,期望这些工具能用来解决这些挑战。
从内部数据获取真知
图 7 所示为一家典型医药公司,其防火墙内数据的数据量和多样性都快速增长,正接近或将超过其从外部获得的内容。
现在的很多机构都采用混合数据模式:既从外部购买高质量内容,内部也产生大量数据。无论是来自防火墙内部还是外部,所有这些数据(多数是文本型的且难以阅读)需要一起使用,需要有办法释放数据中的价值,需要能在数日之内(而不是数月)敏捷的构建系统来回答特定的问题,并能随时改动。
象 Accelrys 的 Enterprise Platform、Pipeline Pilot 这样的基于组件的系统,成了信息学家完成这些工作的“瑞士军刀”。如图 8 所示,这些系统引入外部数据,起到连接两个世界的桥梁作用。Accelrys 与汤森路透建立伙伴合作,提供 Pipeline Pilot 组件库,实现对汤森路透 Cortellis for Informatics 的 Web Services APIs 的即插即用的方便访问。
Accelrys公司负责伙伴关系合作和开发人员关系的 Thomas Mayo 熟知这样的即插即用的应用场景。他的客户是化学师、科研员、开发人员和处理生命科学数据的信息专家。他们从内部和外部的多个来源吸取内容,进行分析和改善决策。他说:“客户获取的价值在于能交叉引用数据和提出更多问题。”
Accelrys 基于 Pipeline Pilot 的一个工具能让用户对大量资源的数十亿的数据点扫描,来为药物发现和开发进程提供信息。这样的工具让公司将所分析数据蕴含的价值释放出来。
而在 Mayo 看来:“汤森路透的本体和 API 让我们的用户能够切入海量数据和获得有意义的洞察力,回答有关失败率的问题,开展重大研究,鉴别出值得继续研究的化合物,等等”。
沿着生命科学产业的价值链,有无数具有重要意义的数据点:谁投资了什么,通路如何作用,知识产权何在,有过哪些统计分析,遗传的作用,如此等等。知识就是力量,而信息是知识的源泉。
Accelrys服务的领域不仅限于药物发现。PipelinePilot 是英国国民卫生系统(NationalHealth Service)使用的唯一科学情报工具。如今他们已经开发了组件来查询数据(57,000 条患者记录),能够按年龄、人群等条件为药物开发者查询所需的信息。
放眼未来,Mayo 看到把 Accelrys 的工具与编制好的数据库结合应用的广阔前景。“我们可以结合数据接口服务和软件来打造更好的应用,例如竞争情报仪表板,来了解药物研发管线里有什么,研发资金的去向,或哪些药物在市场上卖得好。一旦人们掌握了如何运用汤森路透数据和能问些什么样的问题,他们会指出下一步需要深入了解什么。我们和汤森路透合作,因为它的内容编制全球领先。”
从外部数据获取真知
我们的调查中,超过 45% 的受访者都将访问外部内容视为最大挑战。复杂之处在于每个数据提供方,无论是公共资源还是商业服务的,都从不同的网站,以不同方式提供内容,使用的术语和用户访问控制机制都是其机构所独有的。
专业信息人员已经能够纯熟的选取最有价值的信息来源,提取最相关的内容,再把这些内容重新组织和呈现给用户。但这样的流程会成为组织运行中的瓶颈而不可持续。最能从使用信息中获益的科学家不愿参与,因为自己做信息分析太耗时,找专业信息人员做又不容易讲清楚需要什么样的信息。结果常常是信息使用者在网上粗浅的查了查,没有查到什么就误认为某项技术是可以自由使用的—却在几个月后发现情况并非如此。
应对这个难题的一种办法,是通过把源自不同的 API 接口的内容混搭成高质量的信息提供给使用者,例如采用Accelrys 的 Pipeline Pilot。而汤森路透Cortellis 的门户网页界面也可以支持做这件事,如图 9 所示。
Cortellis 被设计用来把汤森路透此前相对独立的在线产品中的内容集成到一个单一的最终用户友好的界面里提供给用户,在同一个界面里再集成进非汤森路透的内容是自然而然的下一步。首次这么做是几年前发布的管线数据集成器(PipelineData Integrator),来自领先的管线数据库的内容被合并进来,而用户一次检索就能得到所有这些资源的综合视图。
Cortellisfor Information Integration 则更进一步,用户可以一块儿查阅商业数据库,公共数据库,以及自己的内部内容。一次检索就可以看到来自所有内容集的检索结果,并用汤森路透的本体来方便找到内容。这就让最终使用信息的科学家不再会遗漏重要的资源。在 Cortellisfor Information Integration 上,无论内容来自何处用户都能作标记和批注,由此用户在查阅外部资源的同时可以分享心得体会,从而同时加快内部知识的传播和利用。
从整合多个数据源获取洞察
关联数据为整合内部和外部内容提供一个强大框架,让用户能对在一张“主图”里整合的数据提问。如图 10 所示,Entagen 公司借助 Cortellis for Informatics API 接口的力量致力于此。Entagen 的 EXTERA(语义数据)技术用作与机构各个数据源的整合和交互,结构化和非机构化内容均可处理。
Entagen的 ChrisBouton 认为,所有这些都是要“在大数据中连接各点”。他说:“在生命科学的科学家来说,真正重要的不仅在于理解单个药品、通路等等,而是要理解其间的联系,以得出正确的假设,推进正确的项目,如此等等。”
客户在把 EXTERA 用于精准医药、研究(从早期发现,到筛选和开发阶段)、竞争情报,和在法律领域用作理解法律实体、人物和案件文件。Entagen 的 KNOWLEDGE MAPS(知识地图)提供强大方式来与信息交互。
当被问到编制好的小数据对大数据的价值时,Bouton 表示:“这至关重要。其中的原因,可以用数据到信息再到知识这个经典的金字塔理论来说明。人人都在谈论大数据。我们有的数据肯定比我们知道该怎么应对的要多。您需要将数据放到框架之中来获得信息,用模式让数据获得意义。如果没有汤森路透提供的那样的高质量数据,您将会迷失。下一步,您需要能将信息转化为知识。如果没有可以信赖的上下文背景,这个转化会困难重重。”
通过可视化交互获取真知
从大数据提取价值的一个最好办法是把信息可视化,但只是把所有的数据做成一张好看的图还不够,新一代的可视化分析工具让用户与数据交互,选择显示范围,滤出认为有关的条目,找到合适的视角以便用于演示和汇报。这些工具还让有技能的信息设计员建立分析模板,如图 11 的示例,由此在让非专业人员获得同样的分析能力的同时,简化他们的工具使用。
汤森路透在与 AstraZeneca 公司 Oncology iMed 的合作过程中,使用 TIBCO 的 Spotfire 软件,针对药物开发在临床阶段的一组常见问题,设计出一套模板。
新问题,新机遇
社交媒体
对制药业来说社交媒体是个新的维度,但 18% 的受访者说每天用其工作,而 15.2% 说他们把这看做值得注意的挑战。汤森路透的资深研究分析师 Jochen Leidner 专门研究社交媒体。“确实,人们发推特谈论健康上的担心、症状、使用的药物及其副作用,”他说:“社交媒体已经如此重要,著名的例子如 Google 用大数据分析,比美国疾病控制中心更好的预测了冬季流感的扩散。”
制药公司期望利用社交媒体来更好地了解患者。他们可以用社交媒体来发现未被满足的市场需求、新的不良反应及患者依从性方面的问题。这样的信息不仅在西方国家每天数十亿的推特和社交媒体帖子上随处可见,也大量出现在那些新兴国家的社交媒体上。
汤森路透与社交媒体数据聚合机构DataSift 合作,为其客户提供社交媒体分析。DataSift 使得向多样来源的查询成为可能,而汤森路透则运用领域里的专业知识和本体,来从数据中获得洞察。“可将其想象成一个水净化器,”Leidner说:“假如您在沙漠中,您会需要水,而您需要干净清澈的水,才不会得病。汤森路透好比是社交媒体数据的净化器。我们过滤出那些有价值的,那些他们在意的。没有其他人能如此专业。”
个体化药品
由于我们如今能在几天之内,以不到 1000 美元的价格,做一个人的基因组测序,医生们寻求如何凭借从基因组分析获得的洞察,来为患者提供更好的诊断和治疗。
但随着基因组数据的增加,涉及这些信息的储存、管理和保障的挑战也与日俱增。所幸这一困境已有解决办法。这取决于利用解析海量信息的数据管理资源,披沙拣金,找出最相关的信息。
Genospace 是一家专注于基因组医学的信息构架公司,公司的 CEO John Quackenbush 对收集、储存和管理大数据的挑战可不陌生。“如果今天我查看某个人的基因组,我会发现编码序列有数千个变异。无论我在努力决定什么,将所有这些数据置于上下文背景中十分重要。汤森路透有精湛的内容可用来研究基因变异和通路、查看突变和随病程的多方面信息。基因变体数据库(Gene Variant Database)提供的基因诊断信息特别有用,让我去掉噪声,得出信号。”
所有这些都涉及精准医药的演进,利用现今有的信息和技术,对每个病人按其遗传背景来提供医疗。正如 Quackenbush 所说:“元数据非常重要。对于象癌症这样的病,突变可以显示治疗选项,来找出可能对病人更优的方案。这就是上下文背景中的信息。汤森路透确实擅长提供特定上下文中的信息,并非所有突变都是等同的。”
汤森路透的数据集让科学家、研究者和医生将最有价值的实质性信息放到上下文背景中来考察。GenoSpace公司与很多客户合作来运用从基因组数据中得出的洞察。例如有一个病理实验室是查找与癌症诊断有关的拷贝数的变化。GenoSpace将报告和基因组类型信息合成到一个数据库中,并从汤森路透的 Gene Variant Database 提取信息,给实验室提供更多的突变等方面的信息,使研究人员能得出更好的结论。在合适的背景中的数据,能让医生更准确地诊断和解释。
“我们现在投资在从汤森路透获取深度采编的数据,以确保自己免受即将来临的数据海啸的冲击,”Quackenbush说:“有可以信赖的资源来降低复杂性非常有用。信息量将会继续爆炸式的增长,我们需要现在就跟得上浪潮。”
大型药企在了解竞争格局和开展更具针对性的临床试验方面还有诸多挑战。制药公司需要知道哪些已经在试验中、在哪个阶段、以及成功/失败率。“随突变的数量增加,要跟得上所有这一切真是艰巨的挑战。汤森路透的 Gene Variant Database 和 Integrity 真的是在这些领域中的精品解决方案,”Quackenbush 这样说。
用不了多久人人都能在临床试验中常规测序,从而在将遗传标记物用于诊断和治疗方面,超越此前的仅限于使用身高、体重和家族史。使用 NGS 后的前景是,您在临床试验中对人群的了解大大的增加了,您将可以开始看出模式,和考察会导致不良副作用的基因突变。
汤森路透与 GenoSpace 正携手引领,将下一代测序的大数据挑战转变为指引行动的洞见,服务于医生的治疗决定。
未来的大数据
有关大数据的数据
懂得怎样提出问题和怎样回答
我们认为,继大数据之后的一个有需要的方面会是“大问题”。怎样正确的提出问题,和如何得到正确的回答,这个过程中包藏着大量的知识。这需要综合三方面的理解:“真正的”问题是什么?从哪里可以找到数据(每个数据源的长处和不足),和如何分析这些数据以便最终的使用者消化接收?这些技能通常由信息专家提供,但目前这样的人才短缺,而这个过程也带来时滞。长期以来,汤森路透的生命科学专业服务团队对用户通常要问的问题积累了深入的理解,而基于这种理解,汤森路透正在得出将内容和分析整合到一起来提供给用户的新方法,以直接服务于用户的隐含需求。
有些情形下会仍然需要一个中间环节,来服务于最终用户,处理数据和使用分析工具。当需要组合使用内部和外部的数据来回答问题的时候尤其如此。而不管怎样,汤森路透从信息处理过程中找出可以重复使用的组件,并利用这些组件来及时的响应请求。特别是对于药物再定位,汤森路透打造了一套内部使用的工具来把各种相关的信息汇集到一个交互式的“工作台”界面上,来使其专家得心应手的工作。
在另外一些情形下,汤森路透则开发出工具交给最终用户直接使用。Cortellis 平台上这些新功能(图 12)正在形成支持研究和开发的解决方案。从药物代谢和药物动力学家寻找药物的吸收、分布、代谢问题的解决办法,到业务拓展和技术许可专业人士寻找潜在的授权候选药品的合作伙伴。
在图 12 里,对选出一组药物,将其药物浓度时间变化(PK)数据汇集一起,这样药物代谢动力学(DMPK)科学家能立即查看按剂量标准化的典型PK 表现,和考察药物合用时的PK 变化或产生的药物相互作用。
大数据工程师
大数据-> 小数据-> 洞察力需要专业技能
在大数据的世界中,容易受到技术的吸引,而不解决人的问题。将大数据转化为小数据和可供采取行动的内容是一项技能。大数据工程师的技能包括:理解如何获取、整理、组织和将内容可视化,外加一些科学知识,知道哪些工作对解答制药公司提出的问题有帮助。
大数据为数据挖掘和推理开启了一个新世界。汤森路透与英国伦敦的帝国理工学院合作,探索如何工程应用大数据新技术,在不断变化的内容行业中提供最佳价值。这些技术可归为三个方面:
帝国理工学院计算科学系的郭毅可教授指出,“大数据之大,在于价值而非数据量。您可以有一PB字节的垃圾;要紧的是我们怎么来处理它。”内容提供商比其他任何人都更早认识到,数据是像石油一样的资源,可以生产和提炼而增加更多的知识。但与石油不同的是,这种资源永远都用不完,它没有尽头,而您还可以不断补充。汤森路透生命科学的内容就好比最高质量的石油。数据“产品”(而非提供商)行业的概念是新的,而不再仅仅是数据。”
帝国理工学院和汤森路透之间的合作涵盖:
内容本身。不同层次的提炼,消化内容。例如把低层分子数据与高层通路系统作比较。 构建简单的数据资源池。合作开展数据详尽的研究。构建联系基因、疾病和其他方面的通用搜索引擎,创建完整的搜索体验。 提供不断变化的科学机制。汤森路透和帝国理工学院以最简洁的方式来表述知识,给出参考出处。
在培训新一代数据工程师时,郭教授说:“当我们思考数据工程,我们会考虑在未来 5 年间数据是怎样的情形。因此我们现在着手解决的问题不一定是今天发生的困难,而是未来会有的真正问题。现在来尝试新技术和解决办法,在未来几年就可成为行业里普遍的应用。
这可以用三个方面来看:
储存数据:“这是围绕基础设施的挑战。我们需要以PB级字节为出发点考虑问题,我们的设计要基于PB级字节。例如,国家表型中心(National Phenotype Centre)正在绘制人类的代谢谱。他们每年处理 2 万份标本(每年 3.2 PB字节)。我们在考虑高通量筛选得到的试验结果和组学数据,与已知的序列类型相混合。 知识表述:“把通路展示出来,这是极其有意思的。这种模型不是关系型的,我们需要RDF这样的模型,关联数据和通路,象 Neo4J 这样的技术。” 深度学习/分析:“使我们得以开展新试验的机器和算法。通过理解一个问题的涵义,我们就能构建内容来给予解答。我们需要新一代的机器学习算法,使用类似神经网络的工具。随着我们拥有的计算能力越来越强,过度拟合一下子不再是大数据的一个问题了。”
结论
回到 Gartner 公司,该公司如今正式宣称大数据已经达到了“期望膨胀顶峰”,正在降至“幻灭低谷期”。对于制药业的多数 IT 团体来说,这样反倒轻松了。制药业的期望膨胀已超出了分内之度,需要继续做好手头的工作。这项工作首要的是将正确的数据带给正确的人,使其能加以利用,更加明智地开展工作。信息提供商需要认识到大数据的机会并不是关于技术本身的,而是学会在新的环境下工作,这里的数据,无论大小,流动从而具有相关性。这意味着破除内部、外部、公共和商业内容之间的壁垒,给客户跨数据工作的工具,无论是通过开放编程接口,提供数据仓库,提供专业服务或设计直观分析工具。
汤森路透认为,这些途径的任何一种都不是“魔法”解决方案。每个客户问题都有其特定的维度,需要相应的解决方案。关键是要打造组件,从而就能从专门订做解决方案,变成可以灵活组装而现货供应。
实现这个靠的是小数据。小数据拥有将多个来源的内容胶合在一起的本体;小数据能提供从大数据分析中获取意义的噪声过滤;小数据能提供上下文背景,让用户能够通过数据让认知持续推进;小数据还为分析提供动力,来把内容转化为洞察力。
信息提供商拥有构建和维护这种小数据的历史。汤森路透及其客户和合作伙伴都面临重大的机遇,来构建下一代解决方案,支持发现更好的新药,而这才是真谛所在。
全文完
|