美国加州大学团队搞出了一个叫panman的东西,专门对付这个麻烦

你肯定听说过现在生命科学里特别火的那个“亿级基因组时代”吧,随着测序技术的狂飙突进,数据多到根本存不下、算不完,这就成了科研界的老大难。美国加州大学圣迭戈分校的一个团队搞出了一个叫PanMAN的东西,专门用来对付这个麻烦。 这个PanMAN其实是个新型的数据结构和文件格式,说白了就是给海量数据“瘦身”。你要是看过那种一个物种里所有个体的基因组组合起来的泛基因组学研究就知道,以前光靠一个参考基因组根本不够用。PanMAN最大的亮点在于把数据压缩和生物学意义表达揉在了一块儿。它用树状结构来记录突变事件,把所有相同祖先发生的变异只存一次,不用在每个后代个体里都重复存一遍。这就好比把好几条进化分支的信息挂在一棵树上,还通过额外的网络连接把基因重组这些复杂事件也都串起来了。 团队已经用它试了一把实际效果,拿着新型冠状病毒的数据做了个大动作。他们把超过800万个病毒基因组序列全都塞进去了,结果发现这么大的数据量处理完居然只需要366兆字节的硬盘空间。这简直比直接把全基因组拿去比对节省太多了,效率是原来的三千多倍。 要是把这个技术用到人类基因组研究上,那影响可就大了去了。它不光能帮科学家更高效地存数据、共享资源,还能帮着咱们搞清楚人类怎么迁徙的、疾病是怎么遗传的。以后这玩意很可能会成为解析复杂进化历程和做精准医疗的高分辨率工具,为好多领域都注入新动力。