微软开源高性能单信道内存串流分析引擎trill,系由微软研究员开发,基于时间数据(temporal data)和查找模型,专门处理即时和脱机数据,可应用于串流引擎、轻量级内存关联引擎,以及渐进式查找处理器。
trill是2012年微软研究院中的一个研究项目,使用的技术源自微软以前的服务streaminsight,供开发人员开发和部局复杂的事件处理应用程序,而这两个系统都基于扩展查找和使用时间组件来扩展关联模型的数据模型。现在trill以一个套件,就提供了所有这些功能。
微软提到,trill是第一个集合技术和算法的串流引擎,以用户可容忍的延迟,处理小批次的数据,另外,trill同时也是第一个以行格式,组织这些批次数据的引擎,能使查找执行更加有效率。对于开发者来说,使用trill与使用任何.net函数库相同,可以直在.net环境中开发,开发者可以将trill嵌入至各种分布式处理基础架构中,像是orleans和微软的scope数据处理基础架构的串流版本。
无论在即时还是脱机数据集,trill也都能发挥良好的功能实现最佳性能,微软表示,开发者只需要一个工具就能进行所有分析,trill语言的高度表达能力,允许用户执行先进的时间导向分析,并从串流数据集中找寻复杂的模式。
在trill发布后,项目从微软研究院转移到了azure数据产品团队,成为微软内部一些大型串流工作管线的关键组件。 trill已经被微软大量部局于内部应用程序和外部的服务,参与规模覆盖数千名开发人员。微软提到,他们能够在10个月内,让azure串流分析服务从第一行程序代码到公开预览,就是在服务上使用trill作为节点上的处理引擎。
trill函数库的组成,方便的和分布式处理框架与输入输出输入配适器集成,微软利用sql编译器,将sql查找编译为trill的表达方式,以解决时间语义的复杂性。未来azure预计还会发布trill程序开发模型,供用户利用其强大的表达能力。
除此之外,微软也在自家搜索引擎广告bing广告中使用trill。通过trill,微软能够在数分钟内,以接近即时的速度,处理数pb的大规模数据,微软提到,要获得这样的成果,在传统的方法中要花费超过24小时以上。
trill现在已经成为bing广告串流处理系统的核心,其提供一致的数据模型和丰富的查找语言,让微软能够轻松的构建和执行复杂的业务场景,而且trill高性能的设计,不仅能处理每天数万亿的事件,超大规模数据和数tb级的状态都不是问题。微软表示,现在开发者社群中没有与trill相同功能的工具。
微软在github中开源trill,并邀请社群参与trill的发展,微软提到,trill的可扩展性之一,便是允许用户编写自定义聚合,trill的内部聚合实例与用户自定义的框架相同,每一个聚合都使用相同底层的高性能基础架构。即便trill已经拥有各种聚合,但仍有许多可以增加的聚合,诸如金融等领域等待社群。