Splice Machine將自己定位為可以進(jìn)行操作機(jī)器學(xué)習(xí)的數(shù)據(jù)庫,它正在添加一個(gè)新工具,用于執(zhí)行ML模型的生命周期管理。數(shù)據(jù)庫和分析產(chǎn)品的常見做法是自我清洗。例如,許多平臺(tái)已經(jīng)添加了對(duì)運(yùn)行Spark計(jì)算作業(yè)的支持,并且因?yàn)镾park支持ML,所以他們可以提出這種說法。正如我們幾年前所報(bào)道的那樣,Splice Machine已經(jīng)采用了Spark分析和Zeppelin筆記本電腦的第一步。
Splice Machine現(xiàn)在采用了新的ML Manager功能,為機(jī)器學(xué)習(xí)模型提供生命周期管理。它將功能類型捆綁到數(shù)據(jù)庫中,否則需要單獨(dú)的工具,如Data Robot,Domino Data Lab或Dataiku。最接近的平行線是Cloudera的Data Science Workbench,它與公司的Hadoop平臺(tái)起著類似的作用。雖然它允許跟蹤模型,筆記本及其屬性(如功能和超參數(shù)和數(shù)據(jù)源),但它目前缺少一些協(xié)作功能,例如許多第三方工具提供的聊天或注釋功能。
Splice Machine的ML Manager的優(yōu)勢(shì)在于它是在數(shù)據(jù)庫的基礎(chǔ)上構(gòu)建的,這意味著可以在不必序列化數(shù)據(jù)的情況下獲取數(shù)據(jù)。經(jīng)過實(shí)驗(yàn)測(cè)試完成了模型的不同變化后,Splice Machine的Spark集成使得將數(shù)據(jù)填充到Spark DataFrame中變得簡單,為模型的運(yùn)行鋪平了道路。
通過Spark集成,與Databricks Delta存在一些架構(gòu)相似性,該公司最近開放了一個(gè)新的數(shù)據(jù)湖功能,可以更新Delta事務(wù)(例如,強(qiáng)制執(zhí)行A??CID一致性)。但是,正如我們?cè)贒atabricks delta上發(fā)表的文章所述,我們?cè)谕铺厣舷蛭覀冎赋觯灰妆WC只是HDFS而非云存儲(chǔ)。Splice Machine的Spark集成分析還可以運(yùn)行來自HDFS(運(yùn)行HBase)或云存儲(chǔ)的數(shù)據(jù)。不同之處在于Databricks ACID保證以批處理模式運(yùn)行,而對(duì)于Splice Machine,ACID支持在單元(記錄)級(jí)別添加并發(fā)控制。
從一開始,Splice Machine就與其他開源關(guān)系數(shù)據(jù)庫平臺(tái)(例如MariaDB或PostgreSQL)區(qū)分開來,其根源在于大數(shù)據(jù)。作為混合事務(wù)/分析系統(tǒng),OLTP端運(yùn)行Hadoop的HBase,而其分析風(fēng)格可以在各種數(shù)據(jù)源上運(yùn)行,從文件系統(tǒng)到云存儲(chǔ),只要數(shù)據(jù)采用像Parquet這樣的結(jié)構(gòu)化格式。它在AWS和azure中引入了自己的托管數(shù)據(jù)庫即服務(wù)(DBaaS),我們預(yù)計(jì)在明年,Google Cloud平臺(tái)將被添加到列表中。
Splice Machine在孔中的王牌與其機(jī)器學(xué)習(xí)能力密切相關(guān)。埃森哲已將Splice Machine作為其AI平臺(tái)的核心數(shù)據(jù)庫。作為Splice Machine在2月份的B輪融資的一部分,埃森哲的風(fēng)險(xiǎn)投資部門在游戲中投入了一些資金。