VLDB 2019:

 

トップデータベースの概要は、我々は6人の動向をVLDB 2019年の論文見つけます

 

著者|ハン朔

8月26日上のデータベースフィールドのREVIEW年間トップレベル会合VLDB 2019現地時間 - ロサンゼルス、カリフォルニア8月30日に開催された、最先端の技術とデータベースフィールドの開発の交換を探ります。

中国人民大学とのテンセントの協力、この総会ではシンガポール国立大学は、業界紙2を可決しました。どのTDSQLチームのペーパーワーク「TDSQLで軽量かつ効率的な時間的データベース管理システム」、T-TDSQLから延長し、分散トランザクションデータベースTDSQLに基づいて、フル一時的なデータベースシステムを説明します。システムは、フルタイムの時間データ管理機能とフルタイムの時間データの軽量トランザクション処理能力を提供する前提の下でOLTP性能を確保すること、ならびに生産システムにおけるシステムの分析のためにデータセットクラスタ履歴状態データの現在の状態を設定しますアーキテクチャは、フルタイムの時間データのための完全なソリューションを構成しています。

紙の上の会議、テンセントTDSQLチームの後、この会議は、誘導の概要を提供し、読者と共有することを抽出。

 

VLDBプロフィール

 

関連世界中からフィールド、ベンダー、参加者、および他のアプリケーション開発者のデータベース研究者は、主要な国際的な関心や学会VLDB会議に参加するために、VLDB基金主催の非常に大きなデータベースの会議、の略です。その目的は、Exchangeデータベース、世界の最先端の学術的および作業関連分野を促進することです。VLDBおよびIEEE ICDE共催会議ACM SIGMOD、主催の、上位3つのデータベースフィールドは言いました。難易度や関心の度合いに掲載された論文では、VLDBはSIGMODのペースを維持するために言うことができます。

それぞれの論文を検討する2008年以降年または2つの異なる会計期間、VLDB養老一度コンピュータ業界の会議の大半は、その後、雑誌の形で、PVLDB(VLDBの議事録)を確立することを言及する価値があります提出期間の前月期限の月の提出期間、すなわち、第1ヶ月後、12回の今年は、貢献する機会を持っています。審査期間は、伝統的な雑誌よりも短くなって、著者は一般的に2ヶ月に審査ヶ月半でのフィードバックを受けます。毎年恒例のVLDB会議では、2001年以来、それは含まれていたPVLDBの論文は報告を集中されます。

VLDB 2019

VLDB会議今年はロサンゼルスの有名な西海岸の米国の都市で開催された30の8月26日の第45回会議は、すでにあります。アジェンダは、3回の基調講演(基調講演)、Geの支店(リサーチ・セッション)を報告して28本の論文が含まれ、4つの産業部門の論文は支店(産業セッション)を報告し、2産業部門は、講義(産業協議を招待)、2つのディスプレイシステムを招待しましたフォーラム(デモセッション)、7チュートリアル(チュートリアル)、および博士フォーラム(博士ワークショップ)などのサブワーク(ワーク)と、複数の。これは、両方の日ワークショップであり、nは3日であろうこれらの各々は、5日間続きました。

 

 

今年は128研究論文、22ピアン業界紙だけでなく、選択された48デモ紙の合計。昨年と比較すると、研究論文や紙業界紙が大幅に今年22に12昨年から、改善されていながら、デモ数は、安定して含まれています。雇用寄与量、研究論文の提出677、合格率18.9%、72 / 30.6パーセントの業界紙、デモ紙127 / 37.8パーセントの観点から。昨年と比較すると、研究論文がわずかに減少した貢献者の数は、就職率はほぼ横ばいでした。

産業部門に含ま論文数の増加からわかるように、VLDB会議学界と産業界の動向交流、今年はさらに協力を強化します。そして、業界紙に加えて、研究論文でも、企業やグーグル、マイクロソフト、IBM、国内アリババなどの共同企業や大学、完了している研究論文は、選択された多くの記事による多くの仕事を持っています。総会のプログラム委員会は、業界や分岐大統領のレビューで多くの人々を見ることができます。

国内では、この(香港、マカオ、台湾を除く)本土の大学から毎年とは、ビジネス主導のか、清華大学、浙江大学と他の大学にはいくつかの論文を発表していた数の27研究論文、昨年に比べ若干増加、の合計に参加しました。本土の大学からの論文は、最も重要な研究は、地図データに関連付けられている7枚の紙を含むデータと機械学習を、図面に焦点を当てました。前の年からの会議データベースVLDB、SIGMODとビューの他のポイントに発表された中国本土の大学の論文、グラフデータは比較的強い中国の学者の研究となっています。また、クエリの最適化、プライバシーの保護、空間データ、クラウドソーシング、ブロック鎖と他のトピックで、国内の大学や専門学校にも関与しています。国内産業がさらに学術会議の参加のためのデータベースを改善するために、このセッションではテンセント、アリババ、華為や他の国内企業が公開している論文は、研究は、RDBMSと分散システムに焦点を当てました。

次に、この紙は、紙の配布や技術動向から、現在のVLDB紙の概要を行いました。

論文の全体的な分布

 

論文の枝を報告する時間の長さの統一配置を容易にするために、このセッションでは、28の研究セッションと4産業セッション、セッション4-5の論文レポートごとにおおよその平均研究論文に従います。

 

不均一な分布の研究方向は、方向が異なる方向で紙の少数を同じセッション内で混合することができるが、そのようなトランザクション処理、クエリの最適化、分散システム、およびデータのような、より人気のあるセッションをアレンジするので、各う境界線とセッションと非常に明確ではないとの階層関係。

私たちは、紙は、我々は様々な分野で熱を勉強理解しやすい、明確なより詳細な分類を実施する各用紙やデータ型の研究によると、セッション部門に基づいて、紙の内容全体を読みました。

 

図1 VLDB 2019の様々な分野における論文の分布

 

 

図2 VLDB 2018の様々な分野における論文の分布

 

そこため紙複数のフィールドを含む場合、そう図1において紙面内のフィールドの数とは、紙の総数よりも大きいです。分布の図1から分かるように、研究リレーショナルデータベース(RDBMS)が依然として主流であるが、昨年よりもやや少ない全体的な数は(34今年、42昨年)、約論文の総数(図2参照します) 1/4;実測地図データとデータベースシステム、大規模な地図データマッチングにサブグラフを含む関連論文、関連の研究に続いて、制約最短経路問題クエリ古典的なアルゴリズム、ならびににおける分散環境図部門やその他の問題。リレーショナルデータモデルの優位性に加えて、徐々に実際のビジネスに適用されているデータモデルを示す近年では、追加を振り払うことができません。それは、リレーショナルデータ、地図データ、または他のタイプのデータもクエリとクエリの最適化のパフォーマンスの最適化を実行するかどうかを常にコアの問題となっています。近年のモノのインターネットのモバイルインターネット、急速な発展に伴い、常に時空情報とリアルタイム性能に依存するため、このセッションでは、関連する論文、時空間データとストリーミングデータも場所を占有したアプリケーションを出産しました。次第に密接に加えて、機械学習やデータベース、いくつかの論文クエリアルゴリズムを最適化するために、機械学習アルゴリズムを使用しようとするがあります。

紙分布の各サブフィールドにおけるRDBMS

 

RDBMSに関連付けられた論文では、さらに、図に示すように、必要とするサブフィールドに応じて細分化。が昨年と比較して、現在のセッションのトランザクションに関連する論文の数は、両方の分散トランザクション処理の難しさが熱い、有意に増加した(図4参照します)。クエリの最適化、ストレージの最適化、これらのキャッシュの最適化は密接なテーマのパフォーマンスに関連している、常にデータベースの中核研究分野です。また、研究者が必要とする重要な問題は、近年では問題の周りの多くの論文があり、データの可用性(データユーザビリティ)の問題、と定義され、学界を、対処しようとしているデータベースに、より便利で直感的なユーザのアクセスを容易にするための方法を実現するために来ていますインタラクティブなアクセス・インタフェース、データの可視化技術を研究しています。

 

紙の分布の図3 VLDB 2019 RDBMSサブフィールド

 

図4 VLDB論文の2018 RDBMSサブフィールド分布

 

産業界からの論文

 

工业界的论文来自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及国内的腾讯、阿里巴巴、华为等企业。除了 20 篇 Industry Paper 之外,据统计,在 Research Paper 中由企业独立完成或主导完成的论文有 11 篇,企业与高校合作的论文有 17 篇,占到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企业主导或参与的论文。由此可见工业界在数据库研究中参与度之高,企业与高校的合作日益密切。明显感到与学术界论文的区别是,工业界的论文更加注重系统实现和业务落地,而学术界论文则侧重于某个技术难点或者说算法问题的攻关。两者的优势结合则更有可能产出高质量的研究成果。

 

数据库技术发展动向

 

我们从本届 VLDB 论文中尝试观察总结数据库技术发展的新动向,抛砖引玉,期待与读者共同交流。如下是本届大会论文讨论到的一些重要话题。

 

分布式事务处理

随着摩尔定律的停滞失效,单机存储和计算能力增长遇到了瓶颈,现代数据库系统也朝着分布式多机集群发展,而其中遇到的最大的技术挑战即是分布式事务处理。如何保持分布式数据的一致性,事务隔离性不同级别的高效实现,都有待进一步深入研究。在本届 VLDB 中,事务处理的相关论文数量也有了明显增加。

例如论文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一个简单有效的AOCC(自适应乐观并发控制)框架。根据查询读取的记录数,以及涉及更新操作的并发事务的写大小,AOCC自适应地选择合适的Validation 策略来降低开销,从而在不牺牲可串行化的前提下提升异质负荷的性能。论文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”则通过事务的批量执行和操作的重排序来提升OCC性能。恰巧,TDSQL的第二代事务处理机制,也是基于OCC机制,期待能有机会和大家深入进行探讨。

论文“SLOG: Serializable, Low-latency, Geo-replicated Transactions” 指出,现有的支持异地备援(Geo-replicated)的数据库通常需要在三个方面做取舍:(1)严格可串行化,(2)低延迟写入,(3)高事务处理吞吐量。该论文提出的SLOG系统利用了物理分区的局部性特征,能够同时满足以上三个要求。

在事务处理中,数据的故障恢复机制是很复杂的一项。传统的数据库实现通常需要维护WAL(Write Ahead Log)和数据本身的持久化存储,而且恢复算法渗透到了系统的各个模块,即数据库的各个模块在设计和实现时都需要考虑恢复功能的正确性,以保持事务的原子性。论文“FineLine: Log-structured Transactional Storage and Recovery” 中提出了FineLine——一个事务存储和恢复机制,舍弃了传统WAL,将所有需要持久化的数据存储到一个单一的数据结构,达到了数据库的持久化部分和内存中数据之间的设计解耦。

 

区块链技术 & Best Paper Award

区块链也是当下的热门话题之一,本届 VLDB 增加了一个关于区块链的单独 Session,共有 4 篇论文入围。值得一提的是,本届 VLDB 的 Best Paper Award 颁予了论文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。

这篇最佳论文的研究动机是,区块链系统还没有一个方便的方法来追溯数据的起源和变迁(Lineage,血统),只能依靠回放事务来重现过去的状态,这种方式适用于大规模的线下分析,但是不适合线上的事务处理系统。论文给出一个简单的例子:账户A给B转账,要求近期账户B的每日余额位于某一阈值以上,才可转账,现有系统需要重放近期B账户每天的交易,才能作出转账的决策。为了解决这样的问题,该论文提出了LineageChain系统,能够做到细粒度、安全高效地回溯区块链数据。LineageChain基于Hyperledger实现,底层存储为ForkBase(同一团队研发的面向区块链的存储系统,论文发表于VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。论文提出了一种新型的索引,针对区块链数据起源和变迁的查询作出优化。在线交易进行时,LineageChain能够精细、安全地保留下数据的变迁,并且对外提供简单的接口来访问这些数据变迁。

这篇论文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems.”,其实,这是对于历史数据的一种管理理念,其核心是认为“历史数据具有价值”。这一理念,使得数据处理系统的数据处理疆域扩展,延伸到了历史数据的存储、管理和计算领域,非常有意义。作为“Best Paper”,该文有许多值得我们学习之处。而异曲同工的是,腾讯TDSQL在本届VLDB投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系统地阐述了腾讯TDSQL对于历史数据管理的完备方案和主要技术:从数据生命周期到全时态数据模型的建立、从事务处理到分布式系统的全局读一致,从查询优化到索引建立,从事务型生产系统到分析历史数据的分析型集群的数据无损、性能无损的体系结构的一体化构建,表明了腾讯公司TDSQL系统处理历史数据的完备性、先进性,以及技术的前瞻性。

无独有偶,AWS在2018年底发布的QLDB(Quantum Ledger Database(量子账本数据库)),也意在解决历史态数据的存储、管理和计算。详情可参考《论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算》

 

新硬件

新的存储硬件和计算硬件,例如NVM、SSD、NUMA,SIMD、多核CPU、GPU、FPGA等,为数据库性能的scale up带来了新的机会。如何充分利用新硬件的优势来提高数据库性能也是近年来的研究热点之一。本届VLDB有多达9篇论文涉及该方向,提供了使用GPU、SIMD加速RDBMS或者机器学习平台的并行计算能力,使用NUMA实现分布式数据库的高可用数据复制方案等新技术思路。

机器学习平台

机器学习、深度学习作为时下最为火热的研究领域,也受到了数据库学者的广泛关注。机器学习、深度学习算法通常是计算密集型任务,而且在实际应用中训练数据通常也远超单机所能承受的数据规模,因此如何利用大数据分布式存储与计算能力,为用户提供一站式的机器学习和深度学习平台服务,是两者的契合点。一个明显的体现是最近三年来的数据库领域会议如 VLDB、SIGMOD 增加了机器学习相关的 Track。

 

使用机器学习算法优化DBMS性能

这是机器学习与数据库技术的另一个结合点。例如论文“Towards a Learning Optimizer for Shared Clouds”研究了在多租户云数据库环境下,使用历史查询的执行统计数据进行训练学习,来预估未来查询的中间结果基数大小,从而指导生成更优的查询计划。此外,近两年的VLDB、SIGMOD也有使用机器学习模型来优化索引结构、存储、参数自动调优的相关研究工作。

图数据库与图计算平台

相比于关系表结构,图模型更能灵活地表示事物实体之间的关联关系。随着知识图谱的普及和应用,对图数据的研究在数据库领域占据了一席之地。但与关系表的Lookup、Scan、Join等基本操作不同,图的各种算法操作种类繁多,而且其中很多算法复杂度较高。大规模图数据的存储、查询和各种分析计算,成为了新的技术难点。相关的研究内容有图数据库和图分析计算平台的构建。

以上介绍了这么多,大家对本届VLDB是不是有了更多的了解呢?欢迎与我们交流感想与思考。在后续的文章中,他二哥也会继续为大家带来更多的现场报道和技术分享,期待大家继续关注今年VLDB的动态哦!

本文作者介绍:

 

韩硕,2014年于北京邮电大学获得工学学士学位,2019年于北京大学获得理学博士学位。博士期间的主要研究方向为图数据管理和知识图谱。毕业后加入腾讯公司从事数据库技术研发工作。

 

  • hellocode
    hellocode24 天前

    文中提到的FineLine,并没有抛弃WAL,仍然是LogStructured的设计,

  • rot.cx
    rot.cx33 分钟前

    OCC比较适合具有冲突率极低, 短事务, touch的记录数目较少等特点的OLTP workload. "locking may be necessary only in the worst case"[1], 如果冲突极少, 加锁开销相对比较显著.

    OCC仅支持包括{read-only, update} transaction, 很显然, 不支持多次交互的conversational事务.

  • rot.cx
    rot.cx16 分钟前

    SLOG:
    SLOG uses locality in access patterns to assign a home region to each data granule. Reads and writes to nearby data occur rapidly, without cross-region com- munication. However, reads and writes to remote data, along with transactions that access data from multiple regions, must pay cross- region communication costs. Nonetheless, SLOG uses a determin- istic architecture to move most of this communication outside of conflict boundaries, thereby enabling these transactions to be pro- cessed at high throughput, even for high contention workloads.

     

    感觉一个数量级的提升,这个实验结果不一定 repeatable

     

    而且 dynamical remastering 对于频繁变化的 pattern 并不适用 

     

     

  • rot.cx
    rot.cx5 分钟前

    FineLine:

     

    The distinguishing feature of FineLine in contrast to existing approaches is that it provides persistence without mapping data structures directly to a persistent storage representation.

     

    Following the WAL rule, a log record must be written before the affected page is written. FineLine, on the other hand, never flushes nodes or any other part of an in-memory data structure. Instead, it relies on the log, which is indexed for fast retrieval, as the only form of propagation to persistent storage. In order to retrieve a node into main memory, its most recent state is reconstructed from the log with the fetch operation.

     

     

     

     

    • rot.cx
      rot.cx1 分钟前

      FineLine:

       

      Sequential log变 Indexed log,实际 commit 写磁盘之前,先对 log 进行合并处理;

      然后核心是 对 Indexed log 的处理“very efficient”(如下):

       

      The commit queue is formatted as a log page that can be appended directly to the indexed log. Before the append occurs, the log records in this page are sorted primarily by node ID and secondarily by a node-local sequence number. This sort can be made very efficient if log pages are formatted as an array of keys (or key prefixes) and pointers to a payload region within the page.

 

おすすめ

転載: www.cnblogs.com/cx2016/p/11609300.html