著者| ハン朔
8月26日上のデータベースフィールドのREVIEW年間トップレベル会合VLDB 2019現地時間 - ロサンゼルス、カリフォルニア8月30日に開催された、最先端の技術とデータベースフィールドの開発の交換を探ります。
中国人民大学とのテンセントの協力、この総会ではシンガポール国立大学は、業界紙2を可決しました。どのTDSQLチームのペーパーワーク「TDSQLで軽量かつ効率的な時間的データベース管理システム」、T-TDSQLから延長し、分散トランザクションデータベースTDSQLに基づいて、フル一時的なデータベースシステムを説明します。システムは、フルタイムの時間データ管理機能とフルタイムの時間データの軽量トランザクション処理能力を提供する前提の下でOLTP性能を確保すること、ならびに生産システムにおけるシステムの分析のためにデータセットクラスタ履歴状態データの現在の状態を設定しますアーキテクチャは、フルタイムの時間データのための完全なソリューションを構成しています。
紙の上の会議、テンセントTDSQLチームの後、この会議は、誘導の概要を提供し、読者と共有することを抽出。
VLDBプロフィール
関連世界中からフィールド、ベンダー、参加者、および他のアプリケーション開発者のデータベース研究者は、主要な国際的な関心や学会VLDB会議に参加するために、VLDB基金主催の非常に大きなデータベースの会議、の略です。その目的は、Exchangeデータベース、世界の最先端の学術的および作業関連分野を促進することです。VLDBおよびIEEE ICDE共催会議ACM SIGMOD、主催の、上位3つのデータベースフィールドは言いました。難易度や関心の度合いに掲載された論文では、VLDBはSIGMODのペースを維持するために言うことができます。
それぞれの論文を検討する2008年以降年または2つの異なる会計期間、VLDB養老一度コンピュータ業界の会議の大半は、その後、雑誌の形で、PVLDB(VLDBの議事録)を確立することを言及する価値があります提出期間の前月期限の月の提出期間、すなわち、第1ヶ月後、12回の今年は、貢献する機会を持っています。審査期間は、伝統的な雑誌よりも短くなって、著者は一般的に2ヶ月に審査ヶ月半でのフィードバックを受けます。毎年恒例のVLDB会議では、2001年以来、それは含まれていたPVLDBの論文は報告を集中されます。
V LDB 2019
VLDB会議今年はロサンゼルスの有名な西海岸の米国の都市で開催された30の8月26日の第45回会議は、すでにあります。アジェンダは、3回の基調講演(基調講演)、Geの支店(リサーチ・セッション)を報告して28本の論文が含まれ、4つの産業部門の論文は支店(産業セッション)を報告し、2産業部門は、講義(産業協議を招待)、2つのディスプレイシステムを招待しましたフォーラム(デモセッション)、7チュートリアル(チュートリアル)、および博士フォーラム(博士ワークショップ)などのサブワーク(ワーク)と、複数の。これは、両方の日ワークショップであり、nは3日であろうこれらの各々は、5日間続きました。
今年は128研究論文、22ピアン業界紙だけでなく、選択された48デモ紙の合計。昨年と比較すると、研究論文や紙業界紙が大幅に今年22に12昨年から、改善されていながら、デモ数は、安定して含まれています。雇用寄与量、研究論文の提出677、合格率18.9%、72 / 30.6パーセントの業界紙、デモ紙127 / 37.8パーセントの観点から。昨年と比較すると、研究論文がわずかに減少した貢献者の数は、就職率はほぼ横ばいでした。
从工业界论文的收录数量增加可以看出,今年的 VLDB 会议学术界和工业界合作交流趋势进一步增强。而且除了 Industry Paper 以外,在 Research Paper 中也有许多工作是由企业或企业与高校联合完成的,例如 Google、Microsoft、IBM 和国内的阿里巴巴均有多篇 Research Paper 入选。大会的程序委员会中也能见到诸多业界人士担任分会主席或审稿人。
国内方面,今年由大陆高校(不含港澳台)和企业主导或参与的 Research Paper 共有 27 篇,数量上与去年相比略有提升,其中清华大学、浙江大学等高校均发表了多篇论文。来自大陆高校的论文中,最主要的研究方向集中在图数据和机器学习,其中有 7 篇论文与图数据相关。从往年大陆高校在 VLDB、SIGMOD 等数据库会议的论文发表情况来看,图数据一直是华人学者比较强势的研究方向。此外,在查询优化、隐私保护、空间数据、众包、区块链等主题上,国内高校也均有涉及。国内业界对于数据库学术会议的参与度进一步提高,腾讯、阿里巴巴、华为等国内企业在本届会议上均有论文发表,研究方向主要集中在 RDBMS 和分布式系统。
接下来,本文主要从论文分布和技术发展动向对本届 VLDB 论文进行概览。
论文总体分布情况
为了便于统一安排论文报告分会的时间长度,本届大会将论文粗略地按照研究方向均分为了 28 个 Research Session 和 4 个 Industry Session,每个 Session 有 4-5 篇论文进行报告。
由于论文的研究方向分布不均衡,热门的方向会安排多个 Session,例如事务处理、查询优化、分布式系统和图数据,而论文数量较少的不同方向可能混杂在同一个 Session 中,因此各 Session 之间的界限和层级关系并不太清晰。
我们阅读了全部论文的内容,在 Session 划分的基础上,根据每篇论文的研究方向以及针对的数据类型,将论文进行了更加细致清晰的分类,便于大家了解各个领域的研究热度。
图1. VLDB 2019 各领域论文分布
图2. VLDB 2018 各领域论文分布
因为存在一篇论文涉及多个领域的情况,因此图1中各个领域论文的数量之和大于了总论文数量。从图1的分布情况可以看出,关系型数据库(RDBMS)的研究仍然是主流,但总体数量上比去年(见图2)有所减少(今年34,去年42),占总论文数量的约1/4;其次是关于图数据和图数据库系统的研究,相关论文涉及了大规模数据图上的子图匹配、社团发现、带约束的最短路径查询等经典算法问题,以及分布式环境下的图分割等问题。除了关系数据模型的统治地位不可撼动之外,近年来图数据模型也逐渐被应用于实际业务中。而无论是关系型数据、图数据或是其他数据类型,查询执行和查询优化始终是性能优化的核心问题。随着移动互联网、物联网近年来的快速发展,不断催生了依赖于时空信息且实时性强的应用,因而时空数据和流数据的相关论文在本届会议上也占据了一席之地。此外,机器学习与数据库逐渐联系紧密,也有一些论文尝试使用机器学习算法来优化查询算法。
RDBMS 中各子领域论文分布情况
在与RDBMS相关的论文中,我们进一步按照其涉及的子领域进行细分,如图3所示。本届会议上有关事务处理的论文数量与去年(见图4)相比有明显增加,分布式事务处理既是难点也是热点。而查询优化、存储优化、缓存优化这些与性能密切相关的主题始终是数据库领域研究的核心。此外,研究者们逐渐意识到如何促进用户更方便直观地访问数据库是一个需要解决的重要问题,学术界将其定义为数据可用性(Data Usability)问题,因而近年来也有不少论文围绕这一问题研究了交互式访问接口、数据可视化等技术。
图3. VLDB 2019 RDBMS子领域论文分布
图4. VLDB 2018 RDBMS子领域论文分布
来自工业界的论文
工业界的论文来自 Google、Microsoft、IBM、Amazon、Facebook、SAP、eBay,以及国内的腾讯、阿里巴巴、华为等企业。除了 20 篇 Industry Paper 之外,据统计,在 Research Paper 中由企业独立完成或主导完成的论文有 11 篇,企业与高校合作的论文有 17 篇,占到 Research Paper 的 1/5;而 Demo Paper 中,也有 14 篇企业主导或参与的论文。由此可见工业界在数据库研究中参与度之高,企业与高校的合作日益密切。明显感到与学术界论文的区别是,工业界的论文更加注重系统实现和业务落地,而学术界论文则侧重于某个技术难点或者说算法问题的攻关。两者的优势结合则更有可能产出高质量的研究成果。
数据库技术发展动向
我们从本届 VLDB 论文中尝试观察总结数据库技术发展的新动向,抛砖引玉,期待与读者共同交流。如下是本届大会论文讨论到的一些重要话题。
分布式事务处理
随着摩尔定律的停滞失效,单机存储和计算能力增长遇到了瓶颈,现代数据库系统也朝着分布式多机集群发展,而其中遇到的最大的技术挑战即是分布式事务处理。如何保持分布式数据的一致性,事务隔离性不同级别的高效实现,都有待进一步深入研究。在本届 VLDB 中,事务处理的相关论文数量也有了明显增加。
例如论文“Adaptive Optimistic Concurrency Control for Heterogeneous Workloads”提出了一个简单有效的AOCC(自适应乐观并发控制)框架。根据查询读取的记录数,以及涉及更新操作的并发事务的写大小,AOCC自适应地选择合适的Validation 策略来降低开销,从而在不牺牲可串行化的前提下提升异质负荷的性能。论文“Improving Optimistic Concurrency Control Through Transaction Batching and Operation Reordering”则通过事务的批量执行和操作的重排序来提升OCC性能。恰巧,TDSQL的第二代事务处理机制,也是基于OCC机制,期待能有机会和大家深入进行探讨。
论文“SLOG: Serializable, Low-latency, Geo-replicated Transactions” 指出,现有的支持异地备援(Geo-replicated)的数据库通常需要在三个方面做取舍:(1)严格可串行化,(2)低延迟写入,(3)高事务处理吞吐量。该论文提出的SLOG系统利用了物理分区的局部性特征,能够同时满足以上三个要求。
在事务处理中,数据的故障恢复机制是很复杂的一项。传统的数据库实现通常需要维护WAL(Write Ahead Log)和数据本身的持久化存储,而且恢复算法渗透到了系统的各个模块,即数据库的各个模块在设计和实现时都需要考虑恢复功能的正确性,以保持事务的原子性。论文“FineLine: Log-structured Transactional Storage and Recovery” 中提出了FineLine——一个事务存储和恢复机制,舍弃了传统WAL,将所有需要持久化的数据存储到一个单一的数据结构,达到了数据库的持久化部分和内存中数据之间的设计解耦。
区块链技术 & Best Paper Award
区块链也是当下的热门话题之一,本届 VLDB 增加了一个关于区块链的单独 Session,共有 4 篇论文入围。值得一提的是,本届 VLDB 的 Best Paper Award 颁予了论文“Fine-Grained, Secure and Efficient Data Provenance on Blockchain Systems”。
这篇最佳论文的研究动机是,区块链系统还没有一个方便的方法来追溯数据的起源和变迁(Lineage,血统),只能依靠回放事务来重现过去的状态,这种方式适用于大规模的线下分析,但是不适合线上的事务处理系统。论文给出一个简单的例子:账户A给B转账,要求近期账户B的每日余额位于某一阈值以上,才可转账,现有系统需要重放近期B账户每天的交易,才能作出转账的决策。为了解决这样的问题,该论文提出了LineageChain系统,能够做到细粒度、安全高效地回溯区块链数据。LineageChain基于Hyperledger实现,底层存储为ForkBase(同一团队研发的面向区块链的存储系统,论文发表于VLDB 2018,“ForkBase: An Efficient Storage Engine for Blockchain and Forkable Applications”)。论文提出了一种新型的索引,针对区块链数据起源和变迁的查询作出优化。在线交易进行时,LineageChain能够精细、安全地保留下数据的变迁,并且对外提供简单的接口来访问这些数据变迁。
这篇论文提及“The management of that history, also known as data provenance or lineage, has been studied extensively in database systems.”,其实,这是对于历史数据的一种管理理念,其核心是认为“历史数据具有价值”。这一理念,使得数据处理系统的数据处理疆域扩展,延伸到了历史数据的存储、管理和计算领域,非常有意义。作为“Best Paper”,该文有许多值得我们学习之处。而异曲同工的是,腾讯TDSQL在本届VLDB投中的《A Lightweight and Efficient Temporal Database Management System in TDSQL》一文,系统地阐述了腾讯TDSQL对于历史数据管理的完备方案和主要技术:从数据生命周期到全时态数据模型的建立、从事务处理到分布式系统的全局读一致,从查询优化到索引建立,从事务型生产系统到分析历史数据的分析型集群的数据无损、性能无损的体系结构的一体化构建,表明了腾讯公司TDSQL系统处理历史数据的完备性、先进性,以及技术的前瞻性。
无独有偶,AWS在2018年底发布的QLDB(Quantum Ledger Database(量子账本数据库)),也意在解决历史态数据的存储、管理和计算。详情可参考《论亚马逊QLDB与腾讯TDSQL对历史数据的管理和计算》。
新硬件
新的存储硬件和计算硬件,例如NVM、SSD、NUMA,SIMD、多核CPU、GPU、FPGA等,为数据库性能的scale up带来了新的机会。如何充分利用新硬件的优势来提高数据库性能也是近年来的研究热点之一。本届VLDB有多达9篇论文涉及该方向,提供了使用GPU、SIMD加速RDBMS或者机器学习平台的并行计算能力,使用NUMA实现分布式数据库的高可用数据复制方案等新技术思路。
机器学习平台
机器学习、深度学习作为时下最为火热的研究领域,也受到了数据库学者的广泛关注。机器学习、深度学习算法通常是计算密集型任务,而且在实际应用中训练数据通常也远超单机所能承受的数据规模,因此如何利用大数据分布式存储与计算能力,为用户提供一站式的机器学习和深度学习平台服务,是两者的契合点。一个明显的体现是最近三年来的数据库领域会议如 VLDB、SIGMOD 增加了机器学习相关的 Track。
使用机器学习算法优化DBMS性能
这是机器学习与数据库技术的另一个结合点。例如论文“Towards a Learning Optimizer for Shared Clouds”研究了在多租户云数据库环境下,使用历史查询的执行统计数据进行训练学习,来预估未来查询的中间结果基数大小,从而指导生成更优的查询计划。此外,近两年的VLDB、SIGMOD也有使用机器学习模型来优化索引结构、存储、参数自动调优的相关研究工作。
图数据库与图计算平台
相比于关系表结构,图模型更能灵活地表示事物实体之间的关联关系。随着知识图谱的普及和应用,对图数据的研究在数据库领域占据了一席之地。但与关系表的Lookup、Scan、Join等基本操作不同,图的各种算法操作种类繁多,而且其中很多算法复杂度较高。大规模图数据的存储、查询和各种分析计算,成为了新的技术难点。相关的研究内容有图数据库和图分析计算平台的构建。
そんなに上記、彼らは現在のVLDBそれをより理解しているではありませんか?考えを交換するためにようこそ、私たちと考えて。その後の記事では、兄弟は彼が皆のためのより多くの生中継や技術の共有を持参していきます、私たちは今年VLDBああの動的に注力し続けることを楽しみにしています!
著者紹介します:
漢朔、2014年北京大学、北京郵電大学、2019年のエンジニアリングの学士号と科学の博士号を取得。博士図データ管理およびマッピング知識の期間のための主要な研究の方向。卒業後、彼はデータベース技術の研究開発にテンセントが参加しました。
(*これはAI技術の本部で記事に貢献し、作者に連絡してください再現)
◆
福祉瞬間
◆
毎週抽選に参加するグループに -
アシスタントを追加するためのスキャンコード、再:総会、福祉グループを追加し、懸賞プレゼントに参加!
総会からのチャネルに参加する3日間が閉じられ、または元のテキストを読むためにここに次のFanger魏コードをクリックしてスキャンされ、すぐに参加!(特別オファー598元の学生チケット、チケットを購入し、マイナス一人あたりの割引、カウントダウン3日間!)
推奨読書
ドロップアウトは、勾配消える/ 1が十分であるかを確認するために、アダムの最適化アルゴリズム、ニューラルネットワークの最適化アルゴリズムを爆発します
AIソフトウェアZAOスクレーパー顔移植は、私が使用することをあえてしませんでした
トレーニングセットに設定し、テストだけでなく、独自のオブジェクト検出を行うにはどのように?
それでも遅い実行しているパンダ不満?これらのメソッドは、自分の考えを覆すます
光チップませんので、何5GとAIん!
プログラマ30歳、私は理想的な外観、失敗を生きるために持っていないのですか?
「ビッグデータ」を理解し、これで十分です!
調査会社はあなたを販売してはいけません:テキストは、プライバシーとビットコインのプライバシーを読みます
それぞれ「見た目」のあなたのポイント、私は真剣に好きなように