数据科学笔记本变得真实了:JupyterLab已面向用户发行

作者:Andrew Brust

原文地址:http://www.zdnet.com/article/can-data-science-notebooks-get-real-jupyter-lab-releases-to-users/

副标题:Jupyter 笔记本已经突破了他们“展示和讲解”的角色,正变得更适合数据工程师使用。JupyterLab 会把这些笔记本升级成一款企业级工具吗?

译者:首席IT民工

现如今,业内人士相信,数据和分析都可以借助人工智能的服务来完成。鉴于此,作为数据科学家看来最受欢迎的数据处理工具 -- 笔记本, 相关的介绍很多。这一领域的巨头有 Apache Zeppelin,和更加著名的 Jupyter (前身是iPython)。如果你工作平台是Databricks,通常你最后都会使用他们自有品牌的笔记本。即便如此,这些笔记本都和Jupyter兼容。

可以把笔记本看成是一个你存放代码并添加注释的地方。不过,也许更准确地说法是,笔记本是存放大量注释,并用代码加以修饰的地方。无论你想要多么尖锐,有了笔记本,你可以在Markdown格式的富文本中,穿插任意语言的代码,本地运行,然后以文本、表格或是图形的方式来查看结果。如果你足够细致的话,甚至可以把这些资产拼凑成某个穷人的仪表盘。


超越演示功能

笔记本的问题在于,相比于生产环境里的数据工程工作,它更适合实验性质的数据科学工作。虽然这只是我自己的看法,我却坚持这么认为。笔记本更多的是关于演示而非开发,而且缺少了很多IDE(集成开发环境)比如Eclipse, PyCharm, Visual Studio, RStudio的好的功能。

不过,凡事总有变化。Jupyter 笔记本起初是Python代码的专属工具,也是Anaconda的一部分。Anaconda包含了主要的Python发布,一直致力于通过JupyterLab增强Jupyter笔记本的功能,使其更像是一个IDE。本周早些时候,JupyterLab,这款受到长期吹捧的工具终于发布,可供开发者使用。考虑到这是个不大却很重要的里程碑事件,我决定下载JupyterLab,跑一跑,并看看怎么样。整体而言,我印象深刻。


image.png

JupyterLab,一个基于R语言的笔记本和它的几种可视化结果,显示在了同一个版面上


编码生产力

JupyterLab是包含了Jupyter(笔记本)的超集。所以,在Jupyter笔记本中能做的事情,在JupyterLab中都可以做。而且能做的事情更多。

首先,一些笔记本能够提供的,比如Tab键语法完成,Shift-Tab键查看对象工具的提示这些功能依然都在。比起独立的Jupyter 笔记本来说,JupyterLab的功能更强:在Tab键完成时,提供匹配条目的类型的额外信息;在工具提示中,也提供对象相关的更多信息。有了这种基于上下文的辅助功能,开发者不必老是切换上下文,以便把事情给想清楚。

开发者们也可以工作在偏命令行风格的编程模式下,即,在控制台(而不是笔记本)交互地运行他们的代码。控制台是与Jupyter内核建立的实时会话(实际上语言解释器是在笔记本后台完成代码的执行),所以,开发者可以先在控制台环境中运行代码,然后在以文本和图形为主的文档(显示在笔记本中)中插入这些代码。


比笔记本更强大

然而,JupyterLab远远超越了笔记本的功能。它允许开发者打开多种格式的文件,这些文件中包含了他们可能用到的,或者由代码产生的数据和其他资源。文件类型包括:支持语言的源代码文件,纯文本、CSV(和其他分隔符的文本格式)、JSON、各类图片、甚至是PDF格式的文件。查看器和编辑器则包括:全功能的文本编辑器,图片查看器,表格数据查看器,带树形视图的JSON查看器,以及适用Vega, Vega-Lite和VDOM文件的查看器。

有时候,某些特定的文件适用于多个查看器。比如说,JSON和CSV文件都能以纯文本方式打开。不过其实,JSON也可以用树形视图查看器打开,CSV也可以用表格查看器打开。Jupyter支持用多个编辑器同时打开这样的文件,并且保持多个视图间的同步,以便在一个编辑器中所做的修改,显示在另一个编辑器中。


双重视图

多视图模型也适用于笔记本。比如,只要在笔记本内已显示的图像上单击右键,并从菜单中选择“为输出建立新视图”,多个图像就可以并排地以各自视图的方式显示出来,包括笔记本的传统视图。

一点点拖放就可以办到。支持在近似水平或垂直的区域中,显示多个笔记本、输出结果和文件查看器。区域之间用分隔列分开,每个区域容纳了多个标签文档,每个文档支持单独上下滚动。一旦你习惯于创建这种布局,你甚至能够排列出如上图所示的仪表盘风格的布局。


单文档,多语言

需要承认的是,这些养眼的东西有时候会让人分心。所以,JupyterLab支持用户在这种分块布局和单文档视图之间进行切换。在单文档视图中,活动文档会占据JupyterLab浏览器页或窗口的整个编辑区域。

JupyterLab支持Chrome,Firefox和Safari浏览器。据我有限的测试,除了单文档视图会导致严重的显示异常以外(我确认该异常在Chrome中不存在),JupyterLab在Windows 10 Edge浏览器中也运行良好。


image.png

JupyterLab启动器

类似Jupyter, JupyterLab支持多语言,前提是这些语言的内核已安装好。如上图所示,启动器允许用户选择一种语言来创建新的笔记本,或是控制台。默认已安装了Python内核。据我测试,我成功地安装了R和Node/JavaScript内核。

下图显示了一个基于Node.js的笔记本,以及其中一种显示结果的单独视图。


image.png

不需要讨厌的安装程序了,真的吗?

归功于其对多种技术的组合,JupyterLab的安装可以很复杂。首先,在你的系统上安装Anaconda Python,它会安装Jupyter的核心文件。接下来,安装R内核的支持文件。然后,你可以下载JupyterLab,分别安装其他语言和Jupyter内核。我是这么安装Node.js内核的,做了好几步才弄对。去掉范例笔记本则耗费了额外的研究时间,安装那些提供代码支持所必须的模块也是如此。

安装也许有些难度,但并不高深(不算数据科学)。我曾经做过程序员,现在依然爱倒腾各种工具,所以我对这些东西有种本能。但是,我的编码技能退化了,也不再是使用工具的好手了。如果我可以办到,那么任何有基本技能和对JupyterLab感兴趣的人也可能没什么问题。不过,耐心和空余时间还是需要的。如果有一个主要安装程序,则会减少很多麻烦。

云应用的红利

对于需要Jupyter用户来说,由于很多云服务(包括微软HDInsight,亚马逊SageMaker,及谷歌的Cloud DataLab)中已经包含了Jupyter,安装不成问题。不知道这些包含Jupyter的服务和产品中也会包含JupyterLab吗?但愿如此,因为这样做会让这些平台上的数据工程体验更好。

基于Web浏览器的开发工具富有创新性,但也有其局限性。对于这个难题,Jupyter是一个好榜样。JupyterLab有助于超越这些局限,又不失创新性和便利性。让我们希望它在生态系统中的应用越来越火。

猜你喜欢

转载自blog.csdn.net/weixin_38382105/article/details/79636397