5.1. Server¶

5.1.1. GPU¶

GPU而言，简单来看有三个重要参数，浮点运算能力，价格与功耗。4

一直使用 Google Colab 和 Kaggle Kernel 提供的免费 GPU（Tesla K80）训练模型（最近 Google 将 Colab 的 GPU 升级为 Tesla T4，计算速度又提升了一个档次），不过由于内地网络的原因，Google 和 Kaggle 连接十分不稳定，经常断线重连，一直是很令人头痛的问题，而且二者均有很多限制，例如 Google Colab 一个脚本运行的最长时间为 12h，Kaggle 的为 6h，数据集上传也存在问题，需要使用一些 Trick 才能达成目的，模型的保存、下载等都会耗费很多精力，总之体验不是很好

Google Colab, https://colab.research.google.com/

https://shell.cloud.google.com/?page=shell&show=ide%2Cterminal

20种小技巧，玩转Google Colab: https://www.jiqizhixin.com/articles/2020-09-27-2

https://amitness.com/vscode-on-colab/

从 Kaggle 上传数据的步骤3

将「kaggle.json」文件保存在本地计算机上。

安装 Kaggle 软件包：

!pip install -q kaggle

导入包：

from google.colab import files

上传本地文件「kaggle.json」：

files.upload()

5.1.2. DJL¶

DJL（Deep Java Library ）是亚马逊在2019年宣布推出的开源Java深度学习开发包，它是在现有深度学习框架基础上使用原生Java概念构建的开发库。它为开发者提供了深度学习的最新创新和使用前沿硬件的能力，例如GPU、MKL等。简单的API抽象并简化了开发深度学习模型所涉及的复杂性，使得DJL更易于学习和应用。有了model-zoo中绑定的预训练模型集，开发者可以立即开始将深度学习的SOTA成果集成到Java应用当中。

DJL秉承了Java的座右铭：「Write once, run anywhere」，不依赖于具体的引擎和深度学习框架，可以随时切换框架。原则上，基于DJL开发人员可以编写在任何引擎上运行的代码。DJL目前提供了MXNet,、PyTorch和TensorFlow的实现。DJL通过调用JNI或者JNA来调用相应的底层操作。DJL 编排管理基础设施，基于硬件配置来提供自动的 CPU/GPU 检测，以确保良好的运行效果。

https://dsw-dev.data.aliyun.com/