正如web开发中,java(后端语言)、javascript(前端语言)、数据库,理论上说,有了这三样东西,可以建立任何web网站的原型。在深度学习中,也可以思考,什么是基本要素?

一个抽象的深度学习系统,可以分为数据预处理阶段、训练阶段、预测阶段。如果你是想成为一名爱好者或者从业者,应该在数据预处理阶段具备处理多种数据格式的能力。按照chatgpt的提示,有七种可能的输入形式:

数值型输入:深度学习模型可以接受数值型输入,例如整数、浮点数或连续值。这些输入可以表示为向量、矩阵或张量的形式。
图像输入:深度学习在计算机视觉任务中广泛应用,可以接受图像输入。图像通常表示为多维数组,可以使用各种图像表示方法,如RGB颜色通道、灰度值或特定图像特征。
文本输入:深度学习可以处理文本数据。文本可以是原始的单词序列或字符序列,也可以是经过处理和表示的向量或嵌入。常见的文本表示方法包括词袋模型、TF-IDF向量、词嵌入(如Word2Vec或GloVe)等。
语音和音频输入:深度学习可以处理语音和音频数据。语音可以表示为声音信号的波形形式,也可以使用频谱表示或其他音频特征表示。
视频输入:深度学习可以处理视频数据。视频可以看作是时间序列的图像集合,可以将其表示为多维数组或视频帧序列。
时间序列输入:深度学习可以处理时间序列数据,如股票价格、天气数据、传感器数据等。时间序列可以表示为多维数组或序列数据。
结构化数据输入:深度学习可以处理结构化数据,如表格数据或数据库中的数据。这些数据通常表示为具有行和列的矩阵形式。

结合现在的模型如gpt4等,都在发展多模态能力,未来的从业者应该不止于计算机视觉等固定领域内,而应该对各个方向的数据处理形式都有所了解。

到了训练阶段,这里一般需要有丰富的经验。如果不是科研人员,模型都是从github或hugging face等社区内下载最成熟的模型,然后进行训练。

到了预测阶段,就是对模型部署的考验。似乎这一阶段用C++多一些。