[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)

标签: 飞桨PaddlePaddle学习笔记  paddlepaddle

[笔记]飞浆PaddlePaddle-百度架构师手把手带你零基础实践深度学习-21日学习打卡(Day 3)

logo

(Credit: https://gitee.com/paddlepaddle/Paddle/raw/develop/doc/imgs/logo.png)


MNIST数据集

MNIST数据集可以认为是学习机器学习的“hello world”。最早出现在1998年LeCun的论文1中,是NIST数据集的延伸,具体细节可以在LeCun的个人主页找到。

MNIST数据集是为了手写数字识别任务

  • 包含:60,000个训练样本,10,000个测试样本。
  • 每个样本是28*28像素的灰度图片
  • 每个样本对于0-9的数字标签

构建模型和完成训练的程序

  • 数据处理:读取数据 和 预处理操作
  • 模型设计:网络结构(假设)
  • 训练配置:优化器(寻解算法) 和 计算资源配置
  • 训练过程:循环调用训练过程,前向计算 + 损失函数(优化目标) + 后向传播
  • 保存模型:将训练好的模型保存

查阅API的方法

  1. API文档地址 (Version 1.8)
  2. 查阅文档的两种方法:搜索和分类浏览
  3. API说明结构:函数形式,功能说明,计算公式,参数和返回值,代码示例

处理数据

  • 训练样本集乱序
    • 建立ID集 index_list
    • 乱序index_list
    • 以新顺序读取数据
  • 生成批次数据
    • 设置batchsize
    • 数据转变成符合要求的np.array要求
    • Python生成器:yield,减少内存占用
  • 校验数据的有效性
    • 校验并刨除不合预期的数据

异步读取数据

  • 同步读取 vs 异步读取
    • 同步读取:IO和网络计算串行,速度慢
    • 异步读取:IO和计算通过一个“异步队列”交互,IO把数据不停放入队列,网络计算不同从队列取数据,二者同时进行
  • PyReader
    • 飞桨提供的异步数据读取器,只需要修改两行代码
    • 创建一个DataLoader对象用于加载Python生成器产生的数据,数据会由Python线程预先读取,并异步送入设定了容量上限的队列中
# 定义DataLoader对象用于加载Python生成器产生的数据
data_loader = fluid.io.DataLoader.from_generator(capacity=5, return_list=True)
# 设置数据生成器
data_loader.set_batch_generator(train_loader, places=place)

说明

  • capacity (int) - DataLoader对象内部维护队列的容量大小。单位是batch数量。若reader读取速度较快,建议设置较大的capacity值。
  • return_list (bool) - 每个设备上的数据是否以list形式返回。动态图模式下使用return_list = True。
  • 详见官方文档

Reference


  1. LeCun, Y., Bottou, L., Bengio, Y. and Haffner, P., 1998. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), pp.2278-2324. ↩︎

版权声明:本文为Bruce_Wang02原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Bruce_Wang02/article/details/108001058

智能推荐

fluent-ffmpeg在electron框架中实现推流

需要准备这几个东西 electron框架 ffmpeg.exe应用程序 链接:https://pan.baidu.com/s/1TyzYlWG0p7cxpqrzziVRCA  提取码:ofd2(也可自行去官网下载) fluent-ffmpeg插件 一个rtmp流地址 首先要做以下几步操作 1.将ffmpeg.exe文件放到electron项目文件夹中 2.安装插件和electron框架并...

bireme数据源同步工具--debezium+kafka+bireme

1、介绍 Bireme 是一个 Greenplum / HashData 数据仓库的增量同步工具。目前支持 MySQL、PostgreSQL 和 MongoDB 数据源 官方介绍文档:https://github.com/HashDataInc/bireme/blob/master/README_zh-cn.md 1、数据流 Bireme 采用 DELETE + COPY 的方式,将数据源的修改记...

一致性hash算法

散列(hash)在我看来就是一个数组,而与数组不同的点在于数组是按顺序写入的,而hash是按照一定的hash算法确定元素在数组中的位置的。hash最难的问题在于会有冲突出现,如果两个object根据相应的hash算法得出的值一样便产生了hash冲突。在所有解决hash冲突的方法中,我最欣赏的是链式解决法,即将hash到同一位置的元素用链表连接。当然还有其它几种处理hash冲突的算法,比如建立公共溢...

OpenCV-Python learning-1.安装,图片读取显示

1. OpenCV与OpenGL区别 https://www.zhihu.com/question/20212016 一个是让机器识别东西的,OpenCV是给电脑做眼睛的。 一个是让机器计算出更好画面的,OpenGL用在游戏渲染方面很多。 OpenCV(Open Source Computer Vision Library)是一个基于(开源)发行的跨平台计算机视觉库,OpenGL(全写Open G...

Mycat+Mysql分布式架构改造和性能压力测试

架构实现 Mycat作为数据库高可用中间件具备很多的功能,如负载均衡,分库分表,读写分离,故障迁移等。结合项目的实际情况,分库分表功能对于关联查询有很高的要求,需要从业务角度考虑分库分表后的关联查询SQL的分析,业务代码动作较大,所以在此方案中我们不考虑分库分表。主要应用Mycat的负载均衡及故障迁移的功能即可。 整个架构改造包括两个部分,第一是单例Mysql改为多个Mysql,同时负载均衡,并且...

猜你喜欢

人脸识别之疲劳检测(二)阈值法、KNN分类和K-means聚类

Table of Contents 1、均值法 2、中值法 3、KNN 4、K-means 结合上一节在获得人眼特征点后需要对睁眼闭眼状态做出判断,方法的选择需要经验结合公平的评价方法,使用大量测试集得到不同方法下的精确度并做出比较: 1、均值法 50帧睁眼数据取均值,得到不同阈值下精确度。 2、中值法 50帧睁眼数据取中值,得到不同阈值下精确度。 3、KNN KNN是一种ML常用分类算法,通过测...

CodeForce Tic-Tac-Toe

Two bears are playing tic-tac-toe via mail. It's boring for them to play usual tic-tac-toe game, so they are a playing modified version of this game. Here are its rules. The game is played on the foll...

Python雾里看花-抽象类ABC (abstract base class)

首先认识模块 abc,python中没有提供抽象类与抽象方法,然而提供了内置模块abc来模拟实现抽象类,例如提供泛映射类型的抽象类 abc.MutableMapping 继承abc.MutableMapping构造一个泛映射类型(类似python中的dict) 当然继承abc.Mapping 也可以,毕竟MutableMapping是其子类 dict是python中典型的映射类型数据结构,其接口的...

python 文件操作

2, with open (‘xx.txt’,‘w’,encoding=‘utf-8’) as f: f.write(‘文件内容或对象’)...

【Python基础】使用统计函数绘制简单图形

机器学习算法与自然语言处理出品 @公众号原创专栏作者 冯夏冲 学校 | 哈工大SCIR实验室在读博士生 2.1 函数bar 用于绘制柱状图 2.2 函数barh 用于绘制条形图 2.3 函数hist 用于绘制直方图 直方图与柱状图的区别 函数pie 用于绘制饼图 2.5 函数polor 用于绘制极线图 极线图是在极坐标系上绘出的一种图。在极坐标系中,要确定一个点,需要指明这个点距原点的角...