| by msbeta | No comments

使用Keras Tensorflow 2.0实现YOLO V1

本文使用Tensorflow 2.0复现论文<You Only Look Once: Unified, Real-Time Object Detection>的效果。

1.数据预处理(Data Preprocessing)

使用VOC 2007数据集进行网络训练。下载并解[……]

继续阅读

Read More
| by msbeta | No comments

Object Detection-深入理解YOLO v1

论文链接

You Only Look Once: Unified, Real-Time Object Detection

https://arxiv.org/abs/1506.02640

1.Object Detection

Object Detection目标是,输入一张图[……]

继续阅读

Read More
| by msbeta | No comments

Tensorflow中使用tf.keras.utils.get_file下载数据集

在神经网络中经常需要下载数据集(Dataset),Tensorflow的Keras提供了tf.keras.utils.get_file()函数帮助我们实现数据集下载解压的功能。

函数原型

origin: 数据集(Dataset)的URL路径;

fname: 下载到本地后的文件名[……]

继续阅读

Read More
| by msbeta | No comments

深度卷积生成对抗网络(DCGAN)

1.GAN的基本原理

GAN的基本原理其实非常简单,它包含两个网络,G网络(Generator)和D网络(Discriminator)。G网络的目标是尽量生成真实的图片去欺骗判别网络D,D网络的目标是尽量把G网络生成的图片和真实的图片分别开来。

最理想的结束状态是,G网络可以生成足以“以[……]

继续阅读

Read More
| by msbeta | No comments

深度学习中的反卷积(Transposed Convolution)

反卷积(Transposed Convolution)是一种图像上采样(UpSample)的方法,在DCGAN中用它来将随机采样的值转换为一张完整的图像。

Transposed Convolution

反向卷积也叫转置卷积,它是一种特殊的正向卷积,先按照一定的比例通过补0来扩大输入图[……]

继续阅读

Read More
| by msbeta | No comments

计算机视觉-Camera标定

1、像素坐标系与图像坐标系之间的关系

假设每一个像素在u轴和v轴方向上的物理尺寸为dx和dy

2、图像坐标系到相机坐标系

3、世界坐标系到相机坐标系

于是,从世界坐标系到像素坐标系的转换关系:

4、其他情况

考虑像素坐标系坐标轴不垂直的情况(实[……]

继续阅读

Read More
| by msbeta | No comments

神经网络中的非线性激活函数

为什么引入非线性激活函数

如果采用线性激活函数,无论你神经网络有多少层,输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机(Perceptron),感知机连最基本的异或问题都无法解决,更别提更复杂的非线性问题,这样的神经网络就没有意义。

常见的非线性激活函数[……]

继续阅读

Read More
| by msbeta | No comments

变长数据Features转换为Tensor

ISSUE

从数据集(Dataset)中构造神经网络输入时,遇到同一维度的的Feature元素个数不同的问题,比如:

$$
\text{features} = [[1, 2, 3], [4, 5], [1, 4, 6, 7]]
$$

这种变长的Feature数据在Tensorflo[……]

继续阅读

Read More
| by msbeta | No comments

自动驾驶数据集-Argoverse Dataset

Argoverse数据集是由Argo AI、卡内基梅隆大学、佐治亚理工学院发布的用于支持自动驾驶汽车3D Tracking和Motion Forecasting研究的数据集。数据集包括两个部分:Argoverse 3D Tracking与Argoverse Motion Forecasting。

[……]

继续阅读

Read More
| by msbeta | No comments

机器翻译的Attention机制

在机器翻译(Neural Machine Translation)中,Seq2Seq模型将源序列映射到目标序列,其中Encoder部分将源序列编码为Context Vector传递给Decoder,Decoder将Context Vector解码为目标语言的序列。

在输入序列很长的情况,在[……]

继续阅读

Read More