깊이 연구 용지 공유 : 실수 분류 작업에서 복잡한 신경 회로망의 응용 프로그램

추상적 인

복잡한 신경망은 실수 모델은 종종 복잡한 값 모델보다 더 인기있는 사용에 의한 교육 및 성능에 어려움 그러나, 새로운 개념이 아니다. 신경망을 복잡한 값 실제 값의 수를 비교하면, 기존의 문학의 매개 변수는 일반적으로 유의 한 차이를 신경 네트워크의 결과로, 무시하고 비교 하였다. 우리는 비슷한 용량과 비교했을 때, 복잡한 실수 분류 일련의 작업에 대한 실제 복잡한 신경망 모델이 같거나 모델의 실제 값보다 약간 더 수행 것을 발견했다. 복소 평면 소음 복잡한 신경망 처리를 사용할 수있다. 실수 데이터를 분류하는 복소수 신경 네트워크를 사용하는 경우, 무게 부분의 허수 부분은 실제로 따릅니다. 이 작업에 대한 지시 값 복잡한 행동 모델을 필요로하지 않습니다. 우리는 더 포괄적 인 분류 작업이를 조사 하였다. 우리는 복잡한 도메인에 실제 도메인에서 전송 기능을 활성화합니다 다양한 전략을 사용할 수 있습니다. 그러나, 복잡한 신경망을 다시 초기화 할 수있는 권리는 여전히 중요한 문제입니다.

기사 소개

입력 데이터가 복잡한 도메인에서 자연 설명 갖는 최근에는 복잡한 신경망 성공적 특히 신호 처리에서 다양한 작업에 적용되었다. 일반적으로 복소수 신경 네트워크는 실수 네트워크와 비교된다. 우리는 그들의 모델의 크기와 용량이 이러한 아키텍처를 확인해야합니다. 이러한 측면은 표면에서 상대적으로 작은 연구 또는 치료를합니다. 표준 용량의 한 측정은 실제 반환 매개 변수의 수입니다. 모델에 도입 복잡한 계산 복잡성 및 파라미터의 실제 값의 수를 증가 시키지만, 상기 데이터 입력 및 중량을지지한다. 이 논문은 다층 퍼셉트론의 가변 폭과 깊이를 가지는 복소 값의 성능을 설명 (MLP)이다. 우리가 참조 분류 작업의 진정한 가치를 고려 데이터 매개 변수와 기능의 활성화의 수를 선택합니다. 우리는 다층 퍼셉트론 구조와 교육 과정 복잡한 값을 제안한다. 우리는 믿고 활성화의 다양성과 복잡한 상황과 상황의 실수 함수 매개 변수의 수를 그.

우리는 유사한 네트워크를 구성하는 두 가지 방법을 제안한다 :

  1. 실수 뉴런의 고정 된 수에 의해 제공 층당
  2. 제공함으로써 고정 예산 매개 변수 실수. 기준 작업으로, 우리는 MNIST 분류 번호 [18] CIFAR 10 화상 분류 [17] CIFAR-100 화상 분류 [17]를 선택

관련 작업

복잡한 신경망 [8]의 클락 제 형식적 설명. 그 이후 여러 저자는 기울기 하강 다시 전파 알고리즘 [6,10,19]의 버전을 복잡하게했다. 1970 [1]의 다치 논리 임계치의 작업에 의해 고무, 상기 뉴런 다치 Aizenberg 등의 신경 네트워크를 정의한다. [4,3] 사원 수로 확장됩니다 이러한 생각. 2000 년대에 복잡한 신경 네트워크가 성공적으로 작업 [22,12,21,25]의 다양한 사용. 이러한 작업은 주로 처리 및 복잡한 데이터 값의 해석과 관련된다. 또는 비디오 데이터와 복잡한 매핑. 파형 이미지 또는 푸리에 특정 형태는 입력 신호와 복소 신경망 데이터 [15]로 변환을 사용. 콘볼 ​​루션의 복잡한 특성의 또 다른 애플리케이션은 이미지 처리 및 신호 [7]에 사용된다. 실제 컨볼 루션 처리가 널리 이미지 깊이 연구에서 사용되지만, 비록 그것이 복잡한 얽힘 [26,13,23,14]로 대체 될 수있다. 복잡한 매트릭스 속성은 제약을 깊이 학습 모델을 정의하는 데 사용할 수 있습니다. Arjovsky 외 알에 의해 작성된 소개합니다. 더욱 발전 예지하여 [5]. 소멸 폭발 구배의 영향을 감소시키는 하나의 매트릭스에 복소 가중치 재귀 네트워크의 [29] 제약. 최근, 복잡한 신경망 영상을 연구하는 데 사용되어, 오디오 신호는 필터 [27,24,9] 매립. 또한 텐서 분해 엔티티 지식 에지 [28] 사이의 매립 복잡한 관계를 예측하기 위해 적용되어왔다. 자신의 성공에도 불구하고 있지만, 신경 네트워크의 복잡성은 실제 값의 일부 인기 해당, 아니다. 잠재적으로 덜 직관적 의한 복소 평면 [31,16,20]의 활성화 기능 분리 성을보다 엄격한 요구되는 훈련 과정 및 구조로 인해. 출판물의 총 수에 비해 실제 측면에서 복소수 신경망과 신경 네트워크 매개 변수 [3]을 무시했을 때, 단지 그렇지 않으면 복잡하거나 실제 값 매개 변수와 단위를 구분하는 비교하지 않는다, 매개 변수 [26] 전체 모델의 수를 비교 [30]. 이 문서의 비교에서 상이한 크기의 모델 뷰 비교 동등하다. 우리는 체계적으로 활성화 기능, 폭과 간단한 분류 작업 다층 퍼셉트론의 깊이를 고려 탐구.

복잡한 값 네트워크

우리는 신경 세포의 값의 대응하는 부분의 실제 값과 유사한 복잡한 정의하고, 구조 및 훈련의 차이를 고려. 복잡한 뉴런은 다음과 같이 정의 할 수 있습니다 :

[공식]

입력 x∈ƒñ, W∈ƒn × ​​m, 상기 정의 된 바와 m b∈ƒ 활성화 함수 φ는 φ 수있다 : ƒ → '또는 φ : → ƒ ƒ. 우리는 더 자세히 비선형 활성화 기능을 고려할 것입니다. 이 작품에서 우리는 단순한 실수 기능 손실을 선택했지만, 복소 함수의 손실은 미래에 작동 할 수 있습니다. 일반적으로 전체 영역 복잡하지 I ^ 2 = -1입니다. 복합 손실 (선형 행렬 부등식 유사한) 제 복잡한 부분 위해 정의 된 함수이다.

활성화 기능이 일반적으로 완전히 복잡하지 않기 때문에 복잡한 도메인의 과정을 교육하는 것은 다릅니다.

상호 작용 파라미터 복소 값 네트워크

상관 복소수 Z = X + IY = R * E I φ 개의 실수로 표시 될 수있다 : 실제 부 재 (z) = x 및 허수 부분 임 (z) = Y 또는 크기에 상응 | Z | = PX2 + 2년 = R과 위상 (각도) φ = 아크 탄젠트 (XY). 따라서, 더 복잡한 변수 중 어느 하나의 복잡한 함수는 두번째 실제 변수 F (z) = F (X, Y) = F (R, φ)의 함수로서 표현 될 수있다. 직접 표현하지만, 복수의 부분의 사용은 두 개의 신경망을 정의 않는다. 연산에서 설명한 회귀 방정식 (2) (또는 등가 적으로, 진폭 및 위상) 실수 부 및 허수 부를 필요 고려한다. 향상된 표현이 기여는 입력 X 및 오른쪽 복소 값을 승산 W 가중치 행렬을 계산한다 :

네트워크 용량

번호 (실수) 매개 변수가 네트워크의 능력의 측정은, 함수 근사 복잡한 구조의 네트워크 용량을 정량화 할 수있다. 너무 많은 인수가 데이터를 채우는 경향이 때 때 너무 많은 매개 변수, 모델은 데이터를 채우기 위해 경향이 있고. pƒ = 2P 'A +는 각 층의 실제 파라미터의 수는 두 배가되는 실수 (a, b)의 복소 결과를 나타낸다. 각 층의 파라미터의 실수 값은 실제 값 (가능한 한 가깝게 또는 최소)의 복잡한 구조 값과 동일해야한다. 이 보장하지만이 모델은 같은 능력을 가지고있다. 성능 차이 파라미터 대신에 용량 차로서 복소의 도입에 기인한다. 복잡하고 실제로 매개 변수의 수는 완전히 연결 계층을 고려. N하자 파라미터 (P)의 수 '를 다음 식 입력 사이즈에 의해 주어진다 층 pƒ 층의 복수의 실제 값, m은 뉴런의 수이다 :

k 번째의 제 은닉층 출력 크기 C 다층 퍼셉트론, 다음 식에 의한 편차가없는 파라미터 값의 실수이다 :

언뜻 보면,보다 다층 신경망 구조의 설계는 각 층의 실수 동일한 수의 매개 변수를 갖는, 즉, 매우 간단하다. 그러나, 절반의 각 뉴런 층의 수는 비교 가능한 파라미터를 달성 할 것이다. 출력층 크기 뉴런의 수 및 입력 층의 크기를 정의한다. 우리 은닉층 각 층 사이에서 K 층의 짝수 이러한 문제를 해결하기 m 2 MLP 구조를 갖는 중성자 선택된다. 우리가 동일한 수의 매개 변수는 복소 값 MLP의 각 층의 영역에서 네트워크의 실제 값과 비교 될 것이다. 우리가 K = 출력의 무게와 숨겨진 레이어 가중치 네 개의 차원을 생각해 보자. 실제 값 또는 경우 :

MI는 (복소 실수), i 번째 층의 뉴런의 수이다. 복잡한 신경 상당의 사용 :

신경 네트워크의 복잡한 값 활성화 기능

어떤 신경 네트워크에서 중요한 결정은 비선형 선택이 될 것입니다. 각 계층에서 같은 수의 매개 변수를 사용하여, 우리는 활성화 기능의 전반적인 성능에 미치는 영향을 연구 할 수 있습니다. 중요한 정리는 Liouville 정리 고려해야하는 기능을 활성화하기 위해 선택합니다. 상수이어야 ƒ ƒ → (전체 복소 평면 위에있는 미분) 정리 경계가 정칙 함수 f를이 상태. 따라서, 우리는 바운드 및 / 또는 일부 기능이 활성화 상태를 선택해야한다.

선형 분리 복잡한 매개 변수를 가정 복잡한 모델 기능의 성능을 연구하기 위해, 우리는 신원 기능을 선택합니다. 이 분리 작업은 선형하지 않을 수 m 신경 세포를 사용할 때 인식하는 우리를있게하고, 사용 MF 신경 세포는 분리 작업 선형 될 수있다. 일례는 근사치의 XOR 함수 [2]이다. 하이퍼 볼릭 탄젠트 함수는 잘 연구를하고, 복잡한 실제 번호를 정의한다. 선형성 보정도 이해하기 매우 쉽고, 종종 실제 설정에 사용하지만 복잡한의 설정 값을 고려하지 않았다. 그것은 복수의 두 개의 분리 된 부분의 적용을 도시한다. 진폭의 제곱 함수를 선택하는 단계 복소 실수로 매핑 될 수있다.

복소 값 함수 활성화 네트워크이다 :

실험

실수와 복소수 다층 퍼셉트론 (그림 1)을 비교하기 위해, 우리는 연구 된 다양한 작업을 분류합니다. 모든 실험에서 다음이 작업이 하나의 실수 데이터 포인트의 각 클래스에 할당 된 복잡한 값 퍼셉트론 다층을 사용하는 것입니다 :

我们测试了具有k = 0、2、4、8个隐藏层的MLP,在实值架构中固定了每一层的单元宽度,在复数值架构中交替了64和32个单元(请参阅第5节)。 我们没有应用固定参数预算。 我们测试了MNIST数字分类,CIFAR-10图像分类,CIFAR-100图像分类和Reuters主题分类的模型。 路透社主题分类和MNIST数字分类每层使用64个单位,CIFAR-10和CIFAR-100每层使用128个单位。

得到以下的结果:

复数值MLP可用于将短依赖项(例如MNIST数字分类)或短文本分类为单词袋(例如路透社主题分类)。对于两个图像分类任务CIFAR-10和CIFAR-100,结果表明复合值MLP不会在数据中学习任何结构。这两个任务在第一层需要更大的权重矩阵,权重初始化仍然是一个重要的问题。复杂神经网络中最好的非线性是应用于虚部和实部的整流器线性单位relu,类似于实值模型。身份和双曲线正切值优于relu-特别是在实值情况下。但是,使用整流器线性单元relu的结果要稳定得多。尽管激活函数| z | 2和|| z |相似,但是它们在所有任务中的性能都显着不同。大小| z |始终胜过平方大小| z | 2。在这些分类基准中,激活函数是给定模型整体性能的决定因素。激活可以允许网络从错误的初始化中恢复并适当使用可用参数。

如预期的那样,我们观察到每层神经元的固定数量和深度的增加,复杂和实数值的准确性增加。随着参数总数的增加,模型的容量也会增加。这里是路透社主题分类的一个例外,即随着深度的增加,性能会下降。当根据给定的参数预算选择每层的神经元数量(使用公式17、18进行实验2)时,性能会随着模型深度的增加而显着降低。考虑到实验1的结果,每层的宽度比整个网络的总深度更重要。我们观察到10个初始化之间的性能差异非常大。我们假设,随着深度的增加,复杂MLP中的权重初始化变得困难得多。因此,它们的性能非常不稳定。我们通过对路透分类任务进行100次运行(而不是10次运行)训练一个复杂的MLP(k = 2,tanh)来确定这一点。结果显示出与其他结果相似的行为:性能差距减小

 

表1:在MNIST数字分类任务中,由k + 2层组成的多层感知器的测试准确性,每层具有64个神经元(在复杂的MLP中交替排列64和32个神经元),输出层具有c = 10个神经元(实验1) 。 十次最佳选择。 每次跑步训练100个回合。

表2:在路透社主题分类中,由k + 2层组成的多层感知器的测试准确性,每个层具有64个神经元(在复杂的MLP中交替排列64和32个神经元),输出层具有c = 46个神经元(实验1)。 十次最佳选择。 每次跑步训练100个回合。

表3:在CIFAR-10图像分类任务中,由k + 2层组成的多层感知器的测试精度,每层包含128个神经元(在复杂MLP中交替使用128和64个神经元),输出层具有c = 10个神经元(实验) 1)。 十次最佳选择。 每次跑步训练100个回合。

表4:由k + 2层组成的多层感知器的测试准确性,每层包含128个神经元(交替128个神经元)CIFAR-100图像分类中,复杂MLP中有64个神经元)和c = 100个神经元的输出层任务(实验1)。 十次最佳选择。 每次跑步训练100个回合。

对于涉及数据在复平面上有解释的许多应用(例如信号),复值神经网络已经显示出它们是优越的[15]。 我们工作中所有选定的任务都使用实值输入数据。 我们观察到,对于选定的任务,复值神经网络的性能不及预期,并且实值架构优于其复杂版本。 首先,这种发现似乎是违反直觉的,因为每个实数值只是虚数为零的复数的特例。 用复数值模型解决实数值问题可使模型有更大的自由度来近似函数。 为什么对复杂值模型进行分类时,为什么复杂值模型不如真实模型。 在进一步检查训练过程中,我们发现复数权重的虚部始终遵循权重的实部。

在达到分类的输入上,平面上虚部和实部作用相同。因此,分类是两个相同分类的平均值。如果在训练阶段,重量的虚部的平均绝对值遵循实部的绝对值,则输入的虚部与实部的分配方式完全相同,或者所考虑的任务根本不会受益于使用复杂的-有价值的假设。此外,我们观察到,与真实值神经网络相比,复杂值神经网络对其初始化更为敏感。灵敏度随着网络的大小而增加。权重初始化由Trabelsietal建议。[26]可以减少此问题,但不能解决。 Glorot等人的方差规模化初始化的这种初始化方法复杂。等[11]。其他可能的初始化方法包括使用随机搜索算法(RSA)[31]。这需要大量的计算。我们最终尝试通过不同的最小化来多次缓解每次实验的问题。但是,复数权重的初始化仍然是一个重要且尚未解决的问题,需要进一步研究。激活函数的无穷大会导致学习过程的数值不稳定。这可能会导致学习过程失败(例如,梯度实际上是无限的)。如果学习过程在功能上达到这一点(例如奇异性),则难以恢复训练。通过约束功能,标准化权重或渐变不可避免。随着深度和结构复杂性的增加,这些选择由于其计算成本而可能不切实际。或者,也可以在设计阶段通过选择有界且完全复杂的微分激活函数来避免这种情况。找到这样的功能是困难的。另一种可能性是通过应用单独的有界激活函数(相同或不同的实函数)来帮助解决该问题,从而在实践中避免该问题。整流器线性单元是这些功能之一。虽然不是完全可以区分的,但我们发现培训过程更加稳定并且性能得到了改善。尽管由于数学上的困难而存在差异,但实际上我们可以将许多见解从真实域转移到复杂域。总之,与具有相似能力的复值模型相比,实值模型对实值任务构成了较高的性能极限,因为实部和虚部对输入的作用相同。对信息和梯度流的研究可以帮助识别从复杂值神经网络中受益的任务。考虑到现有文献和我们的发现,我们建议,如果数据在复杂域中自然存在,或者可以有意义地移到复杂平面上,则应使用复杂的神经网络进行分类任务。网络应反映权重的实部和虚部与输入数据的相互作用。如果忽略该结构,则该模型可能无法利用更大的自由度。由于更复杂的训练过程,很可能还需要更多的初始化和计算时间。

결론

이 작품은 복잡한 실수 다층 퍼셉트론의 기준 값과 분류 작업 사이의 비교를 고려합니다. 우리는 복잡한 값 모델은 데이터 분류의 실제 값의 복잡한 MLP 값의 성능에 더 큰 자유도 비슷하거나 더 나쁘다 수 있습니다 발견했다. a) 입력 데이터가 데이터 삽입의 실제 값으로부터 복소 값을 배울 수있는 기능, b) 잡음 복소 평면에서 입력 데이터의 분포, 또는 c)를 갖는 복합 특성 매핑되면 우리는 신경 네트워크의 복수의 사용을 추천한다. 우리는 (예를 들어, 평균 절대 값으로) 실제와 가상의 웨이트 트레이닝 동작을 비교하여 작업의 효과를 결정하기 위해 수 있습니다. 당신은 전체 기간의 실제 부분의 일반적인 행동의 허수 부분을 따르지 않는 경우, 작업은 복잡한 가설 가설 도움이 될 것입니다. 고려해야 할 설계 모델의 다른 측면은 전략과 성능, 모델의 크기와 계산 비용 사이의 활성화 기능, 체중 초기화 타협이다. 우리의 연구에서, 선형 활성화 함수의 최적의 성능이 정류기 부 조립체 영역에 적용된다. 우리 Wirtinger 계산법을 사용하거나, 두개의 실수 부에 적용되는 특정 지점 정책 기울기 기반 방법의 결합함으로써 실물 많은 복잡한 기능을 활성화 전사 방지. 초기화를 설명 트라벨시. [26] 초기화 문제를 줄일 수 있지만, 추가 연구가 필요하다. 여러 다른 아키텍처와 유사하게, 복수의 파라미터를 도입하는 것은 작업 - 특정 속성의 크기 사이의 트레이드 오프로 결정되고, 모델 (즉, 파라미터의 실제 값의 수)와 결정 계산 비용.

참조

게시 된 186 개 원래 기사 · 원의 칭찬 0 ·은 10000 +를 볼

추천

출처blog.csdn.net/dudu3332/article/details/104500033