두 번째 연구 노트

; 단순성과 및 솔루션, 오버 피팅
, 오버 피팅의 개념 단순성과
체중 붕괴
폐기 방법
, 그라데이션 사라지고, 그라데이션 폭발
: 가격 예 예측은 반영
가격에 대한 예측, 예측 함수를 정의

DEF train_and_pred (train_features, test_features, train_labels, test_data,
num_epochs, LR, weight_decay, BATCH_SIZE)
순 = get_net (train_features.shape [1])
train_ls는 _ = 열차 (그물 train_features, train_labels, 없음, 없음,
num_epochs, LR , weight_decay, BATCH_SIZE)
d2l.semilogy (범위 (1 num_epochs + 1) train_ls '에포크', 'RMSE')
인쇄 ( "기차 RMSE % F '% train_ls [-1])
preds = 순 (test_features). 분리 (). NumPy와 ()
test_data [ 'SalePrice'] = pd.Series (preds.reshape (1, -1) [0])
를 제출 pd.concat = ([test_data [ '이드'] test_data [ 'SalePrice' ]] = 1 축)
submission.to_csv ( './ submission.csv'인덱스 = 거짓)
# Sample_submission_data = pd.read_csv ( "... / 입 / 집 가격 - 고급 - 회귀 기술 / sample_submission.csv")
회선 신경망 고급
LeNet :
대용량 데이터 세트의 성능이 가장 좋은 페이스 이탈리아어로 사실이 아니다 .
1. 신경망 계산 복잡도.
2. START 아직 깊은 연구 확대 양 파라미터 초기화 및 편리 볼록 최적화 알고리즘 및 기타 여러 분야에서 온다.
기계 학습 피쳐 추출 : 특징 추출 기능은 수동으로 정의 된
학습에 의해 얻어진 특징으로 다치 데이터를 테이블 점진적 추상적 개념이나 패턴을 표시 : 특징 추출 신경망.
데이터 하드웨어 : 뉴럴 네트워크의 개발을 제한
변압기
차이 :
트랜스포머 블록 : 재순환 대안 트랜스포머 블록에 대한 seq2seq 네트워크 모델은, 모듈은 긴 관심 층 (멀티 헤드 주목 레이어) 및 두 위치 와이즈 배전반으로부터 주 배전반을 포함 포워드 네트워크 (FFN). 디코더를 들어, 다른 긴 관심 인코더를 수신 숨겨진 레이어입니다.
추가 표준 : 긴 초점과 출력층 피드 포워드 네트워크는 두 개의 층으로 제공되는 "을 추가하고 표준"으로 처리하고, 층 구조 및 정규화 잔차를 포함하는 층.
위치 인코딩 : 자동 초점 층 시퀀스에 의한 부호화는 층의 위치가 시퀀스의 요소의 위치 정보를 추가하기 위해 사용되도록 상기 원소를 구별하지 않는다.
. . .
우리는 아직 완전히 이해하지,보고
회선 신경망;

수입 시간
수입 토치
토치 수입 NN에서 Optim을
가져 F 등 torch.nn.functional
수입 torchvision의
수입 SYS
sys.path.append ( "/ 홈 / kesci / 입력 /")
D2L 같은 수입 d2lzh1981
장치 torch.device = ( '쿠다 '경우 torch.cuda.is_available () 다른'CPU를 ')

batch_norm DEF는 (X 축을 is_training, 감마, 베타, moving_mean, moving_var, EPS, 모멘텀)는 :
# 현재 모드가 훈련 모드 또는 예측 모드를 결정
is_training없는 경우 :
# 당신이, 예측 모드에 들어오는 이동 평균 소득의 직접 사용하는 경우 평균과 분산
X_hat = (X-- moving_mean) / torch.sqrt (moving_var + EPS)
다른 :
어설 LEN (X.shape) (2 ,. 4)
IF LEN (X.shape) == 2
# 전체 메쉬 층의 경우, 평균 및 피처 크기의 변동
평균 = X.mean (중국식 = 0)
VAR = ((X-- 평균) ** 2) .mean (중국식 = 0)
다른 :
이차원 컨벌루션 층을 사용 # 경우, 채널 치수 (축 = 1) 평균과 분산의 산출. 여기에서 우리는 계속해야
연산 할 수있는 방송 #의 X하기 위해 뒷면의 모양을
평균 = X.mean을 (희미한 = 0, keepdim = 참) .mean (희미한 = 2, keepdim = 참) .mean (keepdim 희미한 = 3 = 참)
VAR = - ((X 평균) ** 2) .mean (희미한 = 0, keepdim = 참) .mean (희미한 = 2, keepdim = 참) .mean (희미한 = 3, keepdim = 참)
#과 훈련 모드 현재의 평균과 분산의 DO 표준화
= X_hat (X-- 평균) / torch.sqrt (VAR + EPS)
# 업데이트 이동 평균과 분산의 평균
moving_mean = 모멘텀 moving_mean * + (1.0 - 모멘텀) * 평균
moving_var = 모멘텀 moving_var * + (1.0 - 모멘텀) * VAR
Y = 감마 * X_hat + 베타 # 스트레칭 및 오프셋
moving_var 상기 Y, moving_mean를 반환
하여 [3.]
leNet는
콘볼 루션 신경망 고급
: 종료되지

출시 두 원저 · 원의 칭찬 0 · 조회수 31

추천

출처blog.csdn.net/leo_lixinghao/article/details/104401637