Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos? Reduzir a precisão operação

Encontramos algumas informações, quero ser capaz de responder por que a velocidade de operação TPU de GPU normal, CPU 15-30 combinação de tempos rápidos. Ao mesmo tempo, acreditamos que a inovação do Google TPU em pesquisa e desenvolvimento é susceptível de se tornar Intel, AMD referência seguem o mesmo desenvolvimento de hardware e, finalmente, se tornar uma tendência.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

Em primeiro lugar, a profundidade de aprendizagem para o desenvolvimento de personalização

TPU é o Google especificamente para DNN poder para acelerar a pesquisa eo desenvolvimento de um chip de computação, na verdade é um ASIC.

ASIC, CI refere-se a especificações especiais de acordo com diferentes necessidades de produtos personalizados, personalizados por as necessidades dos requisitos do utilizador específico e sistemas electrónicos específicos de fabrico. Em geral, um ASIC funções específicas executadas sobre um reforço especial, modelos complexos podem ser necessários, mas relativamente falando, mais elevada a velocidade de processamento e menor consumo de energia. Correspondente, os custos de produção ASIC são muito elevados.

Geralmente difícil para as empresas de suportar o custo e risco para o desenvolvimento da aprendizagem profunda processador especializado de chips ASIC. Em primeiro lugar, devemos usar o melhor desempenho para o processo de fabricação de semicondutores, e agora com a mais recente tecnologia de fabricação de chips descartáveis vai custar vários milhões de dólares, muito caro. Mesmo se o dinheiro necessário para puxar uma equipe de projeto do zero, tempo de design, muitas vezes a mais de um ano, tempo de mercado muito longo, arriscado. Se a escala de aplicação não pode ser alcançado, mesmo se desenvolvido com sucesso também a falta de valor prático. Portanto, as empresas geralmente tendem a usar chips universal (por exemplo, CPU, GPU), ou um chip semi-custom (FPGA).

Google se atrevem a fazer sua própria investigação e desenvolvimento personalizado, por um lado, é naturalmente rebelde rico, por outro lado, devido aos muitos serviços prestados pela Google, incluindo o Google Image Search (Google ImageSearch), fotos do Google (Google foto), API Visual Google Cloud ( Google Cloud Visão API), produtos e serviços Tradução de Google terá que usar a profundidade da rede neural. Com base na própria quantidade enorme de Google do corpo, para desenvolver um chip especial para começar com aplicações em larga escala (partilha de um grande número de custos de P & D) são possíveis.

Se houver um cenário em que as pessoas usam em um dia no Google Voice Search para 3 minutos, e nós queremos executar a profundidade de redes neurais para processador do sistema de reconhecimento de voz é usado, então teríamos de dobrar o centro de dados do Google número.

Nossa carga é uma estrutura de alto nível da TensorFlow escrito, e é uma aplicação de nível de produção de redes neurais (perceptron multicamadas, convolução rede neural e LSTM), estas aplicações representam para o nosso centro de dados necessidades da inferência de redes neurais de computação 95%.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

Tabela 1: Seis rede neural (rede neural para cada tipo de cada duas espécies) representaram carga TPU 95%. As colunas na tabela seguido por uma variedade de redes neurais, do tipo e número de linhas de código, rede neural secundária (FC é camadas totalmente ligado, conv é a camada de convolução, Vector é uma camada de vector, uma camada de reservatório da piscina) e um TPU penetração da aplicação em Julho de 2016.

Otimização em relação ao CPU e GPU variáveis no tempo (execução cache-fim, multi-processamento multi-threaded, prefetch ......), modelo de execução determinística que o TPU (modelo de execução determinística) melhor corresponde a 99% dos requisitos de tempo de resposta de nossas aplicações de rede neural, porque mais CPU e GPU é o rendimento útil (todo) são em média, em vez de para garantir que o desempenho de atraso. Falta de esses recursos ajudam a explicar por que, apesar do TPU tem grande memória MAC e grande, mas é relativamente pequeno e baixo consumo de energia.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

TPU é um diagrama de blocos dos módulos. A principal unidade superior amarela matriz direito multiplicação seção de cálculo. As entradas são azuis "pesos FIFO" e cache unificada azul (Unified Buffer (UB)); saída é azul acumulador (Acumuladores (ACC)). activação amarelo (activação) executa uma função não linear da unidade da UB fluxo em Acc.

Em segundo lugar, a memória chip de grande escala

TPU utilizado até 24 MB de memória local sobre o chip, e memória acumulador 6MB de memória para fazer a interface com o processador central, um total de 37% da área do chip (azul na figura).

Isto significa que o Google é plenamente consciente do acesso à memória fora do chip é baixa eficiência energética da GPU culpado, por isso, ao custo de on-chip colocar uma grande capacidade de memória. Em contraste, a Nvidia mesmo período K80 única 8MB de memória on-chip, é necessário continuar a acesso off-chip DRAM.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

chip de TPU esquema da Fig. dados do chip azul armazenar em cache de 37%. Amarelo calculada de 30%. Green I / O foi de 10%. controle Red apenas 2%. A seção da CPU ou GPU controle terá muitos grandes (e muito difícil de design).

Em terceiro lugar, baixa precisão (8 bits) Cálculo

desempenho TPU, mas também a partir de uma baixa tolerância para a precisão operação.

Os resultados mostram que as operações aritméticas de baixa precisão causados pela perda de precisão é muito pequeno, mas que pode trazer grande conveniência na implementação de hardware, incluindo o consumo de energia inferior e área de chip mais rápido foi responsável por uma unidade de operação menor, uma memória menor demanda por banda larga.

A informação divulgada, TPU usa 8-bit de baixa precisão aritmética. Isso TPU cada etapa vai exigir menos transistores. No caso dos transistores do mesmo capacidade total, por unidade de tempo que você pode executar mais operações sobre esses transistores, para que ele possa usar mais complexas e poderosas de aprendizado de máquina algoritmos obter resultados mais inteligentes mais rapidamente através.

teste do Google, um de 64-bit de ponto flutuante operador matemático 18 do movimento do núcleo no processador de 2,3 GHz capaz de processar Haswell XeonE5-2699 v3 1,3 SUPERIOR das operações por segundo, e proporciona uma largura de banda de memória 51PT / seg; chip de potência Haswell consumo é de 145 watts, o sistema (256 tem GB de memória) consumo de 455 watts em carga máxima. Em contraste, usando TPU matemática inteiro de 8 bit, uma memória hospedeiro tem memória 256 GB e 32 GB pode ser conseguida a largura de banda de memória 34GB / s, a velocidade de processamento se a 92 partes superiores, que melhorou 71 vezes maior do que Haswell, além disso, TPU energia térmica de servidor apenas 384 watts.

Em quarto lugar, o fluxo pulsante

Para GPU, da memória buscar instruções e dados do demorado. TPU nem mesmo operação de busca de comando, mas é actualmente assegurada com as instruções do processador host, e fazer o TPU correspondente com base na instrução de operação atual, o que torna possível alcançar maior TPU eficiência computacional.

Na operação de multiplicação de matrizes e de convolução, o número de dados pode ser multiplexado, e os mesmos dados requer um número de diferentes pesos e somadas para obter o resultado da multiplicação final. Assim, em momentos diferentes, os dados são muitas vezes apenas uma ou duas entradas necessárias para os novos dados obtidos a partir do exterior, mas sobre os outros dados de um conjunto de dados de mudança de tempo.

Neste caso, o on-chip de dados de memória Lave todos vão obter novos dados é, sem dúvida, muito ineficiente. As características deste cálculo, TPU adicionou suporte pulsante fluxo de dados, cada ciclo do relógio de desvio de dados, e para recuperar uma nova dados. Isto irá maximizar os dados multiplexados, e reduzir o tempo de acesso à memória, reduzindo a pressão de largura de banda de memória também reduz o consumo de energia do acesso à memória.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

Quinto, fortalecer a dissipação de calor

Para obter o desempenho, os dois factores que limitam a velocidade máxima do processador é o atraso de porta lógica de calor, em que o aquecimento é o factor mais importante que limita a velocidade. A maioria dos processadores atuais usam a tecnologia CMOS, um ciclo de relógio cada dissipação de energia produtos, mais rápido o calor é maior. Abaixo está uma relação entre a freqüência do relógio da CPU e consumo de energia pode ser visto, a operação de chip de consumo de energia com a velocidade de crescimento exponencial mudança.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

TPU, reduzindo o consumo de energia, a capacidade também feita para optimização adicional de arrefecimento. Como pode ser visto a partir da vista externa do TPU, em que o inter-metálico saliente uma folha grande, o que é bom para o TPU de ser uma operação de alta velocidade é efectuada uma grande quantidade de dissipação de calor.

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos?

Sexto, hardware, software, otimização contínua

Google acredita que há um grande espaço para otimização agora ainda hardware e software TPU, como a NVIDIA K80 GPU assumiu a passar na memória GDDR5, o TPU podem desempenhar um melhor desempenho.

Além disso, os engenheiros do Google também desenvolveu um software chamado cnn1 TPU, o TPU pode fazer a velocidade 70 vezes superior à média de CPU!

Tiger-Li

Publicado 74 artigos originais · Louvor obteve 337 · Visualizações 1,3 milhões +

Seus placa de mensagem preocupações

Por TPU velocidade de computação do que GPU normal, CPU 15-30 combinação de tempos rápidos? Reduzir a precisão operação

Acho que você gosta