Sem saber, já se passou um mês desde que o GPT-4 foi disponibilizado publicamente pela primeira vez.
Durante esse período, muitas pessoas obtiveram a permissão da API GPT-4, abriram o ChatGPT Plus e experimentaram os recursos do GPT-4 com antecedência.
Sem exceção, essas pessoas ficaram profundamente impressionadas com a poderosa análise lógica e os recursos gerais de planejamento do GPT-4.
Quer se trate de redação de papel, codificação ou análise de dados, o GPT-4 oferece um desempenho incrível.
No entanto, não se esqueça que o GPT-4, como um modelo de linguagem grande multimodal, pode não apenas gerar conteúdo de texto, mas também entender o conteúdo de entrada de imagem, permitindo que os usuários se comuniquem diretamente com as imagens.
Há um mês, a OpenAI demonstrou ao mundo exterior como o GPT-4 pode gerar diretamente um site por meio de esboços desenhados à mão, o que surpreendeu muitos espectadores na época.
Não só isso, mas também pode obter as piadas na imagem, identificar problemas de matemática e dar respostas por sua vez.
Eu sempre sinto que o diálogo da imagem é a parte realmente emocionante do GPT-4. Mas, infelizmente, esse recurso ainda não está aberto ao público.
Com exceção de algumas empresas, como Be My Eyes e Khan Academy, que estabeleceram cooperação com a OpenAI, a maioria das pessoas só pode experimentar a capacidade de diálogo de texto do GPT-4.
Originalmente, pensei que só poderia experimentar essa função esperando que o OpenAI lançasse uma atualização. Não esperava encontrar esse projeto hoje.
O projeto, chamado MiniGPT-4 , foi feito por vários PhDs da King Abdullah University of Science and Technology.
Ele pode fornecer compreensão de imagem e recursos de diálogo semelhantes ao GPT-4, permitindo que você sinta o poder do diálogo de imagem um passo à frente.
GitHub: https://github.com/Vision-CAIR/MiniGPT-4
Experiência online: https://minigpt-4.github.io/
De acordo com os autores do projeto, o GPT-4 alcança muito