Como fazer dados de IA da mais alta qualidade do setor? Desmistificando o método vencedor de dados de teste de nuvem

Texto | Ye Yuanfeng

Fonte | Relatividade inteligente (aixdlun)

No contexto da implementação acelerada da IA, como uma parte importante da implementação da indústria de inteligência artificial, a rotulagem de dados de IA atrai cada vez mais a atenção da indústria e está passando por grandes mudanças.

Na recente conferência de comércio de serviços, a empresa líder no campo de rotulagem de dados lançou um padrão para dados de medição em nuvem pela primeira vez. A maior precisão de entrega de seu projeto de dados de IA atingiu 99,99%, que é um novo recorde do setor. A este respeito, alguns meios de comunicação próprios "Zeng Ringing" comentaram que a rotulagem de dados de IA mudou da era "intensiva em mão-de-obra" para "intensiva em habilidades".

Na indústria de dados de IA, precisão de dados = quantidade de aceitação / quantidade total, o que significa que a precisão extremamente alta não apenas atende a alguns padrões objetivos, mas também precisa estar em profundidade com as necessidades da parte do projeto de IA e passar no processo de aceitação com base na demanda.

Na verdade, para a rotulagem de dados de IA, que é semelhante à fabricação em muitos lugares, o processo de criação de maior precisão é como "manufatura enxuta" na fabricação, e é compatível com métodos de desenvolvimento em muitos aspectos. , É apenas um para fornecer serviços de dados e outro para produzir produtos físicos.

Esse encaixe, do ponto de vista da atuação das empresas líderes do setor, inclui quatro aspectos.

Plataforma de negócios: em resposta à complexa transferência de dados de IA e operações, o "pipeline" de automação online aparece

A manufatura enxuta na indústria de manufatura é, antes de tudo, a automação e atualização inteligente da "linha de montagem", introduzindo ferramentas ou maquinários mais sofisticados e fornecendo uma base de ambiente de produção para o polimento enxuto de produtos.

A rotulagem de dados também é semelhante. Extensas plataformas de negócios estão cada vez mais incapazes de realizar operações e transferências complexas de dados de IA. Nesse contexto, "pipelines" automatizados online começaram a aparecer.

No passado, os traços "offline" do processo de rotulagem de dados eram fortes, especialmente o "modo bruto" de importação e exportação de dados, cópia de disco rígido e transferência de tempos em tempos.

Para melhorar a eficiência e a segurança e obter uma conexão perfeita em um curto período de tempo, as empresas representadas por dados de medição em nuvem exploraram um modelo de plataforma de negócios "pipeline" online. Especificamente, de acordo com o próprio processo de processamento de dados da empresa de IA, conclua o processo de incorporação da interface API padronizada, os dados são acessados ​​online e o trabalho é gerado online após a conclusão do trabalho. Há um modelo de criação de tarefa e arranjo de responsabilidade no meio, e diferentes anotações são suportadas. Tipo e método de rotulagem.

Imagem 1.png

Esse processo corresponde à indústria de manufatura, que na verdade é o processo de "entrar os materiais, encontrar a linha apropriada das muitas linhas de produção e organizar os trabalhadores de produção e a saída do produto". On-line, a anotação de dados alcançou um processo de conexão contínuo na nuvem de entrada, anotação e entrega de dados.

Entre eles, o valor mais óbvio da rotulagem de dados "Manufatura Enxuta" pode ser a otimização de "ferramentas de produção", e a melhoria dos recursos da ferramenta melhorou muito a eficiência e a precisão da rotulagem de dados, que é como um braço robótico automatizado com funções ricas em uma linha de montagem. Pode ajudar as empresas a melhorar significativamente a eficiência e a qualidade.

A ferramenta desenvolvida por empresas representadas por dados de medição em nuvem é um caso. Atualmente, o valor das ferramentas para anotação de dados tem estas três manifestações:

O primeiro é a assistência de operação direta, como marcação de pontos-chave de face de 26 pontos, 54 pontos, 96 pontos e 206 pontos na face e rastreamento de pontos-chave de missão específicos com um grau de ajuste de menos de 3 pixels, o que torna a operação do anotador Pode ser mais refinado e tem boa eficiência.

O segundo é o auxílio à operação de dados especiais. Por exemplo, os dados de nuvem de pontos 3D formados por lidar em condução autônoma são diferentes dos dados de imagens 2D formados pela câmera. É mais difícil de rotular e mais propensos a serem tendenciosos. Neste momento, a ferramenta de rotulagem de fusão (a nuvem de pontos 3D O valor de combinar dados de nuvem e dados de imagem 2D para comparar) é refletido.

A terceira é a garantia de correção de erros de rotulagem de dados, que é semelhante à inspeção de qualidade automática da máquina antes da inspeção de qualidade manual em "Manufatura Enxuta". Durante o processo de rotulagem de dados, a ferramenta define regras de verificação de erros de acordo com as necessidades do projeto de IA para garantir a precisão da rotulagem ( Por exemplo, seria errado rotular um objeto de três metros de altura como um corpo humano)

Obviamente, a inspeção da qualidade da ferramenta é apenas uma ajuda, e a inspeção manual da qualidade (inspeção por amostragem) também é indispensável no processo de "manufatura enxuta" de rotulagem de dados. Os dados de teste em nuvem não só realizam a padronização e cientificação do processo de rotulagem, mas também projetam o processo de gerenciamento desde a criação de tarefas, atribuição de tarefas e circulação de rotulagem, e também melhoram o processo de gerenciamento da inspeção de qualidade / inspeção de amostragem até a aceitação final.

Operação de dados: em resposta à demanda profunda de pouso de IA, há uma operação refinada como "tecnologia de dados"

O processo produtivo é um dos núcleos da "manufatura enxuta", quanto melhor o processo, melhor a qualidade dos produtos e melhor o direito de falar no mercado. Com base no ambiente de produção "pipeline", com o aprofundamento da demanda por pouso de IA, a rotulagem de dados de IA começou a parecer semelhante ao processo de operação refinado que pode ser chamado de "tecnologia de dados", 99,99% de precisão em si é o resultado de "tecnologia de dados" .

Nas operações diárias de dados de pesquisa em nuvem, você pode encontrar muitas dessas práticas semelhantes a "data craft", como tipos de rotulagem de dados mais ricos, e os objetos de rotulagem simples, como "segmentos de linha" também são divididos em polilinhas, curvas e cascas. Curva Sel etc.

Além disso, assim como a indústria de manufatura continua a acumular experiência de processo e gradualmente atualizar o nível de processo para produzir produtos de nível superior, a rotulagem de dados também tem um processo de acumulação de experiência para melhorar o nível de "processo de dados". Por exemplo, um grande número de indústrias na indústria parecem ser semelhantes. Para a rotulagem de peças, dois parafusos com modelos semelhantes podem ser distinguidos em um nível mais detalhado; um grande número de SKUs semelhantes no setor de varejo precisa ser rotulado de uma variedade de ângulos detalhados, como marca e rótulo para ajudar na identificação do algoritmo.

Em geral, a demanda complexa por dados de IA é a causa direta do desenvolvimento da anotação de dados na direção da "tecnologia de dados".

Os dados atuais de IA apresentam três características. Em primeiro lugar, a complexidade das cenas de pouso de produtos de IA leva à diversificação dos requisitos de cena de dados, como intensidade de luz, ângulo de tiro, requisitos de ruído, interno e externo, etc.; Em segundo lugar, dados semelhantes mostram diversidade de amostra , Os dados de som por si só podem incluir diferenças de idade, gênero, sotaque, etc.; O terceiro são os dados multidimensionais para o mesmo alvo de aplicativo, por exemplo, a direção inteligente pode exigir dados de diferentes sensores, como câmeras, lidar e radar ultrassônico ao mesmo tempo.

Obviamente, neste contexto, a aplicação direta ou compra de "conjuntos de dados" acabados nos estágios iniciais de desenvolvimento de IA não funcionará. Eles podem ajudar o algoritmo a se moldar rapidamente, mas é difícil dar suporte a necessidades de pouso de IA mais diversas.

Portanto, a demanda por rotulagem de dados para operações refinadas como "tecnologia de dados" naturalmente excede o escopo de negócios da rotulagem de dados pura, e o link principal da coleta de dados upstream deve ser integrado. Pode-se ver que as empresas representadas por dados de medição em nuvem estão melhorando vigorosamente sua capacidade de coletar dados de cena. Ajude os clientes a restaurar os dados de IA exigidos pela cena de pouso e garanta a qualidade dos dados de IA da fonte, a fim de serem melhor aplicados ao pouso profundo da industrialização de IA.

Talvez por esse motivo, pode-se ver que enquanto os dados de medição em nuvem liberaram a maior precisão de entrega de projeto de 99,99%, a fim de se adequar ao cenário real e ajudar mais indústrias a alcançar "produtos de IA mais rápidos e melhores", a nuvem Combinado com seu próprio acúmulo de recursos de serviço e experiência no setor, os dados de medição também lançaram a "solução de serviço de dados de treinamento de IA" em quatro cenários de cidade inteligente, casa inteligente, direção inteligente e finanças inteligentes.

Nessas soluções de dados de IA de cena que integram coleta de dados e anotação, traços mais óbvios de "tecnologia de dados" podem ser encontrados.

Por exemplo, em cenas externas, as câmeras incluem uma grande quantidade de dados de cenas de estradas, como pedestres, veículos motorizados e bicicletas, mas os aplicativos de IA em cidades inteligentes podem precisar identificar dados de cenas de cauda longa, como detecção de fluxo de pedestres e emergências.

Figura 2.png

Na solução de cidade inteligente de dados de medição de nuvem, o primeiro laboratório de cena de dados do setor é usado para restaurar e construir cenas reais, que são usadas para coletar dados de cena de cauda longa, como detecção de pessoal sob uma variedade de luzes diferentes, detecção de movimento perigoso, etc.

Existem cenários semelhantes para uma direção inteligente. A direção inteligente requer uma grande quantidade de dados reais da cena para o treinamento do algoritmo. Para garantir a segurança ao dirigir, é necessário cobrir muitos dados da cena da cauda longa, como pedestres segurando guarda-chuvas, animais de estimação que aparecem repentinamente etc. Após o surto, use máscaras O pedestre também é outro tipo de "cenário de dados de IA" necessário para a percepção do ambiente externo.

Figura 3.png

Em termos de detalhes, ele atende às necessidades de dados de IA mais complexos e aprofundados e oferece recursos de aquisição de dados de IA únicos e insubstituíveis, que ajudarão a anotação de dados a continuar a ganhar um status industrial superior.

Construção de mão de obra: em resposta à "tecnologia de dados" de alta precisão, surgem "treinadores de inteligência artificial" profissionais

Após a base de produção da "linha de montagem" mais alta tecnologia de produção, o teste da "manufatura enxuta" é se os trabalhadores industriais podem realizar a habilidade do processo. Sob a onda de modernização industrial, a qualidade dos trabalhadores industriais se tornou "manufatura enxuta". Um dos principais fatores.

No mapeamento para anotações de dados, para lidar com "tecnologia de dados" de alta precisão, começaram a surgir "treinadores de inteligência artificial" profissionais, que se manifestaram em três aspectos.

O primeiro é o treinamento sistemático de talentos.As habilidades gerais, profissionalismo, conhecimento de domínio e qualidade do pessoal estão todos melhorando.

Veja os dados de teste em nuvem como exemplo. Os dados de teste em nuvem não apenas fornecem treinamento pré-trabalho, mas também incluem treinamento de habilidades de funcionários, treinamento funcional, conhecimento do domínio do setor, treinamento de responsabilidade, treinamento de conteúdo marcado e comunicação contínua individual para aprimorar a capacidade dos funcionários ; Ao mesmo tempo, está equipado com um sistema de pontuação online e sistemático para avaliar as competências dos colaboradores.

No passado, o método de rotulagem de dados de puxar aleatoriamente algumas pessoas na rua ou na escola, desde que elas reconheçam a imagem e entendam o básico da gramática e ortografia, comecem a funcionar, não tem mais competitividade.

Em segundo lugar, começaram a surgir "escalões de talentos" atendendo a diferentes necessidades.

Nesse sentido, assim como produtos mais complexos são dotados de trabalhadores com maior qualificação em "manufatura enxuta", no campo da rotulagem de dados, houve alguma diferenciação na demanda de dados, obrigando as empresas a cultivar "escalões de talentos" em certo sentido.

Em áreas altamente especializadas típicas, como assistência médica, direito, finanças, decoração doméstica, etc., seja CV ou PNL, os treinadores de inteligência artificial precisam ser muito profissionais para realizar anotações e interpretações corretas de dados. Isso não é nem mesmo uma solução para o treinamento sozinho. do. O Cloud Test Data absorveu alguns profissionais do setor financeiro e de móveis domésticos no campo da PNL para melhorar os recursos de rotulagem de dados nos campos correspondentes. Isso também significa que o setor de rotulagem de dados começou a ter alguns requisitos para a fonte de talentos e não é mais uma população generalizada. .

O terceiro é a superposição contínua de um grande número de detalhes de operação e profissionalismo.

Os trabalhadores industriais tornam-se "mestres", por um lado, das exigentes exigências do trabalho, por outro lado, da acumulação contínua de experiência profissional. Isso também é verdadeiro para anotações de dados.

Sob gestão extensiva, a indústria tradicional de rotulagem de dados tem um temperamento tipo bandeira "caótico", e a equipe de grama tem feito muitas rotulagens de dados de uma forma tola. Mas agora, sob a bandeira de alta precisão, a habilidade profissional da equipe de serviço de dados é estritamente necessária. Nos dados de medição em nuvem, a rotulagem de intenção de uma única cena de atendimento ao cliente inteligente é dividida em 10-20 categorias e centenas de subcategorias (a mesma expressão é a mesma). Uma intenção, os usuários enfrentados pelo algoritmo podem ter expressões diferentes, portanto, quanto mais subdividido, melhor), e pode haver subdivisões de rótulos adicionais de acordo com as necessidades do negócio.

Isso força os anotadores de dados a melhorar sua capacidade de julgar as intenções de diálogo. Eles precisam generalizar frases, reorganizar ou expandir padrões de frases e tags em descrições diferentes (por exemplo, se o usuário simplesmente perdeu a palavra ou está misturado com dialetos, os dados precisam ser anotados Claro, para que os algoritmos de IA aprendam).

Com base na melhoria contínua da qualidade geral, os treinadores de inteligência artificial apresentam um gradiente mais diversificado e mais talentos de rotulagem de alta qualidade se destacam.

Interação de demanda: em resposta às necessidades de projeto em profundidade, um modelo de serviço profissional com interação em profundidade aparece

Finalmente, a indústria de manufatura no estágio de "manufatura enxuta" é freqüentemente acompanhada por uma comunicação profunda entre o comprador e o produtor, e o comprador está profundamente envolvido na manufatura para produzir produtos que estejam mais em linha com a intenção original.

Na verdade, esse é um modelo de serviço profissional que dá suporte à "manufatura enxuta", e isso também é válido no campo da rotulagem de dados. Para esclarecer o padrão de dados de IA, a empresa que busca alta precisão no Cloud Data há muito exige que os gerentes de projeto e as partes do projeto de IA comuniquem repetidamente suas necessidades antes do início do projeto e cooperem com os instrutores da indústria para realizar pré-treinamento para rotuladores e rotular o processo de trabalho Manter comunicação e feedback em tempo real

Nessa comunicação repetida, há muitos detalhes que afetam a precisão do resultado final dos dados, por exemplo, no projeto de CV, que tipo de luz deve ser marcada e definida como "luz forte"? Exigentes diferentes podem ter entendimentos diferentes.

Além da comunicação clara de padrões de dados, a rotulagem de dados agora é mais flexível em termos de métodos de operação.

Normalmente, em cenários financeiros, devido à particularidade do setor, especialmente os requisitos extremamente elevados para segurança de dados, além de fornecer um conjunto de soluções de serviço de dados de IA para o setor financeiro que integra profundamente os próprios processos de negócios da empresa, as empresas de rotulagem de dados devem O método físico de implantação e operação deve ser alterado, como a implantação privatizada e os serviços de operação no local fornecidos por dados de medição em nuvem. Nesse método de serviço, a natureza da rotulagem de dados como "serviços corporativos" também é mais óbvia.

Vale ressaltar que em termos de privacidade e segurança de dados, Cloud Data definiu uma série de medidas rígidas. Um dos princípios fundamentais é que os dados nunca serão reutilizados. Quando os dados são qualificados e fornecidos, os dados relevantes nunca serão deixados para trás e os dados relevantes serão apagados; em segundo lugar, todos os usuários que coletam dados de nuvem assinarão um acordo de autorização de dados para garantir a partir da fonte Os dados usados ​​pela empresa para treinamento são legais e compatíveis; ao mesmo tempo, uma série de processos e tecnologias de segurança de dados, como isolamento de dados e garantia de qualidade, também são configurados nos dados de teste em nuvem.

Ao todo, a implementação acelerada de IA gerou requisitos de dados de IA mais complexos, fazendo anotações de dados de IA que são um tanto semelhantes ao processo de "manufatura enxuta" da indústria de manufatura também entrar no próprio processo de "manufatura enxuta" da indústria, no ambiente de produção, padrões operacionais e talentos. Houve grandes mudanças nos modelos de construção e serviços. A mudança trazida pelos dados de medição em nuvem não só traz dados de IA de maior precisão e qualidade, mas também torna a indústria de rotulagem de dados mais proeminente na cadeia industrial da era de IA. A anotação de dados é como uma nova infraestrutura no mundo da informação. Somente quando os alicerces são devidamente construídos, os prédios da indústria de IA podem se erguer e acelerar a chegada da inteligência artificial.

Descubra o que é inteligente e adicione vx: zhinengxiaoyan

Este conteúdo é a [Teoria Inteligente da Relatividade] original,

Ele representa apenas visualizações pessoais. Sem autorização, ninguém pode usá-lo de qualquer forma, incluindo reimpressão, extração, cópia ou criação de imagens espelhadas.

Algumas fotos são da Internet e a propriedade dos direitos autorais não foi verificada. Não são para uso comercial. Se houver alguma violação, entre em contato conosco.

Relatividade inteligente (WeChat ID: aixdlun):

• Novas mídias da indústria de IA;

• Vencedores do projeto Toutiao Qingyun de hoje, TOP10;

• Top5 mensal do jornal na lista de tecnologia de notícias;

• Os artigos "ocupam" a lista TOP10 de artigos populares da Titanium Media há muito tempo;

• Autor de "Cem Mil Porquês da Inteligência Artificial"

• [Principais áreas de foco] Eletrodomésticos inteligentes (incluindo eletrodomésticos brancos, eletrodomésticos pretos, telefones inteligentes, drones e outros dispositivos AIoT), direção inteligente, AI + assistência médica, robótica, Internet das coisas, AI + finanças, AI + educação, AR / VR, computação em nuvem , Desenvolvedores e os chips e algoritmos por trás deles.

Acho que você gosta

Origin blog.csdn.net/sinat_32970179/article/details/108784664
Recomendado
Clasificación