[AAAI'18] SOMA: uma estrutura para entender as mudanças nos ambientes cotidianos usando mapas de objetos semânticos

Sumário

Compreender as mudanças associadas à dinâmica de pessoas e objetos nos ambientes cotidianos é um problema desafiador e também é um requisito essencial para robôs de serviço móvel automatizados em muitos aplicativos.
Neste artigo, propomos uma nova estrutura de mapeamento semântico que pode mapear a localização de objetos, áreas de interesse e o movimento de pessoas ao longo do tempo. Nossos objetivos para usar essa estrutura são duplos: (1) queremos permitir que os robôs raciocinem sobre seu ambiente em termos de semântica, espaço e tempo e (2) queremos permitir que os pesquisadores investiguem e estudem no contexto dos cenários de longo prazo dos robôs Problema. Ambiente dinâmico.
Os resultados experimentais comprovam a eficácia da estrutura, que foi implantada no ambiente real por vários meses.

 

Introdução

Por exemplo, ao arrumar uma mesa para o jantar, uma pessoa tira pratos, xícaras, facas e garfos dos armários e gavetas da cozinha e os coloca na mesa de jantar.
No entanto, devido à sua capacidade limitada de percepção e visão autocentrada, o robô pode observar apenas parcialmente esses eventos. Enquanto observa esse tipo de cena, o robô móvel pode apenas perceber o movimento de uma pessoa no espaço e a aparência e o desaparecimento de objetos em diferentes lugares e em diferentes momentos. Como o robô apenas percebe um instantâneo de eventos em potencial, ele precisa raciocinar sobre o que vê, quando e onde deduzir o que fazer a seguir.

O que eu vi? Onde Quando? É um problema indispensável em muitas tarefas robóticas, como encontrar objetos e monitorar atividades humanas (Galindo et al., 2008; Kostavelis e Gasteratos, 2015).
O gráfico do ambiente semântico pode vincular as informações semânticas sobre o mundo (como objetos e pessoas) à representação espaço-temporal, fornecendo respostas a essas perguntas.
Por esse motivo, eles são um recurso importante em muitas tarefas de robô. Eles permitem que robôs autônomos interpretem (ou trituram) instruções avançadas de missão; planejam e explicam como concluir missões em um determinado ambiente; e comunicam observações aos seres humanos.
No entanto, construir, manter e usar esses mapas em ambientes dinâmicos diários apresenta alguns desafios: (i) as observações dos dados do sensor devem ser interpretadas no nível semântico; (ii) a interpretação precisa ser integrada em um mapa consistente; iii) O mapa precisa ser atualizado constantemente para refletir as mudanças dinâmicas do ambiente (muito tempo); (iv) A consulta do mapa semântico precisa fornecer informações relacionadas à tarefa, considerando restrições semânticas e / ou espaço-temporais.

No passado, muitos métodos de mapeamento semântico em visão computacional e robótica resolveram os desafios interpretando e integrando dados de vários sensores (i) e (ii); esses métodos supunham que o ambiente era estático, então o foco estava em grandes estruturas ( Tais como quartos, paredes e móveis).

Neste trabalho, respondemos aos desafios (ii), (iii) e (iv). Em relação ao desafio (i), usamos e adaptamos o mais recente método de percepção do robô, que fornece interpretação semântica intermediária a partir dos dados do sensor.
Nosso trabalho enfoca os aspectos dinâmicos do ambiente cotidiano, incluindo as diferentes posições de objetos, áreas de interesse que podem mudar com o tempo e o movimento de pessoas.
Para esse fim, estudamos como objetos, regiões e movimentos
podem indexar pessoas por tempo e espaço, para que atualizações e consultas de mapas possam ser tratadas com eficiência.

Para enfrentar esses desafios, projetamos, desenvolvemos e avaliamos o SOMA; uma estrutura para construir, manter e consultar gráficos de objetos semânticos. Em nosso trabalho, o gráfico de objetos semânticos modela as informações semânticas e espaciais sobre objetos, regiões e trajetórias de agentes ao longo do tempo. Portanto, eles podem fornecer respostas para as seguintes perguntas: o que, onde e quando?

A estrutura proposta permite que robôs autônomos usem os métodos de percepção mais recentes para construir e atualizar automaticamente (ou modificar) mapas com base em observações e consultá-los no programa de controle do robô.
Ao mesmo tempo, engenheiros e pesquisadores do conhecimento podem editar e consultar mapas para fornecer conhecimento de domínio e estudar problemas de pesquisa de longo prazo. É importante observar que, quando projetamos o SOMA, consideramos esses dois grupos de usuários diferentes: robôs e pesquisadores autônomos. Quando os robôs podem adicionar suas próprias observações e mapas de consulta para tomar decisões, os pesquisadores podem modelar e / ou analisar o ambiente e extrair dados espaço-temporais coletados por sistemas autônomos. O último permite que os pesquisadores construam e aprendam novos modelos sobre a dinâmica (a longo prazo) nos ambientes cotidianos.

Neste trabalho, focamos no mapeamento de objetos, áreas e seres humanos em configurações dinâmicas e de longo prazo.
A Tabela 1 resume os conceitos de alto nível usados ​​no SOMA. De um ponto de vista abstrato, nosso método é semelhante a outros trabalhos, porque utiliza conceitos semelhantes para representar entidades no ambiente.
Conceitos como objetos, regiões e trilhas são natureza e bom senso.
No entanto, com o tempo, nossa abordagem difere bastante na maneira como os conceitos de armazenamento, indexação, vinculação e observação de consulta, interpretação e semântica.
A principal contribuição deste trabalho são as seguintes:
• framework de mapeamento semântico para um open-source (SOMA), projetado para o projeto cena dinâmica de longo prazo;
• arquitetura representação do conhecimento multi-camada, usando observação ligação índice espaço-temporal, interpretação e conceitos semânticos;
• para Mecanismo adaptativo para aterrar objetos nos dados do sensor e um conjunto de interfaces (extensíveis) para atualizar gráficos de objetos semânticos ao longo do tempo
• Interface de consulta para recuperar e processar gráficos de objetos semânticos usando restrições semânticas e espaço-temporais Objetos
• Estudos de caso de longo prazo de SOMA e gráficos de objetos semânticos em ambientes do mundo real.

 

 

2. Trabalho relacionado

Os pesquisadores propuseram um método padronizado para representar e avaliar gráficos semânticos.
Eles definem o mapeamento semântico como um processo incremental que mapeia informações relevantes do mundo (ou seja, informações espaciais, eventos temporais, assuntos e ações) para a descrição formal suportada pelo mecanismo de inferência.
Nosso trabalho utiliza um método semelhante: mapeamos gradualmente as informações espaço-temporais sobre objetos, pessoas e regiões e usamos consultas padronizadas de banco de dados e mecanismos especializados de raciocínio para consultar essas informações.

Vários métodos de mapeamento semântico se concentram principalmente na interpretação e integração de dados de vários sensores, incluindo telêmetros a laser, câmeras estéreo e monoculares e câmeras RGB-D.

A maioria desses métodos pressupõe que o ambiente seja estático; portanto, o foco está no mapeamento de grandes estruturas estáticas, como salas, paredes e móveis.
Nosso trabalho difere desses métodos de duas maneiras. Primeiro, não desenvolvemos métodos para interpretar os dados dos sensores, mas estabelecemos e adaptamos os métodos mais avançados de percepção de robôs (Aldoma et al., 2012; Wohlkinger et al., 2012) .Em segundo lugar, focamos no mapeamento, atualização e dinâmica Consulta gráfico semântico no ambiente.

Alguns métodos de mapeamento semântico exploram este tópico de diferentes ângulos.
Eles se concentram no design da ontologia e conectam a ontologia à representação do ambiente subjacente (Zender et al., 2008; Tenorth et al., 2010).
Por exemplo, o trabalho de (Pronobis e Jensfelt 2012) mostra como integrar diferentes modalidades de sensores e funções de inferência de ontologia para inferir categorias de salas semânticas.
O uso da tecnologia semântica da Web para representar mapas ambientais também permite que os robôs troquem informações com outras plataformas através da nuvem (Riazuelo et al., 2015).
Acreditamos que esses tipos de métodos complementam nosso trabalho, porque as categorias semânticas em nossa estrutura podem ser integradas e associadas às ontologias existentes. Por exemplo, em (Young e outros 2017a), suposições relacionadas a objetos são associadas a bases de conhecimento semânticas estruturadas (como DBpedia1 e WordNet) (Fellbaum 1998)

(Elfring et al., 2013) propuseram uma estrutura para aterrar objetos em dados de sensores de forma probabilística. Em geral, nossa estrutura não faz suposições fortes sobre como os objetos observados pelo robô são aterrados.
Em vez disso, o aterramento do objeto precisa ser especificado ou aprendido pelo usuário na camada de interpretação da estrutura (consulte a seção 3.3).

(Bastianelli et al., 2013) propuseram um método interativo online e avaliação da construção de gráficos semânticos (Gemignani et al., 2016). Da mesma forma, nosso trabalho suporta a marcação de multidão de objetos encontrados (consulte a seção 3.5). No entanto, nosso método está offline e foi projetado para funcionar de forma assíncrona.

Nosso trabalho é semelhante a (Mason e Marthi 2012) e (Herrero, Castano e Mozos 2015), ambos dedicados à consulta semântica de mapas em ambientes dinâmicos.
(Herrero, Castano e Mozos, 2015) propuseram um método baseado em um banco de dados relacional que armazena informações semânticas sobre os objetos, salas e os relacionamentos necessários para a navegação de robôs móveis.
Nosso método é semelhante porque também considera objetos e áreas no espaço (mas não apenas salas).
No entanto, em nosso método, o relacionamento entre objetos e regiões
não precisa ser explicitamente modelado, mas pode ser inferido usando o raciocínio espacial.
(Mason e Marthi 2012) Foco na consulta semântica e detecção de alterações de objetos. No trabalho, os objetos representam áreas ocupadas geometricamente diferentes em um plano e suas posições são descritas no quadro de referência global.
Em vez disso, nosso trabalho pode distinguir entre objetos desconhecidos, objetos classificados e instâncias de objetos conhecidas. Através da indexação espacial, podemos associar objetos a sistemas de referência locais, globais e robóticos. Além disso, podemos associar objetos a regiões e trajetórias humanas.

O mais semelhante ao nosso método é a estrutura de mapeamento semântico de (Deeken, Wiemann e Hertzberg 2018). Sua estrutura visa manter e analisar dados espaciais de modelos de ambientes multimodais. Ele usa um banco de dados espacial para armazenar dados métricos e vincula-os a descrições semânticas por meio de anotações semânticas. Dados espaciais e semânticos podem ser consultados na estrutura para usar topologia e informações semânticas para expandir o gráfico métrico. Esse design e função são muito semelhantes à nossa abordagem.
No entanto, nosso método vai além das informações espaciais e semânticas, porque também contém informações de tempo sobre objetos, regiões e pessoas. Portanto, ele permite que robôs e usuários deduzam não apenas configurações estáticas, mas também eventos estendidos temporariamente, como atividades diárias.

 

3. quadro soma

A Figura 1 fornece uma visão geral conceitual da estrutura projetada. A estrutura consiste em duas partes: (1) núcleo do SOMA e (2) um conjunto de extensões (ou ferramentas) do SOMA.
No geral, o núcleo possui quatro níveis. Essas três camadas horizontais são interconectadas e gerenciam informações em diferentes níveis de abstração: da observação (ou seja, dados brutos do sensor) e sua interpretação aos conceitos semânticos. Essas três camadas são responsáveis ​​pela representação no SOMA.
A camada de interface vertical fornece acesso aos três níveis. Um conjunto de extensões (ou ferramentas) usa essa camada para visualizar, editar, consultar e estender o gráfico de objetos semânticos. Isso permite que os engenheiros de conhecimento os expandam e analisem. Da mesma forma, robôs e aplicativos de usuário podem acessar e gerenciar mapas através da camada da interface.

Agora, vamos considerar o processo de armazenamento de novas informações no SOMA. Primeiro, os valores de observação do robô são armazenados na forma de dados brutos do sensor e a indexação espaço-temporal é realizada na camada de observação. Segundo, a camada de interpretação usa métodos perceptivos (como segmentação, reconhecimento de objetos, classificação de objetos e rastreamento de pessoas) para analisar essas observações, mesclar os resultados e gerar uma descrição consistente no nível semântico. Finalmente, observação, interpretação e descrição semântica são interligadas para
permitir que o robô as consulte em vários níveis usando espaço, tempo e / ou restrições semânticas.

camada de 3,2 obseravation

O papel da camada de observação é armazenar dados brutos não processados ​​do sensor do robô, bem como quaisquer metadados que possam ser úteis quando o sistema interpreta e processa os dados.
Para esse fim, a camada de observação armazena informações dos sensores do robô durante a tarefa de aprendizado.
Todas as outras camadas do SOMA também acessam esses dados armazenados.
As vistas que armazenamos contêm dados da percepção de movimento de um único robô e coletam uma série de vistas como fragmentos.
Para nossa tarefa de aprendizado de objetos, uma única visualização armazena uma nuvem de pontos, imagens RGB, imagens de profundidade, a pose atual do robô e todas as transformações variadas.
Uma série de visualizações selecionadas pelo algoritmo de planejamento de coleção de fragmentos para uma tarefa de aprendizado específica.
Fragmentos e visualizações também podem ter tags de metadados anexadas, o que permite que vários canais perceptivos diferentes (talvez todos usando padrões diferentes para acionar, controlar e interpretar dados de tarefas de aprendizado) usem o mesmo banco de dados.

 

Um dos nossos objetivos de projeto é fornecer um método para armazenar dados brutos de percepção do robô, o que nos permitirá regenerar completamente o banco de dados SOMA e executar todas as etapas de processamento necessárias nesse processo. Desde que você forneça uma cópia da camada de observação do robô, isso pode ser alcançado, porque a observação original que acompanha pode ser reproduzida como uma reprodução em tempo real.
Essa é uma função essencial da avaliação de diferentes algoritmos de percepção e pipelines acima ou abaixo do robô. Esse recurso também ajuda a melhorar a tolerância a falhas.Por exemplo, se o robô for executado por um período de tempo, mas um erro for perdido na camada de segmentação ou reconhecimento de objetos, podemos corrigir o erro e regenerar completamente o banco de dados da camada de observação e usar o novo O sistema corrigido processa os dados sem causar perda de dados.

 

3.3 Camada de explicações

A camada de interpretação recebe informações da camada de observação e contém principalmente métodos específicos de aplicativos para processamento de dados.
A camada de observação pode ser vista como um invólucro em torno do sensor do robô, enquanto a camada de interpretação é considerada parte do sistema para processamento de dados específico da aplicação.
No aprendizado de objetos, a primeira etapa da interpretação é aplicar algoritmos de segmentação, como segmentação baseada em profundidade ou redes de propostas de regiões, para extrair propostas de objetos para processamento adicional.
O SOMA fornece um método para construir a saída de tais algoritmos de segmentação, fornecendo uma estrutura de objeto semelhante a um gráfico de cena.
Isso fornece ferramentas para armazenar dados sobre um único objeto segmentado e seu relacionamento com vistas e plotagens, além de permitir que os desenvolvedores organizem observações de objetos ao capturar outras vistas.
A escolha exata de algoritmos para segmentação de cena, rastreamento de objetos entre visualizações e outros aspectos é deixada para os desenvolvedores como parte de seu próprio design de camada de interpretação dedicado.

Depois que o pipeline de interpretação processa e filtra a saída bruta do sensor fornecida pela camada de observação, objetos SOMA avançados podem ser construídos a partir dos dados processados.
Esse exemplo é mostrado na Figura 2. Objetos avançados representam os resultados do processamento, e a saída dos algoritmos de reconhecimento de objetos pode ser gravada em uma série de visualizações do objeto, em um modelo 3D mesclado construído a partir de múltiplas visualizações e em metadados.
Esses objetos de alto nível estão vinculados às observações de baixo nível que os compõem, e os desenvolvedores podem ir e voltar do objeto mesclado completo para seus componentes, conforme necessário.
Esses objetos podem ser usados ​​em outros aplicativos criados no SOMA - eles podem ser exibidos ao usuário final no aplicativo de etiqueta, enviados por email, publicados, visualizados no site e usados ​​no aplicativo para encontrar os que estão faltando. Cup, para processamento adicional ou qualquer outro conteúdo que o desenvolvedor possa desejar.

A camada de explicação parece quase pronta, e o que mais?

3.4 Camada semântica

A camada semântica armazena conhecimento de alto nível extraído das observações do robô (consulte a Tabela 1).
O conhecimento de alto nível pode ser as instâncias de objetos identificadas recebidas de vários pipelines de reconhecimento / detecção ou os objetos rastreados a partir do pipeline de segmentação / rastreamento.
Cada instância de dados de alto nível armazena informações de espaço-tempo, para que o desenvolvimento do conhecimento sobre cada instância de objeto possa ser mantido e recuperado.
Além disso, cada objeto SOMA de alto nível é vinculado a outras camadas SOMA por meio do ID SOMA para acessar todo o conhecimento sobre o objeto na estrutura.

Além disso, a camada semântica pode armazenar outras informações sobre objetos, como modelos 3D, imagens de câmera e qualquer tipo de metadado para criar uma base de conhecimento completa. As informações de alto nível armazenadas podem ajudar os usuários a entender a semântica de vários ambientes, permitindo que os robôs executem um raciocínio de alto nível para concluir tarefas como descobrir e / ou pegar objetos.

 

3.5 Camada de interface e outras extensões

A camada de interface serve como espinha dorsal entre diferentes camadas SOMA e usuários para a troca de dados. Dessa maneira, os robôs / usuários podem usar extensões SOMA e outros aplicativos para inserir, excluir, atualizar e consultar dados (Figura 3).

O SOMAEdit permite que os usuários criem cenas virtuais sem nenhum dado percebido. Usando este editor, os usuários podem adicionar, excluir ou mover objetos e áreas na parte superior do gráfico de métricas.

O SOMAQuery permite que os usuários consultem o mapa usando restrições semânticas, espaciais e / ou temporais.
A consulta pode perguntar a todos os objetos de um determinado tipo ("selecione todos os copos").
Essas consultas podem ser ainda mais limitadas por restrições de espaço-tempo ("selecione todas as xícaras na sala de reuniões na segunda-feira entre 10: 00-12: 00"). As restrições espaciais podem ser usadas para determinar se as entidades espaciais estão próximas a outra entidade, dentro de uma entidade (área) ou se elas cruzam outra entidade. As restrições de tempo podem ser expressas usando pontos ou intervalos de tempo. Para descobrir padrões de tempo e processos periódicos, o dia do dia, o dia da semana e o dia do mês são particularmente importantes.

 

O artigo é muito claro, mas parece que não envolve se o objeto pertence à mesma instância. . Além disso, o reconhecimento e a segmentação de objetos sempre foram realizados através de algoritmos de imagem. .

 

4. Implementação

Implementamos o SOMA2 com base no ROS e no MongoDB. A estrutura geral de implementação da estrutura é mostrada na Figura 4.
O ROS é usado como a espinha dorsal de toda a estrutura SOMA, porque é a plataforma mais usada na comunidade de pesquisa em robótica.
As várias camadas e componentes do SOMA são desenvolvidos como nós ROS, para que cada um deles possa se comunicar com qualquer outro componente ROS.
A estrutura de dados usada para armazenar objetos SOMA é ela própria uma mensagem ROS composta por tipos ROS primitivos. Desde que sejam construídos na pilha ROS, isso fornece uma interface comum entre sistemas.

 

5. Avaliação

Nosso trabalho é motivado pelo projeto europeu STRANDS (Hawes et al., 2016). No STRANDS, investigamos as representações e atividades espaço-temporais em cenários de longo prazo. Neste projeto, estamos interessados ​​em prestar serviços aos seres humanos em nosso ambiente diário. As tarefas executadas pelo nosso robô incluem pesquisa de objetos, descoberta de objetos e reconhecimento de atividades e análise de movimento. Nesse caso, realizamos uma série de implantações de robôs em um ambiente de escritório real por um período de vários meses e avaliamos esse trabalho.

O SOMA foi implantado muitas vezes em dois locais diferentes no Reino Unido (Transport System Catapult (TSC) e instalações pertencentes ao Group 4 Security (G4S)). Relataremos os detalhes dessas implantações para as três principais entidades representadas no SOMA: objetos, áreas e trajetórias.

Como mencionado acima, embora o SOMA tenha sido usado como uma tecnologia básica para o desenvolvimento de sistemas de percepção de robô mais avançados e poderosos, ele também desempenha um papel fundamental em muitas aplicações de robô orientadas ao usuário.
A Figura 5 mostra um pequeno conjunto de amostras aprendidas pelo robô usando o pipeline de percepção (Young e outros 2017b) no local de implantação da ejeção do sistema de transporte (TSC). Em particular, a imagem 2D do objeto é usada para passar para uma rede neural convolucional (CNN) para reconhecimento (como Young e outros 2017b; 2017a) e para o usuário final do site para reconhecimento.
Tags em tempo real.
O SOMA também é uma plataforma de coleta de dados - nós a usamos para armazenar e distribuir cenas para anotações offline por anotadores humanos no futuro.
O desempenho da SOMA nesse sentido depende do canal de percepção que fornece informações a ela. No geral, durante a primeira e a segunda implantação do TSC, o sistema armazenou 141 cenas e 341 cenas, respectivamente. O design do SOMA significa que essas cenas podem ser reprocessadas offline posteriormente, se necessário, diferentes canais de percepção, algoritmos ou filtros podem ser usados ​​para extrair objetos diferentes ou tipos diferentes de informações. A Tabela 2 mostra a comparação entre os pipelines de aprendizado de objetos usados ​​no terceiro ano (Y3) e no quarto ano (Y4) do site da TSC.

Na primeira implantação do TSC (Y3), o SOMA foi usado para fornecer um relatório de objetos encontrados na superfície predefinida do site (Figura 6). Quando o robô executa sua tarefa normal de aprendizado de objetos, ele gera um relatório e o apresenta em uma interface de blog baseada na Web para o usuário final acessar.

Em outro trabalho experimental, designamos as duas superfícies no site da TSC como "tabelas de aprendizado", onde os funcionários do escritório podem trazer objetos para o aprendizado de robôs. O robô visitará a mesa duas vezes por dia e tentará aprender e identificar os objetos encontrados. Usando a CNN (com 1000 categorias possíveis) treinadas em um grande banco de dados de imagens, ele publicará tweets sobre eles enquanto tenta identificá-los.
Internamente, o sistema é implementado através da função de notificação do SOMA (que permite que novos objetos sejam importados para o sistema) e, em seguida, a função aciona o processo de reconhecimento e liberação de objetos, passando imagens 2D de objetos inseridos no SOMA para essas funções.

Na última implantação de longo prazo do site TSC (Y4), usamos um pipeline de detecção de objetos baseado em CNN.
O pipeline pode detectar 20 tipos de objetos, incluindo pessoas, cadeiras, monitores, etc., e pode usar as informações de profundidade registradas para extrair vistas 3D parciais dos objetos.
Dessa forma, a posição do objeto e o mapa métrico global em relação ao robô podem ser identificados.
A Fig. 7 mostra um exemplo de uma cadeira detectada e uma vista 3D parcial extraída. Em seguida, os objetos detectados são armazenados como objetos SOMA avançados com informações espaço-temporais. A Tabela 3 mostra algumas estatísticas detalhadas sobre os objetos detectados usando esse pipeline durante a implantação. Os resultados mostram que, se o robô trabalha em um ambiente de escritório, os objetos detectados são no máximo cadeiras, pessoas e monitores (Tabela 3).

Também usamos a interface SOMAQuery para analisar o aspecto do tempo da implantação do Y4 da perspectiva da percepção avançada de objetos do SOMA.
A Tabela 4 mostra as estatísticas diárias de reconhecimento de objetos ao longo do processo de implantação, excluindo a hora do dia. Como você pode ver na tabela, o robô está ativo a maior parte do tempo na quarta e quinta-feira e nunca o usou para a percepção de objetos nos fins de semana.
Também é possível observar que o robô é mais ativo à tarde, mas raramente é usado durante o horário de folga (depois das 17:00). Durante toda a implantação do Y4, o robô detectou um total de 930 objetos SOMA avançados.

 

 

 

Esse grupo é realmente forte, o soma é realmente bom. Este artigo não parece envolver essas poucas questões: o movimento, a aparência e o desaparecimento de instâncias em cenas dinâmicas, ou seja, sua percepção é irrelevante no tempo.

 

Acho que você gosta

Origin www.cnblogs.com/zherlock/p/12709174.html
Recomendado
Clasificación