A fim de auxiliar no monitoramento da saúde e do status das árvores, usamos Redes Neurais de Gráficos para geo-localizá-las em ambientes urbanos de maneira automatizada e eficiente.

Por que monitorar árvores nas ruas?

Cidades que tem imobiliária piracicaba em todo o mundo iniciaram esforços para combater o aumento sem precedentes das temperaturas e das ondas de calor causadas pelas “ilhas de calor urbanas”, que são o resultado da cobertura de terrenos naturais com superfícies impermeáveis (concreto, calçadas, edifícios, etc.). Acontece que a solução é simples, plante mais árvores. As árvores fornecem sombra que cobre as superfícies impermeáveis, dispersando a radiação, enquanto liberando pequenas quantidades de vapor de suas folhas criando um efeito de resfriamento. Outra razão para monitorar a árvore é permitir estudos de saúde da árvore de longo prazo.

A geolocalização de árvores em ambientes urbanos como a imobiliária em piracicaba manualmente por meio de levantamentos in-situ de equipes de campo ou voluntários é uma tarefa trabalhosa, especialmente em grandes cidades, isso se torna inviável. Felizmente, usando o aprendizado profundo, podemos “rastejar” pelas imagens disponíveis de uma cidade e realizar essa tarefa em grande escala com poucos recursos e mão de obra.

Nossa tarefa é detectar, reidentificar e localizar objetos estáticos (precisamente árvores) em ambientes urbanos usando várias fontes e várias visualizações. A maioria dos métodos requer sequências de imagens com profundidade, incluem câmeras com valores intrínsecos e extrínsecos ou realizam a tarefa em vários estágios. Utilizamos Redes Neurais de Grafo (GNNs) para conseguir isso de maneira flexível e eficiente.

Mantenha a simplicidade, sem a necessidade de sensores extras …

Contamos apenas com imagens com geo-tags que já estão disponíveis para fins gerais, como Street View e imagens com geotags de mídia social. Acreditamos que seja desnecessário usar um equipamento especial com sensores ou câmeras de profundidade e que depender dos metadados e da geometria das imagens para realizar essa tarefa é suficiente.

O que você quer dizer com geometria?

Juntamente com os recursos visuais, as imagens vêm com metadados úteis. Esses metadados geralmente incluem o rumo da câmera e as coordenadas geográficas. Usando a geometria, podemos atribuir geo-coordenadas aos pixels dentro da imagem e vice-versa: encontrando pixels correspondentes às geo-coordenadas. (explicado em detalhes em nosso artigo)

imobiliária piracicaba

Criamos uma ferramenta da web para demonstrar essas funções em ação. Primeiro, clique em qualquer lugar que desejar na rua para capturar os 4 panoramas mais próximos desse local. Então, se você mover o mouse ao redor, ele agarrará a geo-coordenada e projetará em pixels dentro das 4 visualizações.

Essas funções de projeção nos fornecem uma estimativa aproximada de uma localização, o que nos ajuda a prever quais árvores correspondem umas às outras em múltiplas visualizações, e não a contar uma instância de uma árvore mais de uma vez.

Representando a cena como um gráfico.

Em contraste com nossos trabalhos anteriores (Wegner et al., 2016, Nassar et al., 2019), representamos nossos dados como gráficos, com os nós representando as árvores e as bordas entre eles representando a correspondência entre as diferentes instâncias dos objetos . Os nós carregam as características CNN do objeto, enquanto as arestas carregam o valor de verdade ([0,1]) se for uma correspondência ou não. Essa configuração nos dá a flexibilidade de ter um número variável de imagens e destinos como entrada.

Isso define nosso problema como uma tarefa de “predição de link”, que pode ser resolvida com Redes Neurais de Grafo (GNNs)

Um método ponta a ponta.

Esforçamo-nos com este trabalho para chegar a um método de ponta a ponta que não seja composto de vários estágios que precisam ser treinados separadamente e ajustados em termos de parâmetros. Por isso, criamos um método que poderia combinar a correspondência dos objetos na cena para evitar a contagem dupla e fornecer a geolocalização.

imobiliária em piracicaba

Nosso método funciona seguindo estas etapas:

Um lote de imagens de múltiplas visualizações e os metadados de câmera correspondentes são passados ​​pela rede backbone (EfficientNet) e o agregador de recursos em várias escalas (BiFPN) do detector de objetos que fornece diferentes níveis de recursos.

As âncoras são então geradas nas camadas de feições e passadas por duas sub-redes para fornecer classificação e previsões de caixa delimitadora. Com base na IoU da verdade fundamental com as âncoras, selecionamos as âncoras positivas e negativas.

Os recursos dessas âncoras são usados ​​para gerar um gráfico denso totalmente conectado.

O gráfico é então enviado a um GNN para prever se os nós devem ser correspondidos, classificando a aresta que os conecta. Em paralelo, as caixas delimitadoras regredidas das âncoras positivas são passadas para a Rede de Geo-localização para regredir a geo-coordenada.

Como são os resultados.

Aqui estão alguns resultados de exemplo para as diferentes saídas, detecção de objetos junto com re-identificação e previsão de geolocalização.

Em conclusão.

Apresentamos um detector multivisualização de ponta a ponta que reidentifica e localiza objetos estáticos. Este método integra redes neurais de grafos que adicionam flexibilidade na re-identificação, tornando possível acomodar qualquer número de visualizações e ainda ser computacionalmente eficiente. Além disso, nossa abordagem é robusta à oclusão, objetos vizinhos de aparência semelhante e mudanças severas nos pontos de vista. Isso é obtido usando apenas imagens RGB junto com seus metadados.