UNIVERSITÀ DEGLI STUDI DI PERUGIA
CORSO DI LAUREA MAGISTRALE IN
INGEGNERIA INFORMATICA E DELL’AUTOMAZIONE
“SVILUPPO DI ALGORITMI DI MACHINE LEARNING PER LA STIMA DEL MOTO
DI UN ROBOT A PARTIRE DAI DATI PROVENIENTI DA SENSORI DI VISIONE”
Laureanda Relatore Correlatore
Alice Migliorati Paolo Valigi Gabriele Costante
Anno Accademico 2016/2017
Università di Perugia
Anno Accademico 2016/2017
End-to-End VO con CNN
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
Strategia di stima End-to-End, Deep VO, che predice il movimento della
videocamera usando una CNN
Deep VO Pipeline Metodo Geometrico
Università di Perugia
Anno Accademico 2016/2017
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
Modellare una funzione 𝑓 che dato l’optical flow di una
coppia di immagini 𝑛 × 𝑚 consecutive, stimi il movimento
della videocamera che lo ha prodotto.
L’input 𝑥 𝜖 𝑋 ⊂ ℝ𝑛×𝑚×3 è la rappresentazione RGB
dell’optical flow denso.
L’output della funzione è un vettore di movimento 𝑦 𝜖 𝑌 ⊂ ℝ6.
input: InputLayer(24,78)
Conv1(64, kernel_size) +
MaxPooling1((4x4), (4x4))
Conv2(20, (3x3)) +
MaxPooling2((2x2), (2x2))
Dense1(n_nodes)
Dense2(6)
• kernel_size 𝜖 [9, 7, 5, 3]
• n_nodes 𝜖 [500, 1000, 2000]
• 𝛽𝜖 [80, 50, 20, 10, 1, 0.10, 0.01]
Università di Perugia
Anno Accademico 2016/2017
Strumenti utilizzati
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
Libreria open source di Deep Learning Keras
Lavora sopra la libreria softwate Tensorflow
Numerose implementazioni di
blocchi di NN comunemente
utilizzati
Università di Perugia
Anno Accademico 2016/2017
Esperimenti
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
• Confronto delle prestazioni tra le varie architettura
• Confronto del metodo proposto, Deep VO, con differenti approcci:
o VISO2-M [3]: visual odometry geometrica monoculare
o CNN-1b VO [4]: approccio che addestra la rete profonda sull’intera
immagine di flusso ottico dopo averla sottocampionata 8 volte con un
average pooling
• Metrica d’errore RMSE della differenza tra le traslazioni e rotazioni predette e
vere
[3] A. Geiger, J. Ziegler e C. Stiller, «Stereoscan: Dense 3D reconstruction in real-time,» Proceedings Intelligent Vehicles Symposium, vol. IV, pp. 963-968, Giugno 2011. [4] G. Costante, T. A. Ciarfuglia, P. Valigi e M. Mancini, «Exploring Representation Learning With CNNs for Frame-to-Frame Ego-Motion Estimation,» IEEE Robotics and Automation Letters, vol. 1, n. 1, Gennaio 2016.
Università di Perugia
Anno Accademico 2016/2017
Esperimenti
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
Università di Perugia
Anno Accademico 2016/2017
Conclusioni
Dipartimento di Ingegneria
Corso di Laurea Magistrale in Ingegneria Informatica e dell’Automazione
• Approccio per la stima dell’egomotion End-to-End basato sulle reti neurali
convoluzionali
• Analisi di diverse architetture e delle loro performance
• Gli esperimenti mostrano che con le CNN si raggiungono ottimi risultati
nell’apprendimento
• Parametri di una rete devono essere settati con molta attenzione per poter raggiungere
prestazioni migliori
• Problema del bias del dataset rimane un problema aperto
• Testare l’approccio proposto su sequenze degradate artificialmente ed esplorare anche i
miglioramenti che possono essere raggiunti con strategie integrative quali bundle
adjustment, stima della scala o loop closing
• In generale il deep learning risulta essere un approccio molto promettente nella visual
odometry