Explaining video summarization based on the focus of attention

Περίληψη

Σε αυτό το άρθρο προτείνουμε μια μέθοδο για την επεξήγηση της περίληψης ενός βίντεο. Ξεκινάμε διατυπώνοντας το πρόβλημα ως τη δημιουργία μιας μάσκας επεξήγησης που υποδεικνύει τα μέρη του βίντεο που επηρέασαν περισσότερο τις εκτιμήσεις ενός δικτύου περίληψης βίντεο, σχετικά με τη σημασία των καρέ του. Στη συνέχεια, εξηγούμε πώς μπορεί να χρησιμοποιηθεί ο τυπικός αγωγός ανάλυσης δικτύων περίληψης βίντεο που βασίζονται στην αυτοπροσοχή για τον καθορισμό σημάτων επεξήγησης, και εξετάζουμε διάφορα σήματα που βασίζονται στην προσοχή που έχουν μελετηθεί ως επεξηγήσεις στον τομέα του NLP. Αξιολογούμε την απόδοση αυτών των σημάτων διερευνώντας τη σχέση εισόδου-εξόδου του δικτύου περίληψης βίντεο σύμφωνα με διαφορετικές συναρτήσεις αντικατάστασης, και χρησιμοποιώντας μετρικές που ποσοτικοποιούν την ικανότητα των επεξηγήσεων να εντοπίσουν τα μέρη ενός βίντεο με τη μεγαλύτερη και τη μικρότερη επιρροή. Εκτελούμε πειράματα χρησιμοποιώντας ένα δίκτυο που βασίζεται στην αυτοπροσοχή (CA-SUM) και δύο σύνολα δεδομένων (SumMe και TVSum). Οι αξιολογήσεις μας υποδεικνύουν την προχωρημένη απόδοση των επεξηγήσεων που σχηματίζονται χρησιμοποιώντας τα εγγενή βάρη προσοχής, και καταδεικνύουν την ικανότητα της μεθόδου μας να εξηγεί τα αποτελέσματα της περίληψης βίντεο χρησιμοποιώντας ενδείξεις σχετικά με την εστίαση του μηχανισμού προσοχής.

Δημοσίευση
Στο IEEE Int. Symposium on Multimedia (ISM) 2022
Γεώργιος Μπαλαούρας
Γεώργιος Μπαλαούρας
Data Scientist

Τα ερευνητικά μου ενδιαφέροντα περιλαμβάνουν μεθόδους επεξεργασίας και ανάλυσης πολυμέσων.

Σχετικά