GitHub - kevjshih/wtl_vqa: Released code for the paper: Where To Look: Focus Regions for Visual Question Answering. (CVPR2016)

REQUIREMENTS:

MATLAB 2015a or newer (for native python support) MatConvNet beta19 http://www.vlfeat.org/matconvnet/

SETUP INSTRUCTIONS:

Create a data directory
Setup directory paths as specified in globals.m. Relevant tarballs specified in comments
Clone the VQA API into the data directory and setup annotations
Install matconvnet beta19 (17 or higher should work) and specify path in startup.m (with CuDNN enabled)
Download the vgg-s model from: http://www.vlfeat.org/matconvnet/models/imagenet-vgg-s.mat
Create results directory to store model snapshots from training
Download and extract text feature caches to top level directory (wget http://xor.cs.illinois.edu/~kevin/wtl_cache_feats/word2vec_cache_utils.tar.gz)

MAIN FUNCTIONS:

word_and_vision_regions_inner_network.m : running this should initialize training. Results stored in opts.train.expDir word_and_vision_regions_inner_network_init.m: constructs the network mcqMaxMarginLossLayer.m: Loss layer implementation regionsProjectInnerLayer2.m: region selection layer implementation determiner_list.m: list of removed stopwords removed from questions globals.m: contains global paths to where cached features are stored.

VISUALIZATION EXAMPLE:

run visualize_on_held_out.m to visualize results on the held-out set. The held out set comprises 10% of the training data from the train set. Our test model can be downloaded from: http://xor.cs.illinois.edu/~kevin/wtl_cache_feats/wtl_trainval_model.mat

DIRECTORIES:

word2vec_cache_utils: directory that holds caches of pre-processed question and answers utils: misc utility functions

This code is provided for academic use only.

If you have any questions about the code, feel free to contact Kevin Shih at [email protected].

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
utils		utils
README.md		README.md
determiner_list.m		determiner_list.m
globals.m		globals.m
mcqMaxMarginLossLayer.m		mcqMaxMarginLossLayer.m
regionsProjectInnerLayer2.m		regionsProjectInnerLayer2.m
startup.m		startup.m
visualize_on_held_out.m		visualize_on_held_out.m
vqa_load_test_qs.m		vqa_load_test_qs.m
vqa_load_testdev.m		vqa_load_testdev.m
vqa_load_testdev_qs.m		vqa_load_testdev_qs.m
vqa_load_train.m		vqa_load_train.m
vqa_load_val.m		vqa_load_val.m
word_and_vision_regions_conf_train.m		word_and_vision_regions_conf_train.m
word_and_vision_regions_inner_network.m		word_and_vision_regions_inner_network.m
word_and_vision_regions_inner_network_init.m		word_and_vision_regions_inner_network_init.m
word_and_vision_regions_network_getBatch.m		word_and_vision_regions_network_getBatch.m
word_and_vision_regions_network_visualize_regions.m		word_and_vision_regions_network_visualize_regions.m

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

REQUIREMENTS:

SETUP INSTRUCTIONS:

MAIN FUNCTIONS:

VISUALIZATION EXAMPLE:

DIRECTORIES:

About

Releases

Packages

Languages

kevjshih/wtl_vqa

Folders and files

Latest commit

History

Repository files navigation

REQUIREMENTS:

SETUP INSTRUCTIONS:

MAIN FUNCTIONS:

VISUALIZATION EXAMPLE:

DIRECTORIES:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages