GitHub - breno-helf/parallel-matrix-mult: Multiplying two matrices in CPU in the fastest way possible.

Integrantes da dupla

Nome: Breno Helfstein Moura |||| NUSP: 9790972
Nome: Pedro Pereira |||| NUSP: 9778794

Guia de execução

Para executar o ep basta executar 'make all' e executar os comandos como especificados no enunciado, isto é:

            main <implementação> <caminho_matr_A> <caminho_matr_B> <caminho_matr_C>

onde <implementação> é 'p' quando executado no modo Pthreads ou 'o' quando executado no modo OpenMP.

Decisões de projeto

Para esse projeto foram tomadas algumas decisões para otimizar a multiplicação de matrizes. Seguindo as dicas do enunciado, conseguimos otimizar o cache transpondo a matriz B. Isto é, quando fazemos a multiplicação de matrizes A * B, transpomos a matriz B para facilitar o acesso e diminuir o número de "Cache Miss". Assim fizemos as seguintes mudamos:

~ Código sequencial original, com muito cache miss:

for (ulli i = 0; i < A->hei; i++) {
	for (ulli j = 0; j < B->hei; j++) {
	    sum = 0;
		for (ulli k = 0; k < A->len; k++) {
			sum += A->m[i][k] * B->m[k][j];
    	}
    	mat->m[i][j] = sum;
	}
}

~ Código sequencial alternativo, com menos cache miss:

transpose(B);
for (ulli i = 0; i < A->hei; i++) {
	for (ulli j = 0; j < B->hei; j++) {
	    sum = 0;
		for (ulli k = 0; k < A->len; k++) {
			sum += A->m[i][k] * B->m[j][k];
    	}
    	mat->m[i][j] = sum;
	}
}

Além disso, paralelizamos o código com OpenMP e Pthreads (como pedido no enunciado). Para paralelizar a execução tivemos abordagens ligeiramente diferentes com pthreads e com OpenMP. Com OpenMP optamos por paralelizar ambos os for externos, utilizando dois "#pragma omp parallel for private(sum)", para os "for" que iteram pelos indices da matriz resultado (e consequentemente pelos indices de A e B). Já com Pthreads optamos de dividir o primeiro for externo em "Pedaços" (Chunks) e separá-los entre as threads. Chegamos a conclusão que 32 threads era um número bom para as threads. Também foi utilizado "unsigned long long int" para a indexação das matrizes, assim como indicado nas dicas no enunciado.

Para a matriz que testamos, e está sendo entregue junto com o EP, tivemos os seguintes resultados:

Time elapsed in sequential: 31.417396s
Time elapsed with transposition: 12.213758s
Time elapsed in parallel with OpenMP: 7.466603s
Time elapsed in parallel with Pthreads: 6.370319s

O computador utilizado tem as seguintes especificações de hardware:

Processador: i5-6200U @ 2.3 GHz
Memória RAM: 8GB RAM DDR4 @ 2300MHz

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
Makefile		Makefile
README.md		README.md
generate_matrices.py		generate_matrices.py
main.c		main.c
matrix_ops.c		matrix_ops.c
matrix_ops.h		matrix_ops.h
multiply_ops.c		multiply_ops.c
multiply_ops.h		multiply_ops.h
test.h		test.h
test.mat		test.mat
test_A.mat		test_A.mat
test_B.mat		test_B.mat
utils.c		utils.c
utils.h		utils.h

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Integrantes da dupla

Guia de execução

Decisões de projeto

About

Releases

Packages

Languages

breno-helf/parallel-matrix-mult

Folders and files

Latest commit

History

Repository files navigation

Integrantes da dupla

Guia de execução

Decisões de projeto

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages