GitHub

설치 조건

필요 library

https://github.com/tatp22/multidim-positional-encoding
https://docs.wandb.ai/quickstart
scikit-learn 필요
최소 pytorch 버전 1.13.1

Tokenizer

주어진 basic block을 있는 그대로 tokenize하기 위해 사용
기존에 사용하던 tokenizer는 instruction에 canonicalized을 적용해서 암시적인 정보를 추가로 제공함, 하지만 필요한 정보를 추출하는 과정에서 정보 손실이 일어남.

Tokenize 과정

각각 명령어의 시작과 끝에 <START, <END> 추가
- 첫 번째 명령어에는 <START> 대신에 <BLOCK_START>
- 마지막 명령어에는 <END> 대신 <BLOCK_END>
특수기호들도 하나의 토큰으로([ ] +’, ‘-’, ‘,’)
- [
- ]
- +
- -
- *
- ,
- :
0x로 시작하는 constant:
- constant = 0: <ZERO_{constant_byte_size}_BYTES>로 변경
- constant ≠ 0: <NUM_{constant_byte_size}_BYTES>로 변경
- 예시) 0x03 ⇒ <NUM_1_BYTES>
  
  0x00000012 ⇒ <NUM_4_BYTES>
  
  0x0000 ⇒ <ZERO_2_BYTES>
  
  0x00 ⇒ <ZERO_1_BYTES>
tokenizer 사용시 처음 보는 토큰은 <UNK> 토큰으로 변경

예시)

push   rbx
test   byte ptr [rdi+0x0e], 0x01

tokenizer 사용시

<BLOCK_START> push rbx <END>
<START> test byte ptr [ rdi + <NUM_1_BYTES> ] , <NUM_1_BYTES> <BLOCK_END>

Name		Name	Last commit message	Last commit date
Latest commit History 74 Commits
LSTM/ithemal_gpu/inputs		LSTM/ithemal_gpu/inputs
config		config
data		data
datasets		datasets
inputs		inputs
losses		losses
lr_schedulers		lr_schedulers
model_resources		model_resources
models		models
optimizers		optimizers
.gitignore		.gitignore
README.md		README.md
add_missing_cat_mean_graph.py		add_missing_cat_mean_graph.py
class_dict_builder.py		class_dict_builder.py
dumper.py		dumper.py
experiment.py		experiment.py
handle_inputs.py		handle_inputs.py
loss_reporter.py		loss_reporter.py
run.sh		run.sh
run_DeepPM.py		run_DeepPM.py
run_test.py		run_test.py
run_test.sh		run_test.sh
run_test_only.py		run_test_only.py
run_test_only.sh		run_test_only.sh
train.py		train.py
train_loop.py		train_loop.py
utils.py		utils.py
wandb_log.py		wandb_log.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

설치 조건

필요 library

Tokenizer

Tokenize 과정

About

Releases

Packages

Languages

gyujinkim96/deeppm

Folders and files

Latest commit

History

Repository files navigation

설치 조건

필요 library

Tokenizer

Tokenize 과정

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages