LLM-Empowered-Text2SQL

Model

Evaluation on Spider

python evaluation.py --gold ../spider/dev_gold.sql --pred ../LLM-Empowered-Text2SQL/result.txt --etype all --db ../spider/database/ --table ../spider/tables.json

sbatch -x paraai-n32-h-01-agent-[1-44],paraai-n32-h-01-agent-[48-56],paraai-n32-h-01-agent-[63-100] --gpus=1 ./run.sh

ClickHouse Datasource

"What's on the Menu?" dataset

Finetune

deepspeed --num_gpus 2 finetune_deepseekcoder.py
--model_name_or_path /date1/luzhan/projects/deepseek-ai/deepseek-coder-6.7b-instruct
--data_path /date1/luzhan/projects/LLM-Empowered-Text2SQL/dataset.json
--output_dir ./output
--num_train_epochs 3
--model_max_length 1024
--per_device_train_batch_size 4
--per_device_eval_batch_size 1
--gradient_accumulation_steps 4
--evaluation_strategy "no"
--save_strategy "steps"
--save_steps 100
--save_total_limit 100
--learning_rate 2e-5
--warmup_steps 10
--logging_steps 1
--lr_scheduler_type "cosine"
--gradient_checkpointing True
--report_to "tensorboard"
--deepspeed configs/ds_config_zero3.json
--bf16 True

merge

python src/export_model.py \
    --model_name_or_path ../deepseek-coder-7b-instruct-v1.5 \
    --adapter_name_or_path ./output_2 \
    --template deepseekcoder \
    --finetuning_type lora \
    --export_dir ./merged_2 \
    --export_size 10 \
    --export_legacy_format False

python3 evaluation.py \
    --gold ../spider/dev_gold.sql \
    --pred ../LLM-Empowered-Text2SQL/public_dataset/bench/spider_dev_quant4bit.txt \
    --table ../spider/tables.json \
    --db ../spider/database/ \
    --etype all > 20240530_quant4bit.log

python3 evaluation.py \
    --gold ../spider/test_data/dev_gold.sql \
    --pred ../LLM-Empowered-Text2SQL/public_dataset/bench/spider_test.txt \
    --table ../spider/test_data/tables.json \
    --db ../spider/test_database/ \
    --etype all > 20240619_spider_test.log

python -m vllm.entrypoints.openai.api_server \
    --model facebook/opt-125m
python -m vllm.entrypoints.openai.api_server \
    --served-model-name deepseek \
    --model /home/data2/luzhan/projects/local_models/Qwen2-7B-Instruct \
    --max-model-len 16384 \
    --gpu-memory-utilization 0.90 \
    --tensor-parallel-size 2 \
    --port 8001
    # --disable-log-requests \

# --quantization awq \
    # --enable-lora \
    # --lora-modules sql-lora=/home/data2/luzhan/projects/LLM-Empowered-Text2SQL/finetuned_model/merged

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
text2sql		text2sql
.env.template		.env.template
.gitignore		.gitignore
README.md		README.md
app.py		app.py
benchmark.py		benchmark.py
build_finetune_dataset.py		build_finetune_dataset.py
build_graph.ipynb		build_graph.ipynb
build_public_dataset.py		build_public_dataset.py
clean.sh		clean.sh
clickhouse_connect.ipynb		clickhouse_connect.ipynb
constants.py		constants.py
extract.ipynb		extract.ipynb
finetune.sh		finetune.sh
inference.py		inference.py
merge.yaml		merge.yaml
police_run.sh		police_run.sh
prompt.py		prompt.py
public2rag_csv.ipynb		public2rag_csv.ipynb
quant.py		quant.py
rag.ipynb		rag.ipynb
rag.py		rag.py
run1.sh		run1.sh
run2.sh		run2.sh
run_all.sh		run_all.sh
start_server.sh		start_server.sh
text2sql_lora_sft.yaml		text2sql_lora_sft.yaml
text2sql_step_1_lora_sft.yaml		text2sql_step_1_lora_sft.yaml
text2sql_step_2_lora_sft.yaml		text2sql_step_2_lora_sft.yaml
tool.py		tool.py
util.py		util.py
valider.ipynb		valider.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLM-Empowered-Text2SQL

Model

Evaluation on Spider

ClickHouse Datasource

Finetune

merge

About

Releases

Packages

Languages

starrysky9959/LLM-Empowered-Text2SQL

Folders and files

Latest commit

History

Repository files navigation

LLM-Empowered-Text2SQL

Model

Evaluation on Spider

ClickHouse Datasource

Finetune

merge

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages