Thứ Bảy, 8 tháng 2, 2014
Thu thập và tổ chức dữ liệu gene phục vụ nghiên cứu cây trồng biến đổi di truyền
v
SUMMARY
“COLECTING AND ORGANIZING GENE DATA SERVES GENETIC
MODIFIED PLANT RESEARCHES” by TRUNG NGUYEN KY and TRUNG
LE THANH in 9/2005.
Supervisors: Assoc. prof. PhD. THANH BUI THO
PhD. TRI BUI MINH
PhD. VU NGUYEN CONG
The purpose of this research is to collect, orgarnize gene data to surve research in
genetic modified plant. The research was carried out at the Chemical and Biological
Analysis and Experiment Center and the practical network department (in the
Information Facuty at Nong Lam University).
The process was devided in various phases as following:
Accessing articles about GM plants on the internet with two web search
engines Google and Scirus.
Accessing comparing and selecting sequences of interest from the
GenBank at NCBI with Entrez and BLAST tools.
Organizing data with Perl language.
Processing data, designing user interfaces with Biojava, Java Servlet
technology in combination with Frontpage and Dreamweaver.
The establishing database allows researchers in the related fields easily to access
and satisfied with basic requirement in genetic research.
vi
MỤC LỤC
Nội dung Trang
Trang tựa ii
Lời cảm ơn iii
Tóm tắt iv
Sumary v
Mục lục vi
Danh sách các chữ viết tắt x
Danh sách các sơ đồ và bảng xi
Danh sách các hình xii
PHẦN A: GIỚI THIỆU 1
I. Đặt vấn đề 1
II. Mục đích của đề tài 2
III. Yêu cầu của đề tài 2
IV. Các giai đoạn tiến hành 3
V. Giới hạn 3
PHẦN B: TỔNG QUAN TÀI LIỆU 4
I. GIỚI THIỆU VỀ SINH HỌC 4
I.1. Cơ sở sinh học về gene 4
I.1.1. Thuật ngữ và quan niệm về gene 4
I.1.2. DNA ở các sinh vật khác nhau 5
I.1.2.1. Sự khác nhau giữa các phân tử DNA 5
I.1.2.2. Cấu trúc acid nucleic 6
I.1.3 Mã di truyền 8
I.1.3.1. Thuật ngữ 8
I.1.3.2. Từ điển mã di truyền 8
I.1.3.3. Ba đặc tính quan trọng của mã di truyền 10
I.1.4 Cấu trúc căn bản của một gene eukaryote 12
I.2. Cơ sở sinh học về chuyển gene 13
vii
I.2.1. Các vấn đề chủ yếu trong việc cải biến di truyền 14
I.2.2. Các phƣơng pháp chuyển gene 14
I.2.3. Những khó khăn trong chuyển gene 17
I.2.4. Sản phẩm của kỹ thuật di truyền 18
I.2.5. Tiềm năng của chuyển gene 19
I.2.5.1. Các chức năng mới trong cải biến di truyền thực vật 19
I.2.5.2. Các tính trạng mới (News traits) 20
I.2.5.3. Sự biểu hiện gene 21
I.2.6. Locus chuyển gene 22
I.3. Hiện trạng sản xuất cây trồng chuyển gene trên thế giới 24
II. GIỚI THIỆU VỀ BIOINFORMATICS 28
II.1. Khái niệm về Bioinformatics 28
II.2. Vài nét về các cơ sở dữ liệu Sinh học 29
II.2.1. NCBI 29
II.2.2. EMBL 29
II.2.3. DDBJ 30
II.3. Vài công cụ Bioinformatics hiện nay 31
II.3.1. Readseq 31
II.3.2. BLAST 31
II.3.3. BLAT 32
II.3.4. ClustalW 32
II.3.5. HMMER 32
II.3.6. MEME/MAST 33
II.3.7. EMBOSS 33
II.4. Ngôn ngữ dùng trong Bioinformatics 34
III. CƠ SỞ TIN HỌC CHO VIỆC XÂY DỰNG CƠ SỞ DỮ LIỆU TRÌNH TỰ 35
III.1. Khái niệm về lập trình 35
III.2. Ngôn ngữ Perl dùnh trong Bioinformatics 39
III.2.1. Giới thiệu Perl 39
III.2.2. Thành phần cơ bản trong Perl 39
III.3. Công nghệ Java ứng dụng trong công việc xử lý dữ liệu Bioinformatics 50
III.3.1. Biojava 50
viii
III.3.2. Biojava và CSDL 50
III.3.3. Tổng quan về công nghệ servlet cho các ứng dụng trên Web 51
III.3.4. Chức năng cơ bản của servlet 52
III.3.5. Thuận lợi của servlet so với các công nghệ thiết kế web khác 53
III.3.6. Sự xây dựng ứng dụng servlet 55
PHẦN C: PHƢƠNG TIỆN VÀ PHƢƠNG PHÁP TIẾN HÀNH 57
I. PHƢƠNG TIỆN 57
I.1. Thiết bị 57
I.2. Thời gian và địa điểm xây dựng CSDL 57
II. TÌM KIẾM DỮ LIỆU BÀI BÁO 58
II.1. Tìm kiếm tổng hợp tính trạng 58
II.2. Tổng hợp dữ liệu Primer dùng trong phát hiện GMO 64
III. TÌM KIẾM DỮ LIỆU TRÌNH TỰ 66
III.1. Tìm kiếm trình tự bằng Keyword 66
III.2. Tìm kiếm trình tự bằng Primer 70
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN 82
I. Kết quả thu đƣợc từ quá trình tìm kiếm ấn phẩm khoa học 82
II. Kết quả thu đƣợc từ quá trình tìm kiếm trình tự trên NCBI 82
II.1. Kết quả tìm kiếm trình tự bằng keyword 83
II.2. Kết quả tìm kiếm trình tự bằng Primer 84
II.3. Dùng Perl xử lý kết quả thu đƣợc 85
II.3.1. Loại bỏ trùng lắp dữ liệu, tổng hợp danh sách tổng hợp 85
II.3.2. Tải trình tự 90
III. Các kết quả thu đƣợc từ quá trình tải trình tự từ Genbank 92
IV. Tổ chức dữ liệu 93
IV.1. Cách thức tổ chức dữ liệu 93
IV.2. Tiến hành tổ chức, phân loại dữ liệu 94
V. Java xử lý dữ liệu 98
V.1. Các yêu cầu đặt ra 98
V.2. Xử lý yêu cầu bằng Java và Biojava 99
V.3. Thiết kế giao diện 101
V.4. Lập trình hiển thị giao diện sử dụng 104
ix
VI. Kết quả giao diện tìm kiếm với dữ liệu tập hợp đƣợc 108
PHẦN E: KẾT LUẬN VÀ ĐỀ NGHỊ 118
I. Kết luận 118
II. Đề nghị 119
TÀI LIỆU THAM KHẢO 121
Phụ lục A 126
Phụ lục B 139
Phụ lục C 152
Phụ lục D 173
Phụ lục E 197
x
DANH SÁCH CÁC CHỮ VIẾT TẮT
A adenine
API application programing interface
BLAST Basic Local Alignment Search Tools
BLAT BLAST-Like Alignment Tool
C cytosine
CDS coding sequence
CGI common gateway interface
CIB the Center for Information Biology
CSDL Cơ sở dữ liệu
DDBJ DNA Data Bank of Japan
DNA deoxyribonucleic acid
EBI the European Bioinformatics Institute
EMBL the European Molecular Biology Laborary
EPSP 5-enolpyruvyl-shikimate-3-phosphate synthase
E-value expected value
G guanine
gi GenInfo Indentifier
Gln Glutamine
GM plant Genetic modified plant
GMO Genetic modified organism
HTML hypertext markup language
HTTP hypertext transfer protocol
ID identify
J2EE Java 2 Enterprise Edition
JDBC Java Database Connectivity
JSP JavaServer page
Met methionine
mRNA messenger ribonucleic acid
NCBI the National Center for Biotechnology Information
NIG the National Institute of Genetics
NIH the National Institutes of Health
NLM the Nation Library of Medicine
NOS noplaine synthase
Phe phenylalanine
RNA ribonucleic acid
SQL Structure Query Language
STDIN standard input
T thymine
T-DNA transfer DNA
tRNA tranfer ribonucleic acid
Trp tryptophan
U uracil
xi
DANH SÁCH CÁC SƠ ĐỒ VÀ BẢNG
Bảng Trang
PHẦN A
PHẦN B
Bảng 1.1: Một số loài đã đƣợc chuyển gene 19
Bảng 1.2: Bảng thống kê danh sách các tính trạng đƣợc chuyển vào cây trồng 24
Bảng 2.1: Bảng liệt kê một số chƣơng trình BLAST 31
Sơ đồ 3.1: Sơ đồ một ứng dụng phần mềm 54
Sơ đồ 3.2: Cấu trúc của một ứng dụng Servlet (Servlet Application) 56
Sơ đồ 3.3: Một cấu trúc phổ biến hơn của một server application 56
PHẦN C
Sơ đồ 2.1: Quy trình tìm kiếm thông tin sinh học 58
Bảng 2.1: Địa chỉ những phƣơng tiện tìm kiếm trên Internet 59
PHẦN D
Sơ đồ 4.1: Mô hình tổ chức một hệ thống ứng dụng 93
xii
DANH SÁCH CÁC HÌNH
Hình Trang
PHẦN A
PHẦN B
Hình 1.1: Sự biểu hiện thông tin di truyền. 4
Hình 1.2: Cấu trúc xoắn kép DNA 6
Hình 1.3: Cấu trúc của các base pyrimidine và purine. 6
Hình 1.4: Cấu trúc của Oligonucleotide 7
Hình 1.5: Chi tiết cấu trúc của chuỗi Polynucleotide. 8
Hình 1.6: Sao chép và dịch mã 9
Hình 1.7: Mã di truyền của nhân (các codon của mRNA) 9
Hình 1.8: Mã di truyền ty thể ngƣời 10
Hình 1.9: Các kiểu wobble trong tế bào chất (ở các hữu nhũ) 11
Hình 1.10: Các trình tự đƣợc sao chép của DNA (gene) 12
Hình 1.11: Cắt DNA Plasmid sử dụng enzyme cắt giới hạn 13
Hình 1.12: Gắn gene chuyển vào vector (Plasmid) 13
Hình 1.13: Plasmid dùng trong chuyển gene đậu nành 15
Hình 1.14: Chuyển gene thông qua môi trƣờng Agrobacterium tumefaciens 16
Hình 1.15: Súng bắn gene đƣợc dùng trong chuyển gene 16
Hình 1.16: Chuyển gene thông qua vi 17
Hình 1.17: Ví dụ cấu trúc di truyền đƣợc dùng ức chế gene UDP 6-glucose
dehydrogenease trong đậu nành. 23
Hình 1.18: Bản đồ một số nƣớc chính có cây trồng chuyển gene lớn trên thế giới 27
Hình 1.19: Diện tích cây trồng chuyển gene các nƣớc trên thế giới 27
Hình 1.20: Biểu đồ tỷ lệ các gene kháng đƣợc chuyển vào cây trồng trên thế giới 27
Hình 3.1: Một chu kỳ sống của CGI 53
Hình 3.2: Chu kỳ sống của CGI hiện nay 54
PHẦN C
Hình 2.1: Trang kết quả tìm kiếm bằng Google sau khi nhập từ khóa 60
Hình 2.2: Trang tìm kiếm Scirus.com nâng cao 61
xiii
Hình 2.3: Trang kết quả của Scirus sau khi tìm kiếm 62
Hình 2.4: Trang chủ NCBI 62
Hình 2.5: Trang Entrez PubMed của NCBI 63
Hình 2.6: Trang kết quả Entrez PubMed sau khi tìm kiếm 63
Hình 2.7: Trang chủ Agbios.com 64
Hình 2.8: Kết quả tìm kiếm bằng Google với keyword 65
Hình 2.9: Trang Entrez Nucleotide với từ khóa cần tìm 66
Hình 2.10: Trang kết quả của Entrez Nucleotide sau tìm kiếm 67
Hình 2.11: Trang kết quả Entrez Nucleoide dạng text 67
Hình 2.12: Kết quả sau khi nhấp vào mục Details 68
Hình 2.13: Nhập từ khóa cần tìm vào khung tìm kiếm 69
Hình 2.14: Xem chi tiết (Details) khi kết quả không tìm thấy 70
Hình 2.15: Trang BLAST của cơ sở dữ liệu NCBI 70
Hình 2.16: Trang BLAST Nucleotide của NCBI 71
Hình 2.17: Khung nhập trình tự 71
Hình 2.18: Phần tùy chọn của trang BLAST Nucleotide 72
Hình 2.19: Phần lựa chọn định dạng trang kết quả BLAST 73
Hình 2.20: Trang trung gian kết quả BLAST 74
Hình 2.21: Phần đầu của trang kết quả BLAST 74
Hình 2.22: Phần ảnh minh họa tổng thể kết quả BLAST 75
Hình 2.23: Phần tóm tắt kết quả BLAST 75
Hình 2.24: Phần xem chi tiết về sự gióng trình tự trên trang kết quả BLAST 76
Hình 2.25: Lấy trình tự cần từ trang kết quả BLAST 76
Hình 2.26: Nhập trình tự Primer vào khung tìm kiếm gene cryIA(b) 77
Hình 2.27: Kết quả tìm kiếm với Primer gene cryIA(b) 78
Hình 2.28: Kết quả tìm kiếm sau khi thay đổi thông số 78
Hình 2.29: Lựa chọn lại thông số là Pat thay vì nr 79
Hình 2.30: Kết quả tìm kiếm với Database Pat 79
Hình 2.31: Trang lấy kết quả từ chƣơng trình BLAST 80
Hình 2.32: Tìm kiếm trình tự bằng số xác định qua trang BLAST 80
Hình 2.33: Kết quả BLAST dạng HTML 81
Hình 2.34: Kết quả BLAST dạng text 81
xiv
PHẦN D
Hình 2.1: Kết quả dạng text khi tìm kiếm bằng keyword 1 83
Hình 2.2: Kết quả dạng text khi tìm kiếm bằng keyword 2 83
Hình 2.3: Kết quả dạng text khi tìm kiếm bằng keyword 84
Hình 2.4: Kết quả dạng text khi tìm kiếm bằng Primer 85
Hình 2.5: Minh họa 1 file kết quả thu đƣợc sau khi tìm kiếm trình tự trên NCBI 86
Hình 2.6: Chƣơng trình Perl bắt đầu chạy 88
Hình 2.7: Nhập đƣờng dẫn đến thƣ mục chứa file kết quả tìm kiếm 89
Hình 2.8: Chƣơng trình Perl đã chạy xong 89
Hình 2.9: Lƣu danh sách này vào file tonghopdulieu.txt 89
Hình 2.10: Nội dung file tonghopdulieu.txt 90
Hình 2.11: Chƣơng trình load.pl đang chạy 92
Hình 2.12: Minh họa kết quả các trình tự đƣợc tải về 92
Hình 4.1: Vị trí thể hiện Division trong nội dung của 1 record Genbank 95
Hình 4.2: Chƣơng trình phân chia Division bắt đầu chạy 96
Hình 4.3: Chƣơng trình đã chạy xong 96
Hình 4.4: Kết quả cuối cùng sau khi chƣơng trình phân Division đã chạy xong 97
Hình 5.1: Các trƣờng tìm kiếm chính xác. 99
Hình 5.2: Các trƣờng cung cấp thông tin trình tự cần tách 100
Hình 5.3: Trang giao diện tìm kiếm GM Databases 102
Hình 5.4: Nội dung trang tìm kiếm 103
Hình 5.5: Một trƣờng hợp tìm kiếm trên web 105
Hình 5.6: Thể hiện kết quả tìm kiếm với nội dung tóm tắt 107
Hình 6.1: Trang chủ tìm kiếm trình tự GM Plants bằng keyword 109
Hình 6.2: Nhập keyword cần tìm vào khung tìm kiếm 110
Hình 6.3: Trang kết quả tìm kiếm mặc định là dạng Summary 111
Hình 6.4: Trang biểu diễn kết quả dạng GenBank 113
Hình 6.5: Trang biểu diễn kết quả dạng FASTA 114
Hình 6.6: Trang biểu diễn vùng trình tự mã hóa (CDS) dạng FASTA. 114
Hình 6.7: Trang Biểu diễn trình tự aminoacid do CDS mã hóa, dạng FASTA 115
Hình 6.8: Trang biểu diễn kết quả dạng text của kiểu GenBank 116
Đăng ký:
Đăng Nhận xét (Atom)
Không có nhận xét nào:
Đăng nhận xét