home *** CD-ROM | disk | FTP | other *** search
/ ftp.uv.es / 2014.11.ftp.uv.es.tar / ftp.uv.es / pub / biologia / distanc_.exe / DISTANCE.DOC < prev    next >
Text File  |  1993-03-22  |  12KB  |  217 lines

  1. COMPUTER NOTE
  2.  
  3. DISTANCE: A Program to Calculate Distances and Other Parameters of an 
  4. Alignment of DNA Sequences.
  5.  
  6.  
  7.  
  8.  
  9. J.A. Lopez-Bueno and F. Gonzalez-Candelas
  10.  
  11.  
  12. E-mail: LOPEZJ@vm.ci.uv.es
  13.         GONZALEZ@evalsb.geneti.uv.es
  14.  
  15. Departament de Genetica and Servei de Bioinformatica
  16. Universitat de Valencia
  17. Dr. Moliner 50
  18. E-46100 Burjassot, Valencia, Spain
  19.  
  20.  
  21. The advent of DNA sequence analysis techniques has brought an 
  22. explosion of knowledge of molecular biology and also a period of development 
  23. in the study of molecular evolution. Application of these techniques has led to 
  24. the discovery of new features of genes and genomes and to a rapid 
  25. accumulation of data on DNA sequences. These discoveries and the availability 
  26. of a large number of DNA sequences have facilitated the study of molecular 
  27. evolution and considerable progress has already been made in the comparative 
  28. study of DNA sequences (Li et al. 1985).
  29. Methods for estimating the number of nucleotide base substitutions are 
  30. crucial for studies of molecular evolution. Knowledge of the number of base 
  31. substitutions is particulary important for computing the evolutionary rate and 
  32. constructing phylogenetic trees at the DNA level (Gojobori et al. 1989). Several 
  33. methods have been proposed, some of which are:
  34. - Jukes and Cantor (1969), which assumes equal, random substitution rates 
  35. among the four types of nucleotides.
  36. - Kimura's (1980) Two-Parameter Method, which allows transitional and 
  37. transversional substitutions to occur at different rates.
  38. - Kimura's (1981) Three-Parameter Method, which allows one type of 
  39. transversional substitutions and two types of transitional substitutions.
  40. - Tajima and Nei's (1984) Four-Parameter Method, in which each nucleotide is 
  41. substituted by another at a fixed rate for each substituting nucleotide.
  42. - Takahata and Kimura's (1981) Four-Parameter Method. This model allows 
  43. the two types of transversional substitutions at a nucleotide site to occur 
  44. at different rates. Moreover, the four types of transitions can occur at 
  45. different rates.
  46. - Kimura's Six-Parameter Method, which is based on the model originally 
  47. proposed by Kimura (1981), who called it the Two Frequency Class 
  48. Model. It was solved by Gojobori et al. (1982).
  49. The program DISTANCE is intended to provide researchers with all these 
  50. nucleotide distances, and their corresponding variances when possible, for any 
  51. set of previously aligned nucleotide sequences.
  52. The program DISTANCE has been written in Pascal using a Turbo 
  53. Pascal compiler (version 6.0, Borland Co.). It runs on PC's and DOS-based 
  54. computers and needs a CGA graphics adapter. We suministrate the executable 
  55. file DISTANCE.EXE and the source codes along with several other files 
  56. described below.
  57. The input file can have three different formats: 
  58. a,b) A first line with two integers (number of species and number of positions), 
  59. with the sequence information in the remaining lines (in interleaved PHYLIP 
  60. format version 3.3, or aligned PHYLIP format, older versions, Felsenstein, 
  61. 1990). The two integers in the first line are as follows:
  62. i) Number of sequences. It is an integer in the range 
  63. 2 <= NumberSeq <= 20. The program constant NumMaxSp in 
  64. the  source file UNITDIST.PAS can be modified to allow for 
  65. larger numbers.
  66. ii) Length of the aligned sequences. It is an integer, without 
  67. limits. These two parameters are only restricted by the 
  68. available memory in the computer. See the example files 
  69. PHYNEW.SEQ and PHYOLD.SEQ, and the on-screen help for 
  70. more information.
  71. c) MSF format, output of program PILEUP (Genetics Computer Group 1991). 
  72. See the example files MSF.SEQ and the on-screen help for more information.
  73. DISTANCE can be executed in two different modes: like a menu-driven 
  74. program, if no parameters are indicated, or like a command, to use it in batch 
  75. mode.
  76. In the first mode, MENU MODE, it has a main menu with nine submenus:
  77. i) Path and name of the input file. If the input file is in the current directory 
  78. only its name is necessary. Otherwise, the whole path must be typed. The 
  79. default filename is SEQUENCE.SEQ.
  80. ii) Path and name of the results file. Once it has been written, the following 
  81. results will be added to the end of this file, except in the case that this option is 
  82. changed. The default filename is SEQUENCE.RST.
  83. iii) Format of the aligned sequences file. DISTANCE currently accepts three 
  84. different formats for the aligned DNA sequences: interleaved (PHYLIP  version 
  85. 3.3), sequential (PHYLIP older versions) or MSF. You have to indicate to 
  86. program which one you are using.
  87. iv) Method to compute the distances. You can choose among six methods:
  88. -Jukes and Cantor's method.
  89. -Kimura's Two-Parameter Method.
  90. -Kimura's Three-Parameter Method.
  91. -Tajima and Nei's Four-Parameter Method.
  92. -Takahata and Kimura's Four-Parameter Method.
  93. -Kimura's Six-Parameter Method.
  94. The program also computes the corresponding matrix of variances of the 
  95. estimates, except for the last two methods, as they have not been derived yet.
  96. v) Bases in each codon to use in the computations. You can choose to calculate 
  97. distances in each combination of bases of the aligned DNA sequences (all the 
  98. bases, first base, second base, third base, first and second bases, first and third 
  99. bases, and second and third bases). When all the bases are selected, 
  100. synonymous and non-synonymous difference proportions and substitutions per 
  101. site matrices, using the unweighted pathway method (Nei, 1987), can be 
  102. computed according to one of the following genetic codes:
  103. vi) Tables of trinucleotide-aminoacid translation code to use:
  104. - Don't make these calculations (default),
  105. - Standard nuclear code,
  106. - Drosophila mitochondrial,
  107. - Yeast mitochondrial,
  108. - Mammalian mitochondrial,
  109. - Ciliated.
  110. This calculations can slow the execution of the program.
  111.  
  112. vii) Output format. The results file can be of three types:
  113. -Large output file (all the matrices). DISTANCE prints the common length 
  114. vector, the Hamming's distances (absolute number of changes) matrix, the 
  115. transversions and transitions matrix, all the nucleotide pairs changes 
  116. matrices, and the distance matrix chosen in (iv), along with its variances 
  117. matrix, if possible.
  118. -Brief output file. The program only prints the distance estimates and the 
  119. corresponding variances matrices.
  120. -Fitsch and Kitsch output file. The program only prints one lower triangular 
  121. matrix with the distances for using with the PHYLIP package programs Fitsch 
  122. and Kitsch.
  123. viii) Do it! This option will execute the program, once all the options have been 
  124. chosen.
  125. ix) Help. On-screen help (fourteen pages) about all the previous topics. The 
  126. index of this help is:
  127. -Page  1. Index.
  128. -Page  2. Phylip New input -interleaved- format. Example.
  129. -Page  3. Phylip Old input -aligned- format. Example.
  130. -Page  4. MSF input format. Example.
  131. -Page  5. Methods to calculate distances (Jukes-Cantor).
  132. -Page  6. Methods to calculate distances (Kimura 2).
  133. -Pag.  7. Methods to calculate distances (Kimura 3).
  134. -Pag.  8. Methods to calculate distances (Kimura 4).
  135. -Pag.  9. Methods to calculate distances (Kimura 6).
  136. -Pag. 10. Methods to calculate distances (Tajima and Nei).
  137. -Pag. 11. Bases to use.
  138. -Pag. 12. Code tables.
  139. -Pag. 13. Output.
  140. -Pag. 14. Some important notes. Future.
  141. x) Quit. Return to DOS.
  142. In the second mode (COMMAND MODE) you must to supply  
  143. parameters in the following way:
  144. DISTANCE /h (/H) : Help for command mode, or
  145. DISTANCE parm1 parm2 parm3 parm4 parm5 parm6 parm7
  146. where parm1 is Input file path, parm2 is Output file path, parm3 is the input 
  147. format, parm4 is the distance measure, parm5 is the bases to be used, parm6 is 
  148. the genetic code and parm7 is the output format. You can eliminate the options 
  149. starting from the right side, and the defaults are 
  150.     DISTANCE sequence.seq sequence.rst 1 2 1 1 1, 
  151. being the options in the same order as in the menu mode. For instance,
  152.     DISTANCE myfile1.dat myfile1.dis 2 1 2
  153. will execute DISTANCE with input file = myfile1.dat, writing the results in the 
  154. output file = myfile1.dis, reading the sequences in sequential PHYLIP format, 
  155. using Jukes-Cantor's distance measure, and using only the first bases of each 
  156. codon. As defaults, no translation into aminoacids will be performed (parm6 = 
  157. 1) and the brief output format (parm7 = 1) will be used.
  158. Although there are several other programs to compute distances from 
  159. nucleic acids sequences available (DNADIST in the PHYLIP package, for 
  160. instance), DISTANCE has several interesting features. It can use three 
  161. different input formats, including the two standard PHYLIP formats, compute 
  162. six different distances and, also, compute the variances matrix of four of them. 
  163. In order to provide more information on what distance to use and for further 
  164. application to other programs, DISTANCE shows all the nucleotide pairs 
  165. matrices (including deletions) when the large output option is chosen, as well 
  166. as the number of synonymous and non-synonymous substitutions.
  167. DISTANCE comprises the following files:
  168. - DISTANCE.PAS : main source program.
  169. - DISTANCE.EXE : the executable file.
  170. - DISTANCE.DOC : help text file for the program.
  171. - UNITDIST.PAS : source unit with some variable and types.
  172. - UNITDIST.TPU : compiled unit UNITDIST.PAS.
  173. - STANDNUC.TAB, DROSOMIT.TAB, YEASTMIT.TAB, MAMMIT.TAB, 
  174. CILIATED.TAB : text files with the five different translation codes.
  175. - HELP.PAS  : unit with the help text.
  176. - HELP.TPU : compiled unit of HELP.PAS.
  177. - PHYNEW.SEQ: Example of sequence data file in PHYLIP interleaved format.
  178. - PHYOLD.SEQ: Example of sequence data file in PHYLIP aligned format.
  179. - MSF.SEQ: Example of sequence data file in MSF format.
  180. Copies of the source code and executable files can be obtained from the authors 
  181. by sending a floppy-disk (either 3.5" or 5.25") or by electronic mail (Internet 
  182. addresses: GONZALEZ@EVALSB.GENETI.UV.ES and 
  183. LBUENO@VM.CI.UV.ES).
  184.  
  185.  
  186.  
  187. References
  188. Felsenstein J, 1990. PHYLIP Manual, version 3.3. Berkeley: University of 
  189. California Press.
  190. Genetics Computer Group 1991. Program Manual for the GCG package, 
  191. version 7.
  192. Gojobori T, Moriyama EN, and Kimura M, 1990. Statistical methods for 
  193. estimating sequence divergence. Methods in Enzymology 183: 531-550.
  194. Gojobori T, Ishii K, and Nei M, 1982. Estimation of average number of 
  195. nucleotide substitutions when the rate of substitution varies with nucleotide. J 
  196. Mol Evol 18: 414-423.
  197. Jukes TH and Cantor CR, 1969. Evolution of protein molecules. In: 
  198. Mammalian protein metabolism (Munro HN, ed). New York: Academic Press; 
  199. 21-123.
  200. Kimura M, 1980. A simple method for estimating evolutionary rates of base 
  201. substitutions through comparative studies of nucleotide sequences. J Mol Evol 
  202. 16: 111-120.
  203. Kimura M, 1981. Estimation of evolutionary distances between homologous 
  204. nucleotide sequences. Proc Natl Acad Sci USA 78: 454-455.
  205. Li WH, Luo CC, and Wu CI, 1985. Evolution of DNA sequences. In: Molecular 
  206. evolutionary genetics (MacIntyre RI, ed). New York: Plenum Press; 4-16.
  207. Nei M. 1987. Molecular Evolutionary Genetics. Washington: 
  208. ColumbiaUniversity Press.
  209. Tajima F, and Nei M, 1984. Estimation of evolutionary distance between 
  210. nucleotide sequences. Mol Biol Evol 1: 269-285.
  211. Takahata N, and Kimura M, 1981. A model of evolutionary base substitutions 
  212. and its application with special reference to rapid change of pseudogenes. 
  213. Genetics 98: 641-657.
  214. 11
  215.  
  216.  
  217.