home *** CD-ROM | disk | FTP | other *** search
/ Crawly Crypt Collection 1 / crawlyvol1.bin / apps / science / clustalv / clustalv.hlp < prev    next >
Text File  |  1991-08-08  |  12KB  |  270 lines

  1. This is the on-line help file for CLUSTAL V.   
  2.  
  3. It should be named or defined as:   clustalv_hlp
  4.  
  5. >>HELP<< 1            General help for CLUSTAL V 
  6. CLUSTAL V is a general purpose multiple alignment program for DNA or proteins.
  7.  
  8. SEQUENCE INPUT:  all sequences must be in 1 file, one after another.  3 formats
  9. are automatically recognised: NBRF/PIR, EMBL/SWISSPROT or Pearson (Fasta).  
  10. All non-alphabetic characters (spaces, digits, punctuation marks) are ignored
  11. except "-" which is used to indicate a GAP.  Upper or lower case is allowed.
  12.  
  13.  
  14. To do a MULTIPLE ALIGNMENT on a set of sequences, use item 1 from this menu to 
  15. INPUT them; go to menu item 2 to do the multiple alignment.
  16.  
  17.  
  18. PROFILE ALIGNMENTS (menu item 3) are used to align 2 alignments.  Use this to
  19. add a new sequence to an old alignment.  GAPS in the old alignments are 
  20. indicated using the "-" character.   PROFILES can be input as PIR format files.
  21.  
  22.  
  23. PHYLOGENETIC TREES (menu item 4) can be calculated from old alignments (read in
  24. in PIR format with "-" characters to indicate gaps) OR after a multiple 
  25. alignemnt while the alignment is still in memory.
  26. >>HELP<< 2     Help for multiple alignments
  27.  
  28. If you have already loaded sequences, use menu item 1 to do the complete
  29. multiple alignment.  You will be prompted for 2 output files: 1 for the 
  30. alignment itself; another to store a dendrogram that describes the similarity
  31. of the sequences to each other.
  32.  
  33. Multiple alignments are carried out in 3 stages (automatically done from menu
  34. item 1 ... multiple alignments NOW):
  35.  
  36. 1) all sequences are compared to each other (pairwise alignments);
  37.  
  38. 2) a dendrogram (like a phylogenetic tree) is constructed, describing the
  39. approximate groupings of the sequences by similarity (stored in a file).
  40.  
  41. 3) the final multiple alignment is carried out, using the dendrogram as a guide.
  42.  
  43.  
  44. PAIRWISE ALIGNMENT parameters control the speed/sensitivity of the initial
  45. alignments.
  46.  
  47. MULTIPLE ALIGNMENT parameters control the gaps in the final multiple alignments.
  48.  
  49.  
  50.  
  51.  
  52. You can skip the first stages (pairwise alignments; dendrogram) by using an
  53. old dendrogram file (menu item 3); or you can just produce the dendrogram
  54. with no final multiple alignment (menu item 2).
  55.  
  56.  
  57. OUTPUT FORMAT: Menu item 6 (format options) allows you to choose between 4 
  58. different alignment formats (CLUSTAL, GCG, NBRF/PIR and PHYLIP).  
  59.  
  60.  
  61. >>HELP<< 3     Help for pairwise alignment parameters
  62.  
  63. A similarity score is calculated between every pair of sequence and these are
  64. used to construct the dendrogram which guides the final multiple alignment.
  65.  
  66. These similarity scores are calculated from fast, approximate, global align-
  67. ments, which are controlled by 4 parameters.   2 techniques are used to make
  68. these alignments very fast: 1) only exactly matching fragments (k-tuples) are
  69. considered; 2) only the 'best' diagonals (the ones with most k-tuple matches)
  70. are used.
  71.  
  72.  
  73. K-TUPLE SIZE:  This is the size of exactly matching fragment that is used. 
  74. INCREASE for speed (max= 2 for proteins; 4 for DNA), DECREASE for sensitivity.
  75. For longer sequences (e.g. > 300 residues) you may need to increase the default.
  76.  
  77.  
  78. GAP PENALTY:   This is a penalty for each gap in the fast alignments.  It has
  79. little affect on the speed or sensitivity.  
  80.  
  81.  
  82.  
  83.  
  84.  
  85.  
  86. TOP DIAGONALS: The number of k-tuple matches on each diagonal (in an imaginary
  87. dot-matrix plot) is calculated.  Only the best ones (with most matches) are
  88. used in the alignment.  This parameter specifies how many.  Decrease for speed;
  89. increase for sensitivity.
  90.  
  91.  
  92. DIAGONAL WINDOW:  This is the number of diagonals around each of the 'best' 
  93. diagonals that will be used.  Decrease for speed; increase for sensitivity.
  94.  
  95.  
  96. SCORING METHOD = PERCENTAGE or ABSOLUTE:   This controls whether the similarity
  97. scores are calculated as raw alignment scores (number of k-tuple matches minus a
  98. gap penalty for every gap) (ABSOLUTE) or as the alignment score divided by the
  99. length of the shorter sequence (PERCENTAGE).
  100.  
  101.  
  102.  
  103. >>HELP<< 4     Help for multiple alignment parameters
  104. These parameters control the final multiple alignment.  There are 2 gap penalty
  105. parameters and 1 for whether transitions (A <--> G or C <--> T) are weighted in
  106. DNA alignments.  The default weight matrix for protein alignments is a PAM250
  107. matrix, converted to distances.
  108.  
  109. GAP PENALTY (FIXED):     This is a penalty for opening up a gap.   Decrease it
  110. and you will encourage gaps of all sizes.  TERMINAL GAPS are penalised (same as
  111. internal ones).  BEWARE:  if you make this too small (+/- 5 or so), the program
  112. will prefer to align each sequence opposite a long gap.
  113.  
  114. GAP PENALTY (VARYING):  This penalty is incurred for every item in a gap.  This
  115. penalises long gaps more.  Increase this and gaps will get shorter.   BEWARE: 
  116. if you make this too small (+/- 5 or so), the program will prefer to align each
  117. sequence opposite a long gap.
  118.  
  119. TRANSITIONS = WEIGHTED or UNWEIGHTED:  With UNWEIGHTED transitions identical 
  120. bases in a DNA alignment have a DISTANCE of 0; different ones have a distance 
  121. of 10.  If transitions are WEIGHTED then A vs G and C vs T will have a distance
  122. of 5 (less distant than A vs C,T or C vs A,G).  
  123. >>HELP<< 5     Help for output format options.
  124. Four output formats are offered.  You can choose more than one (or all four if
  125. you wish).  NBRF/PIR format is ESPECIALLY USEFUL.  Alignments that are written
  126. in this format can be used again as input (for calculating phylogenetic trees;
  127. profile alignments; general input).
  128.  
  129. CLUSTAL format output is a self explanatory alignment format.  It shows the
  130. sequences aligned in blocks.
  131.  
  132. GCG output can be used by any of the GCG programs that can work on multiple
  133. alignments (e.g. PRETTY, PROFILEMAKE, PLOTALIGN).  It is the same as the GCG
  134. .msf format files (multiple sequence file); new in version 7 of GCG.
  135.  
  136. PHYLIP format output can be used for input to the PHYLIP package of Joe 
  137. Felsenstein.  This is an extremely widely used package for doing every 
  138. imaginable form of phylogenetic analysis (MUCH more than the the modest intro-
  139. duction offered by this program).
  140.  
  141. NBRF/PIR:  this is the same as the standard PIR format with ONE ADDITION.  Gap
  142. characters "-" are used to indicate the positions of gaps in the multiple 
  143. alignment.   These files can be re-used as input in any part of clustal that
  144. allows sequences (or alignments or profiles) to be read in.  
  145. >>HELP<< 6     Help for profile alignments
  146.  
  147. By PROFILE ALIGNMENT, we mean the alignment of two old alignments.  One of the
  148. alignments can be a single sequence.  
  149.  
  150. The profiles should be in PIR format (one of the 4 output formats produced by 
  151. this program).   This is the same as standard NBRF/PIR format, with 1 addition:
  152. gap characters are indicated by "-".   
  153.  
  154. The alignment method produces a global, optimal alignment using an amino acid
  155. weight matrix (PAM250 is default) and 2 gap penalty parameters.
  156.  
  157. Profile alignments allow you to store alignments of your favourite sequences (as
  158. long as they are in PIR format) and add new sequences to them in small bunches 
  159. at a time.  One of the 2 profiles can simply be a single sequence.
  160.  
  161.  
  162.  
  163. >>HELP<< 7     Help for phylogenetic trees
  164. Before calculating a tree, you must have an alignment in memory.  This can be
  165. input in NBRF/PIR format or you should have just carried out a full multiple 
  166. alignment and the alignment is still in memory.
  167.  
  168. The method used is the NJ (Neighbour Joining) method of Saitou and Nei.  First
  169. you calculate distances (percent divergence) between all pairs of sequence from
  170. a multiple alignment; second you apply the NJ method to the distance matrix.
  171.  
  172. EXCLUDE POSITIONS WITH GAPS?  If you choose this option, any alignment positions
  173. where ANY of the sequences have a gap will be ignored.  This guarantees that
  174. the distances will be 'metric'.  Also, it means that 'like' will be compared to
  175. 'like' in all distances.  The disadvantage is that you may throw away much of
  176. the data if there are many gaps.
  177.  
  178. CORRECT FOR MULTIPLE SUBSTITUTIONS?  For small divergence (say <10%) this
  179. option makes little difference.  For greater divergence, this option corrects
  180. for the fact that observed distances underestimate actual evolutionary dist-
  181. ances.  This is because, as sequences diverge, more than one substitution will
  182. happen at many sites.  However, you only see one difference when you look at the
  183. present day sequences.  Therefore, this option has the effect of stretching
  184. branch lengths in trees (especially long branches).  The corrections used here
  185. (for DNA or proteins) are both due to Motoo Kimura.
  186.  
  187. To calculate a tree, use option 4 (DRAW TREE NOW).  This gives an UNROOTED
  188. tree and all branch lengths.  The root of the tree can only be inferred by
  189. using an outgroup (a sequence that you are certain branches at the outside
  190. of the tree .... certain on biological grounds) OR if you assume a degree
  191. of constancy in the 'molecular clock', you can place the root along the
  192. longest branch.
  193.  
  194. BOOTSTRAPPING is a method for deriving confidence values for the groupings in
  195. a tree (first adapted for trees by Joe Felsenstein).   It involves making N
  196. random samples of sites from the alignment (N should be LARGE, e.g. 500 - 1000);
  197. drawing N trees (1 from each sample) and counting how many times each grouping
  198. from the original tree occurs in the sample trees.   For a group to be consid-
  199. ered significant at the 5% level (p <= 0.05) it should occur in at least 95% of
  200. the sample trees. You must supply a seed number for the random number generator.
  201. >>HELP<< 8     Help for choosing protein weight matrix
  202. For protein alignments, you use a weight matrix to determine the similarity of
  203. non-identical amino acids.  For example, Tyr aligned with Phe is usually judged 
  204. to be 'better' than Tyr aligned with Pro.  
  205.  
  206.  
  207.  
  208. There are three 'in-built' weight matrices offered: 
  209.  
  210.  
  211. 1) PAM 100 and 2) PAM 250    These are from the work of M. Dayhoff and are often
  212. simply called Dayhoff matrices.   The pam 250 matrix is the most commonly used
  213. and is the default in most protein comparison packages.   It is claimed that
  214. a pam 100 matrix is more sensitive in many cases, so we have included it
  215. here.
  216.  
  217.  
  218. 3) Identity matrix.   This matrix just scores identical residues.
  219.  
  220.  
  221.  
  222.  
  223.  
  224. You can also input your own matrix.  If so then be careful:  1) follow the 
  225. instructions on format below; 2) watch the gap penalty parameters (the default
  226. values may no be appropriate).   Conservative substitutions will not be 
  227. indicated in alignments.
  228.  
  229. The values in a new weight matrix must be integers and the scores should be
  230. similarities.  You can use negative as well as positive values if you wish.
  231.  
  232.  
  233. INPUT FORMAT  The lower triangle of a 20x20 matrix of values is read in, in free
  234. format, row by row.  The diagonal must be included.   Using the 1 letter code,
  235. the order of amino acids in the matrix is:   CSTPAGNDEQHRKMILVFYW.   Seperate
  236. the values by spaces (not commas).   You can put the values on as many lines
  237. as you like as long as they are in the right order.
  238.  
  239.  
  240. GAP PENALTIES  The default gap penalty parameters work fine with a PAM 250
  241. matrix.  The range of PAM 250 values is 0 to 25 (when rescaled to be positive)
  242. and the default gap penalties are 10 each.   Very approximately, the best gap
  243. penalty settings are 2/5 the maximum weight matrix score.   
  244. >>HELP<< 9     Help for command line parameters
  245.                 DATA (sequences)
  246.  
  247. /INFILE=file.ext                             :input sequences.
  248. /PROFILE1=file.ext  and  /PROFILE2=file.ext  :profiles (old alignment).
  249.  
  250.                 VERBS (do things)
  251.  
  252. /HELP  or /CHECK    :list the command line params.
  253. /ALIGN              :do full multiple alignment 
  254. /TREE               :calculate NJ tree.
  255. /BOOTSTRAP(=n)      :bootstrap a NJ tree (n= number of bootstraps; def. = 1000).
  256.  
  257.                 PARAMETERS (set things)
  258.  
  259. ***Pairwise alignments:***
  260. /KTUP=n      :word size                  /TOPDIAGS=n  :number of best diags.
  261. /WINDOW=n    :window around best diags.  /PAIRGAP=n   :gap penalty
  262.  
  263. ***Multiple alignments:***
  264. /FIXEDGAP=n  :fixed length gap pen.      /FLOATGAP=n  :variable length gap pen.
  265. /MATRIX=     :PAM100 or ID or file name. /TYPE=p or d :type is prot. or DNA
  266. /OUTPUT=     :GCG or PHYLIP or PIR.      /TRANSIT     :transitions not weighted.
  267.  
  268. ***Trees:***                             /SEED      :seed number for bootstraps.
  269. /KIMURA      :use Kimura's correction.   /TOSSGAPS  :ignore positions with gaps.
  270.