home *** CD-ROM | disk | FTP | other *** search
/ Mac-Source 1994 July / Mac-Source_July_1994.iso / Pascal / source / Dotty Folder / DottyDoc.text < prev    next >
Encoding:
Text File  |  1989-07-31  |  9.4 KB  |  299 lines  |  [TEXT/nX^n]

  1.  
  2.  
  3. Dotty Plotter
  4. © 1989 by Don Gilbert
  5.  
  6. version 1.0c
  7.  
  8.  
  9.  
  10.  
  11.  
  12.  
  13. Dotty Plotter is a tool for drawing dot matrix comparisons of sequences in 
  14. molecular biology.  
  15.  
  16. Dot plots are used to view all areas of homology between two nucleic acid or protein 
  17. sequences.  Dot plots are useful for determining if there are one or more segments of 
  18. similarity between sequences.
  19.  
  20. The dot plot is generated by lining up the sequences, and plotting a dot where bases in 
  21. sequence A match bases in sequence B.   The major diagonal is the line of matches when A 
  22. and B are lined up from start to finish.  Each diagonal off the major diagonal is the line of 
  23. matches when A is shifted left or right from the start of B.  A dot, or match, is placed 
  24. where the bases in a given range, or window,  produce a certain number of matches, or 
  25. stringency.   For perfect matches the stringency is equal to the window (n:n).  For a dot at 
  26. every matching base, the stringency:window is 1:1.  
  27.  
  28.  
  29.  
  30.  
  31. Dotty Plotter has 3 "views" 
  32.  
  33.  • The text edit  view, where you can view or type any text (including sequence files).
  34.  
  35.  • The  sequence view,  where sequences are listed one per line, for selections, alignments 
  36. and editing.
  37.  
  38.  • The dotplot view, where two sequences are plotted against each other to compare regions 
  39. of similarity.
  40.  
  41.  
  42.  
  43. Thi release of Dotty Plot contains a minimum of features, and potential bugs.  I make it 
  44. available with the provision that you provide me with suggestions and problems you 
  45. encounter using it.   I hope to improve Dotty Plotter's sequence size and memory limits, 
  46. and add features.   Please send me your comments if you wish to see improvements.  
  47.  
  48.     
  49.     Don Gilbert
  50.  
  51.     BioComputing Office
  52.     Biology Dept., Indiana University
  53.     Bloomington, IN 47405
  54.     Bitnet:  GilbertD @ IUBACS
  55.     Internet: GilbertD @ Gold.Bacs.Indiana.Edu
  56.  
  57.  
  58.  
  59.  
  60.  
  61.    
  62. Input Data 
  63.   
  64. Dotty Plotter currently accepts data in several standard formats, including UWGCG, 
  65. GenBank, Stanford / IG, EMBL,  NBRF/PIR,  Fitch,  Pearson,  and DNA Strider  (see 
  66. Appendix).  It also accepts unformatted sequences.  The data files should be of plain TEXT 
  67. type.  DNAStrider native format sequences must be converted to plain text with the 
  68. File:Write menu option of DNAStrider.
  69.     
  70.  
  71.   
  72. Editing Data 
  73.  
  74. The text edit view of Dotty Plotter is similar to basics of most Macintosh programs that 
  75. process text.  You can open a window from a text file of sequence data, or create a new 
  76. one, edit it and save it.  There is a limit of 32,000 characters per text window.
  77.  
  78. Sequence view of Dotty Plotter displays one sequence per line (see Fig. 1).  The top line of 
  79. this view marks sequence position.   You can select all of a sequence for analysis by 
  80. double-clicking on it.  You can select a portion of a sequence by either (a) mouse down on 
  81. the starting base, then drag the mouse, with button still down, to the end base, or (b) 
  82. single-clicking on the start base, scrolling to the end base, then shift-clicking (click with 
  83. mouse while holding down the shift key).  If you click on the name of a sequence, at the 
  84. left side of the window, an information box will list the sequence length and range of any 
  85. active selection.
  86.  
  87. In this release of Dotty Plotter, the sequence view is not editable.  There are also display 
  88. problems for sequences longer than about 3000 characters (with 12 pt font).  You can 
  89. increase the display length by reducing font size.  Also you must use  monospaced fonts 
  90. such as Courier and Monaco for a sequence to line up properly with the position marks.
  91.  
  92.  
  93. Dot Plots
  94.  
  95. Two selected sequences are compared to each other, or one sequence to itself, for a dot 
  96. plot.  When you have one or more sequence views open, you should select the base range 
  97. of one or two sequences to compare using mouse and shiftkey-mouse selection methods, 
  98. as per standard Macintosh editing.   Then select the Format Dot Plot item.    When 
  99. you select the Format Methods… menu item, an option dialog is displayed (see Fig. 
  100. 1).  Here you may set the window width and number of matches (stringency) per window.  
  101. The Plot all dots  check box will plot all dots in a match window, rather than just one 
  102. dot in middle of each window that contains a match.  If your top window is a dot plot, then 
  103. the Methods… item will change options and redraw that window.
  104.  
  105.  
  106.  
  107.   
  108. Editing Plots
  109.  
  110. Maybe in a later version.  For now, save a plot to disk or clipboard as a PICTure file and 
  111. edit with your favorite drawing program (MacDraw, Canvas, SuperPaint… ).
  112.  
  113. The sizing options, Reduce, Reduce to fit, Enlarge, Normal size,  affect 
  114. only the screen display of the plot.  Each plot is sized to fit your printer page size (Page 
  115. Setup selects this).  Future versions of Dotty Plotter may include a drawing size selection 
  116. for multiple page plots.
  117.    
  118.  
  119.  
  120.  
  121. Saving Plots
  122.  
  123. If you get a drawing that looks presentable, you may print a  drawing (File Print),  save 
  124. it as a standard Macintosh PICTure file (File Save), or copy it to the clipboard (Edit 
  125. Copy).  The Page Setup item can be used to configure page size, and whether to print in 
  126. landscape or portrait orientation.
  127.  
  128.  
  129.  
  130.  
  131. Speed of Dotty Plotter
  132.  
  133. Times for 2000 x 2000 sequence comparison (Blue.Seq x BlueKsm.seq) with a 15/25 
  134. stringency/window,  results in 2407 dots plotted.
  135.  
  136.     Mac SE/30    40.seconds
  137.     Mac II    53.seconds
  138.     Mac SE    230.seconds
  139.     µVax II    229.seconds 
  140.  
  141.  
  142.  
  143. Some Limitations of Dotty Plotter
  144.  
  145. • Display limitation:  About 3,000 bases per sequence can be selected at 12 pt font .  
  146. Reducing font size increases number of bases that can be selected.
  147.  
  148. • Plots are limited to one page only (page may be any size that printer can handle).
  149.  
  150. • Only one sequence at a time in a file/window containing several sequences may be 
  151. selected.
  152.  
  153. • Sequence symbols are compared in a case-sensitive, verbatim manner.   The base "A" 
  154. does not match the base "a".  Ambiguity codes are not recognized as such, nor are match 
  155. probabilities used.  The following symbols are defined as valid sequence symbols, all 
  156. others are ignored when reading sequence strings:
  157.  
  158.    seqCharSet:= ['A'..'Z','a'..'z','_','@','+','-','*','.','&'];
  159.  
  160.  
  161.  
  162.  
  163. Figure 1.  Options dialog in Dotty Plotter.  
  164.  
  165. Note the two sequence windows (blue.seq and blueksm.seq).  The blueksm.seq window 
  166. shows sequences up to position 501 as selected (dark).
  167.   
  168.  
  169.  
  170.  
  171. Figure 2.  Sequence Information.  
  172.  
  173. Sequence information is displayed by clicking on the name of a sequence.
  174.  
  175. APPENDIX
  176. Sequence formats known to Dotty Plotter
  177.  
  178.  
  179. Stanford/IG  format                                                                    
  180. ;comments
  181. ;...
  182. seq1 info
  183. abcd...
  184. efgh...1         (1 or 2 = terminator)
  185. ;another seq
  186. ;....
  187. seq2 info
  188. abcd...1
  189. --- for e.g. ----
  190. ;     Dro5s-T.Seq  Length: 120  April 6, 1989  21:22  Check: 9487  ..
  191. dro5stseq
  192. GCCAACGACCAUACCACGCUGAAUACAUCGGUUCUCGUCCGAUCACCGAAAUUAAGCAGCGUCGCGGGCG
  193. GUUAGUACUUAGAUGGGGGACCGCUUGGGAACACCGCGUGUUGUUGGCCU1
  194.  
  195. ;  TOIG of: Dro5srna.Seq  check: 9487  from: 1  to: 120
  196. ;  another sequence here...
  197.  
  198.  
  199. Genbank  format                                                                          
  200. LOCUS    seq1 ID..
  201. ...
  202. ORIGIN ...
  203. 123456789abcdefg....(1st 9 columns are formatting)
  204.          hijkl...
  205. //         (end of sequence)
  206. LOCUS     seq2 ID ..
  207. ...
  208. ORIGIN
  209.       abcd...
  210. //
  211.  
  212.  
  213. NBRF & PIR  format                                                                       
  214. > seq1 id
  215. ?? junk 2nd line
  216. abcdefg...
  217. hijkl...
  218. > seq2 ID
  219. ?? junk
  220. abcd....
  221.  
  222. (from uwgcg's ToNBRF)
  223. >DL;DRO5SRNA
  224. Iubio$Dua0:[Gilbertd.Gcg]Dro5srna.Seq;2 => DRO5SRNA
  225.  
  226.        1  GCCAACGAC CAUACCACGC UGAAUACAUC GGUUCUCGUC CGAUCACCGA
  227.       51  AAUUAAGCAG CGUCGCGGGC GGUUAGUACU UAGAUGGGGG ACCGCUUGGG
  228.      101  AACACCGCGU GUUGUUGGCC U
  229.  
  230. >DL;DROEST6
  231. Iubio$Dua0:[Gilbertd.Gcg]Droest6.Seq;1 => DROEST6
  232.  
  233.        1  GAATTCGCC GGAGTGAGGA GCAACATGAA CTACGTGGGA CTGGGACTTA
  234.  
  235.  
  236. EMBL format                                                                             
  237. ID345 seq1 id   (the 345 are spaces)
  238. ... other info
  239. SQ345Sequence   (the 345 are spaces)
  240. abcd...
  241. hijk...
  242. ID    seq2 id
  243. ...
  244. SQ   Sequence
  245. abcd...
  246. ...
  247.  
  248.  
  249.  
  250. UWGCG format                                                                              
  251. comments of any form, up to ".." signal
  252. signal line has seq id.  only 1 seq/ file
  253. Seq ID -----  ..
  254.       1  abcd ///
  255. 123456789^ indent 9 spaces to sequence
  256.  
  257. -- e.g. ---
  258. LOCUS       DROEST6      1819 bp ss-mRNA            INV       31-AUG-
  259. 1987
  260. ////////////////
  261. ORIGIN      1 bp upstream of EcoRI site; chromosome BK9 region 69A1.
  262.  
  263. INVERTEBRATE:DROEST6  Length: 1819  January 9, 1989  16:48  Check: 8008  
  264. ..
  265.  
  266.        1  GAATTCGCCG GAGTGAGGAG CAACATGAAC TACGTGGGAC TGGGACTTAT
  267.  
  268.       51  CATTGTGCTG AGCTGCCTTT GGCTCGGTTC GAACGCGAGT GATACAGATG
  269.  
  270.  
  271.  
  272. DNAStrider  format                                                                        
  273. (DNAStrider "ASCII" file format -- produce from native sequence file
  274. format with DNAStrider File:Write menu option)
  275. ; ### from DNA Strider  Friday, April 7, 1989   11:04:24 PM
  276. ; DNA sequence  pBR322   4363  b.p. complete sequence
  277. ;
  278. abcd...
  279. efgh
  280. //  (end of sequence)
  281.  
  282.  
  283. Fitch format                                                                              
  284. Dro5srna.Seq
  285.  GCC AAC GAC CAU ACC ACG CUG AAU ACA UCG GUU CUC GUC CGA UCA CCG AAA UUA 
  286.  AGC AGC GUC GCG GGC GGU UAG UAC UUA GAU GGG GGA CCG CUU GGG AAC ACC GCG
  287.  UGU UGU UGG CCU
  288. Droest6.Seq
  289.  GAA TTC GCC GGA GTG AGG AGC AAC ATG AAC TAC GTG GGA CTG GGA CTT ATC ATT 
  290.  GTG CTG AGC TGC CTT TGG CTC GGT TCG AAC GCG AGT GAT ACA GAT GAC CCT CTG  
  291.  TTG GTG CAG CTG
  292.  
  293.  
  294. Pearson format                                                                            
  295. >BOVPRL GenBank entry BOVPRL from omam file.  907 nucleotides.
  296. TGCTTGGCTGAGGAGCCATAGGACGAGAGCTTCCTGGTGAAGTGTGTTTCTTGAAATCAT
  297.  
  298.  
  299.