home *** CD-ROM | disk | FTP | other *** search
/ OS/2 Shareware BBS: 24 DOS / 24-DOS.zip / proanaly.zip / MANUAL.TXT < prev    next >
Text File  |  1996-08-05  |  58KB  |  1,361 lines

  1. PROANALYST - QUANTITATIVE STRUCTURE-ACTIVITY RELATIONSHIPS (QSAR) IN
  2. PROTEINS, PROTEIN ENGINEERING, PATTERNS RECOGNITION IN COMBINATORIAL
  3. LIBRARIES, PHYSICO-CHEMICAL AND ALPHABETICAL ANALYSIS FOR MULTIPLE
  4.             SEQUENCE ALIGNMENTS AND 3D STRUCTURE 
  5.  
  6.      COPYRIGHT (C) 1996 Vladimir A.Ivanisenko, Alexey M.Eroshkin
  7.  
  8.   Theoretical Dept., Research Institute of Molecular Biology,
  9.   SRC VB "Vector", 633159, Koltsovo, Novosibirsk region, Russia
  10.  
  11.   Tel. (3822) 647774
  12.   Telex 133196 NPO SU
  13.   Fax: (3832) 328831;
  14.   E.mail: salex@vector.nsk.su, eroshkin@vector.nsk.su
  15.  
  16.   DEMO version (Print@save are disabled, protein number - limited)
  17.  
  18.                       TABLE OF CONTENTS:
  19.  
  20. 1. Introduction.
  21. 2. Menu items:
  22.    2.1 File (data loading)
  23.         2.1.1 Property (physico-chemical factor(s) selection).
  24.         2.1.2 Load protein (selection of protein family to study).
  25.         2.1.3 Load 3D-structure (selection of file with protein
  26.               3D structure).
  27.         2.1.4 View result (viewing files with the results).
  28.         2.1.5 Save protein (saving current protein subset).
  29.         2.1.6 Load protein sequence from PDB file.
  30.         2.1.7 Commander (access to MS-DOS commands).
  31.    2.2 Options (setting the parameters and functions for further
  32.        calculations).
  33.             2.2.1.1 Analysis based on (setting the type of data to be used in
  34.                     calculation: sequences only, 3D structure or both).
  35.             2.2.1.2 Functions for 1D-structure (selection of functions
  36.                     to calculate fragment physico-chemical characteristics).
  37.             2.2.1.3 Functions for 3D-structure (selection of functions
  38.                     to calculate spatial site characteristics).
  39.             2.2.1.4 Hypotheses amount (Maximal amount of keeping sites).
  40.             2.2.1.5 Min frame (Minimal size of a sequential site).
  41.             2.2.1.6 Max frame (Maximal size of a sequential site).
  42.             2.2.1.7 Gaps treatment (ignore or exclude).
  43.             2.2.1.8 Fragments (type of searching site: linear/sequential,
  44.                     discrete).
  45.             2.2.1.9 Min number of factors (for multiple regression
  46.                     and discriminant analysis).
  47.             2.2.1.10 Max number of factors (for multiple regression
  48.                      and discriminant analysis).
  49.             2.2.1.11 Cutoff radius (cutoff radius for neighbors in 3D
  50.                      site).
  51.             2.2.1.12 Type of input atoms (type of atoms to be used in 3D
  52.                      model, C-alpha, C-beta or all).
  53.             2.2.1.13 Profile smoothing (on/off profile smoothing).
  54.         2.2.2  Sequences display mode (modes of sequence displaying on
  55.                the screen).
  56.         2.2.3  Display residues exposure (turning on/off displaying the
  57.                solvent exposed amino acid residues on the screen).
  58.         2.2.4  Display 2D structure (turning on/off displaying secondary
  59.                structures on the screen).
  60.         2.2.5  Display protein name (turning on/off displaying protein
  61.                names on the screen).
  62.         2.2.6  Display protein activity (turning on/off displaying protein
  63.                activities on the screen).
  64.         2.2.7  View marked fragments (viewing current or all marked
  65.                fragments).
  66.         2.2.8  Window for protein name (the number of positions used to
  67.                display protein name).
  68.         2.2.9  Window for activities (the number of positions used to
  69.                display activities).
  70.         2.2.10 Window for graphs (dimensions).
  71.         2.2.11 Show property on the screen (value of aa physico-chemical
  72.                property for residue under cursor).
  73.         2.2.12 Sorting by (sorting the proteins according to their
  74.                activities (increase/decrees) or group numbers).
  75.    2.3 Prepare data (viewing multiple sequence alignment, protein names,
  76.        activities, group numbers, marked fragment(s) etc.; fragment(s)
  77.        choosing, splitting proteins into groups, sequence editing, etc.).
  78.    2.4 Analysis (main program block for all calculations).
  79.         2.4.1. Define factors: fragment, function and property (specifying
  80.                the factors for calculations).
  81.         2.4.2. Structure-activity (selection of procedure for finding
  82.                 activity-modulating center and analysis of relationships).
  83.             2.4.2.1  Multiple linear regression analysis (physico-
  84.                      chemical analysis).
  85.             2.4.2.2  Discriminant analysis (physico-chemical analysis).
  86.             2.4.2.3  Cross groups variation (alphabetical analysis).
  87.         2.4.3 Functional center.
  88.             2.4.3.1  Amino acid residues conservation in current group
  89.         2.4.4 Profile analysis (searching regions with high and low
  90.               physico-chemical properties, conservative and variable
  91.               sites, etc.).
  92.             2.4.4.1  Average profile (physico-chemical profiles).
  93.             2.4.4.2  Min profile (physico-chemical profiles).
  94.             2.4.4.3  Max profile (physico-chemical profiles).
  95.             2.4.4.4  Cross groups variation (comparison of aa
  96.                      between the groups of proteins).
  97.             2.4.4.5  Variation in current group (comparison of aa
  98.                      in one group of proteins).
  99.             2.4.4.6  SADC-PROFILE
  100.             2.4.4.7  Residual dispersion        3D.
  101.             2.4.4.8  Cross groups variation     3D.
  102.             2.4.4.9  Variation in current group 3D.
  103.             2.4.4.10  Normalized cross groups variation 3D.
  104.             2.4.4.11  Coordinated changes 3D.
  105.             2.4.4.12  Number of coordinated position 3D.
  106.             2.4.4.13  View profile on 3D structure.
  107.             2.4.4.14  Save profile (writing the values of profile to disk).
  108.             2.4.4.15  Dispersion profiles (physico-chemical profiles).
  109.         2.4.5 Motifs Search.
  110.         2.4.6 Sort (sorting the protein according to activity values or
  111.               group number).
  112.         2.4.7 Save last result (writing the results, obtained in automatic
  113.               mode).
  114.         2.4.8 View last result (viewing the results, obtained in automatic
  115.               mode).
  116.    2.5 View 3D-structure
  117.         2.5.1 Spatial site  (viewing 3D structures and spatial sites,
  118.               selection the sites for further calculation, etc.).
  119.         2.5.2 Simple marking (marking and viewing).
  120.    2.6 Help.
  121.    2.7 Quit.
  122. 3. General information
  123. 4. Requirements
  124. 5. Standard errors list.
  125. 6. Note from authors
  126. 7. References
  127.  
  128.                        1. INTRODUCTION
  129.  
  130. PROANALYST is an integrated applied system for studying quantitative
  131. structure-activity relationships in proteins. PROANALYST provides
  132. multivariate statistical, pattern and profile analyses; physico-chemical
  133. and alphabetical analyses in protein sequences and 3D structures;
  134. protein engineering experiments design.
  135.  
  136. The program is a further development of earlier described program
  137. PROANAL (Eroshkin, et al., 1993, 1995).  PROANALYST examines the
  138. relationships between the protein activity and physico-chemical
  139. characteristics (or amino acid residue composition) of different regions
  140. in their primary and tertiary structures (3D QSAR).  The
  141. structure-activity analysis is based on aligned protein amino acid
  142. residue sequences, data on their activity (pK, ED50, Km or any other)
  143. and 3D structure of at least one of these proteins.  Program is useful
  144. also in cases when protein families are divided by evolution, functional
  145. or other criteria.  The following methods are implemented: empirical
  146. energy calculations, spatial site moments calculations, discriminant
  147. analysis, multiple linear regression, analysis of variations (ANOVA) and
  148. some other.  Regression plots, 3D pictures, graphs of various
  149. physico-chemical profiles for the sequences and 3D structures make it
  150. easier for the researcher to get the picture of the problem.  The
  151. program allows to look for protein sites conservative in variations of
  152. physico-chemical characteristics (candidates to functionally important
  153. regions) and regions with high or low values of these characteristics.
  154.  
  155. PROANALYST may be used for simulation of protein-engineering
  156. experiments, prediction of protein activity and the search of different
  157. protein regions such as functional sites, elements of secondary
  158. structure, solvent-exposed regions, T- and B-cell antigenic
  159. determinants, etc.  In automatic mode PROANALYST generates and
  160. verifies hypotheses on the location of modulating regions in sequence or
  161. 3D structure of a protein, and key characteristics of this region.  In
  162. manual mode the researcher can generate and analyze his own hypotheses.
  163. Program is implemented for IBM PC or compatible computers.  It is
  164. designed to be easily handled by any occasional computer user and yet it
  165. is powerful enough for experienced professionals.
  166.  
  167.                       2. MENU ITEMS
  168.  
  169. To start the program you have to make current directory containing all
  170. the necessary files (see General information), type PANALYST.EXE and
  171. press Enter.  On the screen you'll see the main menu:
  172.  
  173. -----------------------------------------------------------------------------
  174.   File  Options   Prepare data   Analysis   View 3D-structure   Help   Quit
  175. -----------------------------------------------------------------------------
  176.  
  177. Right and left arrow keys allow to navigate through the items of the
  178. menu.  One line description of the highlighted menu item appears
  179. simultaneously at the bottom line of the screen.  Pressing <Enter> key
  180. confirms the selection.  Menu items are available only if the program is
  181. ready to perform the corresponding action.  For instance, "Analysis" is
  182. available only after the protein family is loaded, and the regions of
  183. interest are chosen.  "View 3D-structure" is available only after
  184. 3D-structure is loaded.
  185.  
  186.                            2.1 FILE
  187.  
  188. When "File" item of the main menu is selected the following submenu
  189. appears:
  190.    
  191.          Property           
  192.          Load protein       
  193.          Load 3D-structure  
  194.          View result        
  195.          Save protein       
  196.          Commander          
  197.    
  198.  
  199.                            2.1.1 PROPERTY
  200.  
  201. This menu item lists the files containing physico-chemical properties of
  202. amino acid residues (*.ppt).  After the file is selected, the program
  203. displays the list of all properties available in this file. And user can
  204. choose any subset of these properties.  Every file can contain up to 50
  205. different properties.  The data in this file are organized according to
  206. the following format:
  207.  
  208.   Comments (any number of lines started with space symbol)
  209.  
  210.   Property name (no spaces are allowed at the beginning of the name)
  211.  
  212.   Literature reference (the same requirement as above)
  213.  
  214.   Values of amino acid residue properties,  7 positions per one value (with space
  215.   in 1-st position)
  216.  
  217.   The order of values should correspond to the following order of amino
  218.   acids ACDEFGHIKLMNPQRSTVWY.
  219.  
  220. For example:
  221.  
  222.  Any comments must have a leading space
  223.  { Property names (from 1-st position of string)
  224.    Literature source (from 1-st position of string)
  225.    Values of amino acid residue properties }
  226.  
  227. Hydrophilicity Hopp-Woods
  228. T.P.Hopp, K.R.Woods, PNAS 78 (1981) 3824
  229.    -.5   -1.0    3.0    3.0   -2.5    0.0    -.5   -1.8    3.0   -1.8
  230.   -1.3     .2    0.0     .2    3.0     .3    -.4   -1.5   -3.4   -2.3
  231. Hydropathy Kyte-Doolittle
  232. J.Kyte, R.F.Doolittle J.Mol.Biol 157 (1982) 105
  233.    1.8    2.5   -3.5   -3.5    2.8    -.4   -3.2    4.5   -3.9    3.8
  234.    1.9   -3.5   -1.6   -3.5   -4.5    -.8    -.7    4.2    -.9   -1.3
  235.  
  236. You  can also  select  any  subset  of  properties for the analysis or
  237. prepare your own set of properties.  There are several hot keys.
  238.  
  239.   Command keys          Effect
  240.  
  241.    < Esc >              Return back.
  242.    < Up >               Moves the cursor one position up.
  243.    < Down >             Moves the cursor one line down.
  244.    < Enter >            Selects/cancels selection of a property for
  245.                         inclusion in the data set.
  246.    < Alt I >            Selects all property from a given file.
  247.    < Alt C >            Cancels selection of all properties that
  248.                         were chosen earlier.
  249.  
  250.                      2.1.2 LOAD PROTEIN
  251.  
  252. Here user can select protein/peptide family to be analyzed. The
  253. data are supposed to be prepared in three separate files:
  254.  
  255. 1) File of protein names (with extension *.seq).  The format of the file
  256. corresponds to the one of protein sequence database SWISS-PROT.  All
  257. lines except DE (name of a protein) and // (the end of the data for a
  258. protein) are ignored.
  259.  
  260. For example:
  261.  
  262. DE  INTERFERON ALPHA 2
  263. //
  264. DE  INTERFERON ALPHA 1
  265. OS  HOMO SAPIENCE
  266. //
  267. ....
  268.  
  269. 2) File of aligned protein sequences (with extension *.ali) in one-letter
  270. code.  The format of the file is as follows: first line - the length of
  271. aligned amino acid sequences (after special words "Seq.file ").  Then
  272. protein sequences - one sequence per one line (even in the case of long
  273. sequences).  NO ADDITIONAL SYMBOLS LIKE " " (BLANK) IN THE END OF THE
  274. LINES.  Gaps are coded by symbol '-'.  Add one or more blank lines at the
  275. end of the file.
  276.  
  277. For example:
  278.  
  279. Seq. file 43
  280. QCGEGLCCDQCSFIEEGTVCRIARGDDLDDYCNGRSAGCPRNP
  281. QCGE---CDQCSFMKKGTICRRARGDDLDDYCNGRSAGCPRNP
  282. QCGEGPCCDQCSFMKKGTICRRARGDDLDDYCNGRSAGCPRNP
  283. QCGEGLCCDQCSFMKKGTICRRARGDDLDDYCNGISAGCPRNP
  284. QCGEGLCCDQCSFMKKGTICRRARGDDLDDYCNGISAGCPRNP
  285. QCADGLCCDQCRFKKKRTICRRARGDD--DRCTGQSADCPRNG
  286. QCADGLCCDQCRFKKKTGICRIARGDFPDDRCTGLSNDCPRWN
  287. Q--DGLCCDQCRFKKKRTICRIARGDFPDDRCTGQSADCPRWN
  288. QCAEGLCCDQCRFKGAGKICRRARGDNPDDRCTGQSADCPRNR
  289. QCAEGLCCDQCLFMKEGTVC-RARGDDVNDYCNGISAGCPRNP
  290. PCATGPCCRRCKFKRAGKVCRVARGDWNNDYCTGKSCDCPRNP
  291.  
  292. 3) File of protein activities (with extension *.act).  Format of this file
  293. is just activity value of each protein per line.  In case if you do not
  294. need to investigate structure-activity relations or don't have activity
  295. data just type ordinal numbers 1, 2, 3, 4, 5, ....  Add one or more blank
  296. lines at the end of the file.
  297.  
  298. For example:
  299.  
  300.  1.602
  301.  1.699
  302.  1.716
  303.  1.748
  304.  1.982
  305.  2
  306.  2.033
  307.  2.124
  308.  2.134
  309.  2.188
  310.  2.204
  311.  2.326
  312.  
  313.  
  314. In this menu item user can also select any subset of the proteins
  315. for analysis (use <Enter> key to select or unselect particular protein).
  316.  
  317. There are several examples on the distribution disk.  They can be
  318. useful to try the program and have a look at the structure of
  319. data files.
  320.  
  321. 4) File of residue solvent exposure and protein 2D structure (file name
  322. with extension *.exp).  This file is optional.
  323.  
  324. Format of the file:
  325. The file should have two lines of the length equal to the length of
  326. aligned protein sequences.  The first line reflects the exposure of
  327. amino acid residues (aa) to the solvent (0 - internal aa, 1 - external).
  328. Positions containing 1 are marked green in the sequence window.  The
  329. second string is simply displayed on the screen. So, you can type any
  330. appropriate codes for the elements of the secondary structure.
  331.  
  332. Example:
  333. 1010110010011011001100011100101110101001100110100100000000000000000010
  334. tttaaaaaaaaaaaaaaaaaattttttttttttbbbbbbbbbtttttttttaaaaaaaaaaaaaaaattt
  335.  
  336. There are several special command keys which facilitate the extraction of
  337. any protein subset from the initial files.
  338.  
  339.   Command keys          Effect
  340.  
  341.    < Esc >              Return back.
  342.    < Up Arrow >         Moves cursor one line up.
  343.    < Down Arrow >       Moves cursor one line down.
  344.    < Enter >            Selects/unselects the protein.
  345.    < Alt I >            Selects all proteins.
  346.    < Alt C >            Cancels selection.
  347.    < PgUp >             Moves cursor seventeen lines up.
  348.    < PgDn >             Moves cursor seventeen lines down.
  349.  
  350.    CAUTION:  The following limits are in the current version of the
  351. program:
  352.  -  the  length  of  aligned  sequences must be less than or equal to 5000
  353. amino acid residues;
  354.  - the length of protein name can not have more than 80 symbols;
  355.  - the numbers of proteins should not exceed 500.
  356.  
  357.                    2.1.3 LOAD 3D-STRUCTURE
  358.  
  359. User can load 3D structure of one of the analyzed proteins (when
  360. available). This structure will be used as a model for all analyzed
  361. proteins.  The files containing 3D data (.cb,.pdb) are supposed to be
  362. in PDB format.  PROANALYST is able to work with files containing only
  363. C-alpha, C-beta atoms or all protein atoms. The part of 3D structure
  364. can be loaded too.
  365.  
  366.  
  367.                       2.1.4 VIEW RESULTS
  368.  
  369. This options allows to see all results of PROANALYST calculations (files
  370. with filenames having the extension *.res).  The whole library of
  371. results can be created as the result of working with the program.
  372.  
  373.    F3 key is used to see the files.
  374.    F4 key is used to edit the files.
  375.  
  376.                      2.1.5  SAVE PROTEIN
  377.  
  378. User can save to disk any subset of initially selected protein family
  379. and activities in the form appropriate for further using (topic 2.1.2).
  380. All sequences from groups with numbers 1, 2, 3, etc.  (except group
  381. with number 0) will be saved.  After using this option the window
  382. appears that have file directory with extensions *.ALI.  In order to
  383. create new file it is necessary to type the new filename and press
  384. ENTER.  To append existing file, select the name and type ENTER.  You
  385. can enter to the section "Save protein" only if the options "File",
  386. "Load Protein" and "Prepare data" are executed.
  387.  
  388.                    2.1.6 LOAD PROTEIN FROM PDB FILE
  389.  
  390. Load protein sequence from PDB file. This option is available only after
  391. protein 3D-structure is loaded.
  392.  
  393.                      2.1.7 COMMANDER
  394.  
  395. User can execute any DOS command in this option.
  396.  
  397.                        2.2 OPTIONS
  398.  
  399. User has in this option the following menu to input parameters for
  400. further calculations:
  401.      
  402.          Calculation                        
  403.          Sequences display mode             
  404.          Display residues exposure (on/off) 
  405.          Display 2D structure (on/off)      
  406.          Display protein name (on/off)      
  407.          Display activity (on/off)          
  408.          View marked fragments (Current/All)
  409.          Window for protein name            
  410.          Window for activities              
  411.          Show property on a screen          
  412.          Sorting by (increase/decrees)      
  413.      
  414. Each parameter has some default value.
  415.  
  416.                          2.2.1 CALCULATION
  417.  
  418. Parameters and functions for calculations is given in this option.
  419.  
  420.                             2.2.1.1 EVALUATE
  421.  
  422. User chooses the type of data to be used in calculation:
  423.  
  424. 1. Only 1D-structure (default option),
  425. 2. Only 3D-structure.
  426. 3. 1D-structure and 3D-structure.
  427.  
  428.                            2.2.1.2 FUNCTION 1D-STRUCTURE.
  429.  
  430. Ten possible ways of fragment characteristic calculation from amino acid
  431. residue sequence or composition are taken into account:
  432.  
  433.   Average for a fragment (on/off)                     
  434.   Moment, Alpha-helix periodicity (on/off)            
  435.   Moment, Pi-helix periodicity (on/off)               
  436.   Moment, Beta-strand flat periodicity (on/off)       
  437.   Moment, Beta-strand twist periodicity (on/off)      
  438.   Moment, 3-10-helix periodicity (on/off)             
  439.   Minimum value for a fragment (on/off)               
  440.   Maximum value for a fragment (on/off)               
  441.   Amplitude value for a fragment (max - min) (on/off) 
  442.   Sum for a fragment (on/off)                         
  443.  
  444. User can switch on or off each type of function. 5 modes of moment
  445. calculation are introduced - each of them is connected with a some type
  446. of secondary structure of the region (Schultz and Schirmer, 1979).
  447. These characteristics are calculated by the same formula (Eisenberg et
  448. al., 1984) and differ only by values of periodicity angles (or by
  449. number of amino acid residues per turn).  In this section user
  450. switches off or on some particular function for calculation of the
  451. fragment characteristic and the way how to process gaps.
  452.  
  453.                2.2.1.3 FUNCTION 3D-STRUCTURE.
  454.  
  455. This option is available only if option "Analysis based on - 3D structure"
  456. is chosen.  With the using protein 3D coordinates the all neighbors
  457. for each amino acid residue are defined (via some threshold distance
  458. between C- alpha or C-beta or all atoms).  This amino acid residues
  459. are considered as spatial site.  For this spatial site the following
  460. characteristics can be calculated:
  461.  
  462.   Average for a spatial site                     (on/off) 
  463.   Minimum value for a spatial site               (on/off) 
  464.   Maximum value for a spatial site               (on/off) 
  465.   Amplitude value (max - min) for a spatial site (on/off) 
  466.   Sum for a spatial site                         (on/off) 
  467.   Dipole moment for a spatial site               (on/off) 
  468.   Empirical potential energy for ss              (on/off) 
  469.   Short range potential energy for ss            (on/off) 
  470.   Long range potential energy for ss             (on/off) 
  471.   Disp of L-r potential energy for ss            (on/off) 
  472.   Mean of L-r potential energy for ss            (on/off) 
  473.  
  474.  
  475. Dipole moment for a spatial site is calculated with the using of
  476. aa physical and chemical properties and 3D coordinates.
  477.  
  478. Empirical potential energy functions are defined by algorithm of
  479. Crippen (G.M Crippen and V.N. Viswanadhan. 1984). The empirical potential
  480. energy consists of two terms: short-range and long-range energies.
  481.  
  482. Dispersion and mean value of long-range potential energies are
  483. calculated for 6 site tertiary structures, obtained as the result of
  484. variations in amino acid residue (Ca-atoms) coordinates of the initial
  485. site.  Modified Ca-atoms coordinates are calculated as initial
  486. coordinates +/- 1 angstrom relative to axes X, Y and Z.  The long-range
  487. potential energy is calculated for each new site structure. Then the
  488. dispersion and mean value of long-range potential energies for 6 varied
  489. structures are calculated.
  490.  
  491. User  can  switch  on or off each type of function.
  492.  
  493.        2.2.1.4 HYPOTHESES AMOUNT (MAXIMAL AMOUNT OF SOUGHT SITES)
  494.  
  495. Maximal amount of protein fragments (sites) to be displayed on the screen
  496. as the result of automatic search.  User can select any number up to
  497. 200.  Default value is 25.
  498.  
  499.            2.2.1.5 MIN FRAME and 2.2.1.6 MAX FRAME
  500.  
  501. Minimal and Maximal length of protein fragments to be investigated in
  502. automatic search. MIN FRAME > or = 1, MAX FRAME < or = length of the 
  503. studied protein. Default values are: MIN FRAME=1, MAX FRAME=5.
  504.  
  505.             2.2.1.7 GAPS TREATMENT
  506.  
  507. In this section user is to select a way how to process gaps.
  508. There are two ways of processing gaps: in mode "Ignore" gaps will be
  509. omitted (for example, sequence ACDE--FG will turn into ACDEFG).  In mode
  510. "Exclude" sequences having gaps will be excluded from calculation of
  511. fragment characteristic.  The second way is based on the point of view
  512. that deletions greatly distort local protein structure and sites with the
  513. gaps can not be analyzed adequately by such a simple procedure (and hence
  514. there is reason to not take into account sites having gaps).  Default
  515. value is IGNORE.
  516.  
  517.               2.2.1.8  FRAGMENTS (split/merge)
  518.  
  519. There are two modes of working:
  520.  
  521.   SPLIT  - Each marked fragment is site for investigation.
  522.  
  523.   MERGE - Combine several marked fragments (with numbers 1, 2, 3,... etc.)
  524.           into one discrete site.  Only average, sum,  min and max functions
  525.           are available in this case.  Default value is: SPLIT.
  526.  
  527.            2.2.1.9  MIN NUMBER OF FACTORS and
  528.            2.2.1.10 MAX NUMBER OF FACTORS.
  529.  
  530. Min and max number of evaluated factors for regression and discriminant
  531. analysis. Default values are: 1 and 1.
  532.  
  533.                    2.2.1.11 CUTOFF RADIUS
  534.  
  535. CUTOFF RADIUS is the threshold distance (between C-alpha, C-beta or all
  536. atoms) for creation of spatial sites. Default value is 5 angstroms (for
  537. C-alpha atoms). 
  538.  
  539.                   2.2.1.12 TYPE OF INPUT ATOMS
  540.  
  541. The type of atoms is shown (CA or CB or ALL) that will be used in
  542. analysis of tertiary structure.  Choose what is necessary in your case.
  543. Default value is: CA.
  544.  
  545.                  2.2.1.13 PROFILE SMOOTHING
  546.  
  547. Switching On or Off the profile smoothing.  The value S(i) in position i
  548. for unsmoothed profile is equal to protein site characteristic
  549. calculated for the window [i,i+current frame length]. The formula for
  550. smoothing is:
  551.  
  552. SS(i)=(S(i)+S(i-1)+S(i-2)+...+S(i-current frame length))/current frame length
  553. Default value is: OFF.
  554.  
  555.               2.2.2  SEQUENCES DISPLAY MODE
  556.  
  557. One of the two types of displaying protein sequences on the screen may
  558. be used: "sequence" and "change".  If "sequence" mode is selected then
  559. complete sequences are displayed.  If "change" mode is selected then
  560. only amino acid differences are displayed for second, third, fourth,
  561. etc.  sequences relative to the first one.  Default value is: CHANGE.
  562.  
  563.             2.2.3  DISPLAY RESIDUES EXPOSURE (ON/OFF)
  564.  
  565. The surface amino acid residues will be shown in green if the mode "ON"
  566. is chosen (and if the relative file *.exp exists). Default value is: ON.
  567.  
  568.             2.2.4  DISPLAY 2D STRUCTURE (on/off).
  569.  
  570. The protein 2D structure will be shown above the sequences in the 
  571. mode ON is chosen (and if the relative file *.exp exists).
  572. Default value is: ON.
  573.  
  574.             2.2.5  DISPLAY PROTEIN NAME (on/off)
  575.  
  576. The names of proteins are displayed on the screen in case ON.  Default
  577. value is: ON.
  578.  
  579.             2.2.6  DISPLAY ACTIVITY (on/off)
  580.  
  581. The activities of proteins are displayed on the screen in case On.
  582. Default value is: ON.
  583.  
  584.             2.2.7  VIEW MARKED FRAGMENTS (Current/All)
  585.  
  586. There are two modes of working:
  587.  
  588.  CURRENT - only current fragment will be marked in red.
  589.  
  590.  ALL - all selected fragments will be marked in red.
  591.  
  592. Default value is: CURRENT.
  593.  
  594.  
  595.               2.2.8  WINDOW FOR PROTEIN NAME and
  596.               2.2.9  WINDOW FOR ACTIVITIES
  597.  
  598. Size of windows for protein names and protein activities.  Default values
  599. are: 15 and 5.
  600.  
  601.               2.2.9  WINDOW FOR GRAPHS
  602.  
  603. Sizes of window for graphs (structure-activity, profiles, discriminant
  604. function) can be changed in this option. 
  605.  
  606. Left - the coordinate of the left side of the window on the screen
  607. (min value is 1, max value is 80). Default value is 6.
  608.  
  609. Top - the coordinate of the top side of the window on the screen
  610. (min value is 1, max value is 25). Default value is 5.
  611.  
  612. Right - the coordinate of the right side of the window on the screen
  613. (min value is 1, max value is 80). Default value is 74.
  614.  
  615. Down - the coordinate of the down side of the window on the screen
  616. (min value is 1, max value is 25). Default value is 20.
  617.  
  618.               2.2.11 SHOW PROPERTY ON THE SCREEN
  619.  
  620. User can choose amino acid property to display on a screen. 
  621. Default value is: first property in the list.
  622.  
  623.               2.2.12 SORTING BY (increase/decrease)
  624.  
  625. There are two ways of protein sorting in the set:
  626.  
  627. INCREASE - to sort by increasing protein activities or group numbers.
  628.  
  629. DECREASE - to sort by decreasing protein activities or group numbers.  
  630.  
  631. Default value is: DECREASE.
  632.  
  633. To sort the protein set press "Alt S" in the main program window 
  634. and select appropriate mode of sorting.
  635.  
  636.                2.3 PREPARE DATA
  637.  
  638. This is one of the two main program units.  User can enter to this
  639. unit only after correct choosing the data in units "File" and "Protein".
  640. Entering to "Prepare Data" user will get the window with
  641. aligned amino acid sequences of investigated protein/peptide family.
  642.  
  643. In upper line of the window it is shown:
  644.  
  645. Line, Col -  positions of cursor in the multiple aligned sequences,
  646. Grp - the number of current active group (number of groups is less than
  647.       9),
  648. Frg - the number of current active fragment (number of fragments is  less
  649.       than 9),
  650. Ppt - the value of physico-chemical property of amino acid under cursor.
  651.  
  652. Keys <Alt B> and <Alt E> are used to mark the fragment for analysis.
  653.  
  654. Keys <Alt 1>, ...  , <Alt 8> are used to change the current fragment number.  
  655.  
  656. Keys <Ctrl Alt 1>, ...  , <Ctrl Alt 8> are used to change the current
  657. active group of proteins.
  658.  
  659. Keys <Ctrl Alt I> are used to combine all proteins to one group (with
  660. current group number).
  661.  
  662. Keys <Ctrl Alt C> are used to exclude protein(s) from analysis or to
  663. clear current grouping. The proteins will be marked with group number 0
  664. (such proteins are not used in analysis but in predictions only).
  665.  
  666. The proteins having group number equal to zero are not used in
  667. calculations. To change group number press ENTER.  There are several
  668. special command keys which facilitate the investigation of the protein
  669. family.
  670.  
  671.   Command keys          Effect
  672.  
  673.    < Esc >  Returns to the Main menu.
  674.    < Left > Moves cursor one position to the left.
  675.    < Right> Moves cursor one position to the right.
  676.    < Up >   Moves the string up.
  677.    < PgUp > Page up.
  678.    < PgDn > Page down.
  679.    < Down > Moves the string down.
  680.    < Home > Moves cursor to first position on the window.
  681.    < End >  Moves cursor to the last position on the window.
  682. < Ctrl Home > Moves cursor to the first position of the sequence.
  683. < Ctrl End> Moves cursor to last position of the sequence.
  684.    < Alt N >  Moves to the window for editing protein names.
  685.    < Alt D >  Moves to the window for editing protein activities.
  686. <Alt 1>,...,<Alt 8>  Switch between fragments. User may define up to 8
  687.                      different regions in a protein family  (fragments
  688.                      are  marked  by red color).  Initially the number
  689.                      of current fragment is equal to 1.
  690. < Alt B >, < Alt E > Define the beginning and the end of a fragment
  691.    < Alt U >         Unmark current fragment.
  692.    < Alt C >         Unmark all selected fragments.
  693.     < F7 >           Find a string (word) in a sequence under the
  694.                      cursor.  The matrix of amino acid similarity is
  695.                      used in the search (user choose the matrix from the
  696.                      set).  Symbol x should be used for undefined 
  697.                      positions.
  698.  
  699. ACDEFGHIKLMNPQRSTVWY   Edit the sequence of protein (to provide protein-
  700.                        engineering experiment).
  701.  
  702. The window for editing protein names has the following command keys:
  703.  
  704.   Command keys          Effect
  705.  
  706.    < Esc >              Returns to main working window.
  707.    < Left >             Moves cursor one position to the left.
  708.    < Right >            Moves cursor one position to the right.
  709.    < Up >               Moves the string up.
  710.    < Down >             Moves the string down.
  711.    < Home >             Moves cursor to the position of  first
  712.                         character  of the name.
  713.    < End >              Moves cursor to the position of
  714.                         end character of the name.
  715.    < F4 >               Starts editing.
  716.  
  717. The window for editing protein activities has the following command keys:.
  718.  
  719.   Command keys          Effect
  720.  
  721.    < Esc >              Return to main working window.
  722.    < Up >               Moves the string up.
  723.    < Down >             Moves the string down.
  724.    < F4 >               Starts editing.
  725.  
  726.  
  727.                         2.4 ANALYSIS.
  728.  
  729. The comparison of sequences in all methods of alphabetical analysis can
  730. be done with the using of matrices of amino acid similarity (MDM78, minimal
  731. mutational distance, etc.). For physico-chemical profiles and 
  732. structure-activity analysis the factors should be determined before the
  733. calculations. 
  734.  
  735.         2.4.1 FACTORS DEFINITION: FRAGMENT, FUNCTION and PROPERTY.
  736.  
  737. Here user inputs the set of factors that will be used in calculations
  738. of regression, discriminant and profile analysis.  The factor is the
  739. combination of three parameters: fragment of sequence, function and
  740. physico-chemical property.  To select the factors it is necessary to go
  741. through the set of menus.  At first it is necessary to select the fragment
  742. (from the set of fragments inputted in section PREPARE DATA).  Then the
  743. user selects the function(s) to calculate site characteristics.  Then the
  744. user selects the physico-chemical properties to calculate site
  745. characteristics.  All selected physico-chemical properties will be used in
  746. calculations with the earlier chosen functions.  To move through the menu
  747. use the keys: End, Home, PgUp, PgDn, Up, Down.
  748.  
  749.   Command keys          Effect
  750.  
  751.    < Enter >            Choosing the fragment, function or property.
  752.    < Esc >              Returns to previous menu.
  753.    < F1 >               Help
  754.  
  755.  
  756.                    2.4.2 STRUCTURE-ACTIVITY ANALYSIS.
  757.  
  758. The analysis of relationship between structure and activity in a family of
  759. proteins/peptides is performed in this section.
  760.  
  761.            Analysis in Automatic and Manual (by hand) modes.
  762.  
  763. In automatic mode the program generates and verifies hypotheses on the
  764. location of a sequential activity-modulating region in a protein, and key
  765. characteristics of this region.  The search depends of the values of
  766. MIN FRAME and MAX FRAME as well as of the types and numbers of selected
  767. factors ("Factors definition").  The window with the results appears by
  768. the end of automatic.  The results are ranked set of best hypotheses
  769. on structure-activity relation.  User can mark one hypotheses for
  770. further analysis in the manual mode (BY HAND).  Remember, that after
  771. marking some hypothesis the set of initially selected factors will be
  772. replaced by factors from marked hypothesis.
  773.  
  774.  
  775.         2.4.2.1  MULTIPLE LINEAR REGRESSION ANALYSIS.
  776.  
  777. Multiple linear regression permits to estimate the correlations
  778. (dependencies) between the variables and activity and to verify
  779. hypothesis on the nature of activity-modulating centers.  Such centers
  780. can include different parts of protein structure (discrete centers) or
  781. can have more than one key amino acid property influencing protein
  782. activity (e.g. charge and volume).
  783.  
  784. The window with the results of automatic search can be shown in 
  785. submenu "VIEW LAST RESULT".
  786.  
  787. In this unit the following characteristics are shown:
  788.  - protein site, property, function;
  789.  - the regression equation;
  790.  - 0.95 confidence intervals for all parameters of regression;
  791.  - all test statistics and their confidence levels;
  792.  - multiple correlation coefficient;
  793.  - coefficient of multiple determination;
  794.  - total variance of activity;
  795.  - residual mean square error (RMSE);
  796.  
  797. To visualize the results of multiple regression analysis the graphs of
  798. projections and correlation line between theoretical and measured
  799. activities are used (press F5 and F6 keys in the window with the textual
  800. results).
  801.  
  802. The projection is regression line for one factor when other factors are
  803. fixed (mean values is putting to regression equation for fixed factors).
  804.  
  805.   Command keys          Effect
  806.  
  807.    < Esc >              Abort.
  808.    < F2 >               Writes the results to the disk.
  809.    < F5 >               Plot structure-activity graphs.
  810.                         Press F2 in this window to print the 
  811.                         screen on laser or matrix printer.
  812.    < F6 >               Correlation line between theoretical and
  813.                         measured activities.
  814.  
  815.                  2.4.2.2  DISCRIMINANT ANALYSIS.
  816.  
  817. Discriminant analysis is used in the cases when protein activities are
  818. given only qualitatively or when protein are divided into groups by
  819. some criteria (Klecka, 1986).  It is possible to define the site and
  820. physico-chemical factor describing the given protein partition with the
  821. using of this analysis.  Obtained coefficients of canonical discriminant
  822. functions can be used in further classification of proteins.  
  823.  
  824. At first, the proteins should be divided in two or more groups.  Then
  825. the proteins should be sorted in order of increasing group numbers
  826. (press "Alt S" and select "SORT BY GROUPS").
  827.  
  828. The window with the results of automatic search can be shown 
  829. in submenu "VIEW LAST RESULT".
  830.  
  831.     The results of discriminant analysis have a lot of information:
  832. 1. Eigenvalues.
  833. 2. Ratio of eigenvalues to their sum.
  834. 3. Canonical correlation (R) %.
  835. 4. Square of canonical correlation (R^2) %.
  836. 5. Lambda-statistic of Wilks S.S.
  837.   5.1 Number of functions (k).
  838.   5.2 The values of statistics.
  839.   5.3 Statistics Chi-square  (degrees of freedom and critical values for
  840.       95% and 99% confidence level).
  841. 6. Discriminant function coefficients.
  842. 7. Standardized coefficients.
  843. 8. Structural coefficients (Pearson's correlation coefficients).
  844.  
  845.    This window has the following command keys:
  846.  
  847.   Command keys          Effect
  848.  
  849.    < Esc >              Abort.
  850.    < F5 >               Plots graph of discriminant function. 
  851.                         Press F2 key in this window to
  852.                         prints the screen on laser or matrix printer.
  853.    < F2 >               Writes the results to the disk.
  854.  
  855.               2.4.2.3  CROSS GROUPS VARIATION.
  856.  
  857. At the first stage of finding an activity-modulating regions the
  858. alphabetical analysis is reasonably to use.  Let us divide protein
  859. family into N groups of proteins with similar activities.  To calculate
  860. the inter group variability index the comparison of protein sites
  861. (sequential or spatial) can be done.  The number of protein pairs (each
  862. from different groups) that have the same contest of amino acid residues
  863. in given site is calculated at the first step.  Then this number is
  864. divided to the common number of all possible pairs of proteins.  So we
  865. get the number (varying from 0 to 1) that characterize the site
  866. variability.
  867.  
  868. The estimation of variability indexes is calculated based on pairwise
  869. comparison of proteins from different groups.
  870.  
  871.               I=1-log[9*Sum    Ri /N +1],
  872.                        i=1,N
  873.  
  874.               Ri=  Mult    r   ,     where:
  875.                            ij
  876.                   j=1,M
  877.  
  878.  N - the number of protein pares,
  879.  M - the number of positions in the site,
  880.  r - the element of matrix aa similarity,
  881.   ij
  882.  Sum - summation,
  883.  Mult - multiplication.
  884. If r   vary in the interval [0,1] then the values for I lies in the interval
  885.     ij
  886. [0,1]. In conservative position I=0.
  887.     The following matrices are implemented in the program:
  888. ONE -      uniform matrix,
  889. PHY-CHEM - physico-chemical similarity, based on McLachlan's matrix,
  890. ESAB -     matrix of evolutionarily related aa.
  891.  
  892. The window with the results of automatic search can be shown in 
  893. submenu "VIEW LAST RESULT".
  894.  
  895.   Command keys          Effect
  896.  
  897.    < Esc >              Abort.
  898.    < F2 >               Writes the result to the disk.
  899.  
  900.  
  901.                    2.4.3 FUNCTIONAL CENTER 
  902.  
  903.        2.4.3.1  AMINO ACID RESIDUES CONSERVATION IN CURRENT GROUP
  904.  
  905. Amino acid residues conservation in current group is calculated by the
  906. same way as in CROSS GROUP VARIATION (see 2.4.2.3) procedure but pairs
  907. of proteins are taken from the current group. The regions with low
  908. variability indexes are considered as conservative.
  909.  
  910. The window with the results of automatic search can be shown in 
  911. submenu "VIEW LAST RESULT".
  912.  
  913.                  2.4.4 PROFILE ANALYSIS.
  914.  
  915. The profile for primary structure is build with the using of sliding
  916. window (investigated site) of 1, 2, 3, 4 and so on amino acids.  In the
  917. case of tertiary structure profiles the procedure is as follows.  All
  918. amino acids - neighbors for given position (or positions) are defined
  919. via some threshold distance between C-alpha, C-beta or all atoms in
  920. amino acid residues (three different cases are implemented) in protein
  921. 3D structure.  This amino acid residues are considered as spatial
  922. activity-modulating site.  Spatial profile is the result of the
  923. consequence calculation of earlier described characteristics for all
  924. spatial sites.
  925.  
  926.              2.4.4.1  AVERAGE PROFILE
  927.  
  928. Physico-chemical or structural profiles are calculated for all
  929. individual proteins (with the exception of proteins with group number
  930. 0).  The resulting average profile is calculated as average value (in
  931. each point) of all profiles.
  932.  
  933.  
  934.                2.4.4.2  MIN PROFILE 
  935.  
  936. The resulting profile is equal to minimal value (not average) in each
  937. point of all individual profiles.
  938.  
  939.                2.4.4.3  MAX PROFILE 
  940.  
  941. The resulting profile is equal to maximal value in each point 
  942. of all individual profiles.
  943.  
  944.                2.4.4.4  CROSS GROUPS VARIATION
  945.                2.4.4.5  VARIATION IN CURRENT GROUP
  946.  
  947. The algorithms to profiles calculation are the same as in 2.4.2.3 (CROSS
  948. GROUPS VARIATION) with the only difference that sites are moving windows
  949. in protein structure (1D or 3D).  When MAX FRAME > MIN FRAME the profile
  950. is the average for several calculated profiles with the set of windows
  951. (lengths varying from MIN FRAME to MAX FRAME). Entering this
  952. section user need to select the matrix of aa similarity (from suggested
  953. catalog of names).  
  954.  
  955.           2.4.4.6 SADC-PROFILE
  956.  
  957. For calculation of the Structure-Activity Determination coefficient
  958. profile (SADC profile) the proteins are divided to some number of groups
  959. with the same amino acid content in the given site. SADC profile
  960. reflects the relations between variance of protein activity and site
  961. amino acid residue variability (to be published).
  962.  
  963. The amino acid comparison in all the methods of alphabetical analysis can
  964. be done with the using of matrices of amino acid similarity
  965. (physico-chemical, minimal mutational distance, etc). In all used
  966. methods the sites can be determined from protein sequence as well as
  967. tertiary structure.  After entering to this section user need to select
  968. the matrix of aa similarity (from suggested catalog of names). Then it
  969. is necessary to input the threshold value for site similarity.
  970.  
  971.   Command keys          Effect
  972.  
  973.    < Esc >              Abort.
  974.    < F5 >               Print screen.
  975.  
  976.                       2.4.4.7 RESIDUAL DISPERSION
  977.  
  978. This parameter is residual dispersion of activities after separation of
  979. proteins on some groups.  The procedure of calculation of statistic
  980. Residual Dispersion is taken from (W.R. Klecka, 1986).  Briefly, the
  981. proteins are divided to the some groups with the same amino acid
  982. content in the given site (sequential or spatial). The matrix of amino
  983. acid similarity is used in calculations.
  984.  
  985.  
  986.                    2.4.4.8  CROSS GROUPS VARIATION     3D
  987.                    2.4.4.9  VARIATION IN CURRENT GROUP 3D
  988.  
  989. These methods have the same sense as in case of sequences.
  990.  
  991.                    2.4.4.10  NORMALIZED CROSS GROUPS VARIATION 3D
  992.  
  993. Normalized cross groups variation (used only for 3D sites) is equal to
  994. cross group variation (calculated as described earlier) multiplied by
  995. average value of intra group conservation indexes. The last parameter,
  996. intra group conservation index, is defined as 1 minus variability index.
  997.  
  998.                   2.4.4.11  COORDINATED CHANGES 3D
  999.  
  1000. The values of the profile are the maximal correlation coefficient (in %)
  1001. between mutations in given position and mutations in neighborhood
  1002. positions of 3D structure (Sander, 1994).  The high correlation
  1003. coefficient reflects the existing another positions (close in 3D
  1004. structure to the first) with coordinated changes.
  1005.  
  1006. Example of coordinated changes:
  1007. M  D
  1008. F  R
  1009. F  R
  1010. C  A
  1011. C  A
  1012.  
  1013. All positions within spatial site are tested for presence of coordinated
  1014. changes with the center of the site.
  1015.  
  1016.              2.4.4.12  NUMBER OF COORDINATED POSITION 3D
  1017.  
  1018. The number of coordinated positions with the correlation coefficient
  1019. higher the cutoff parameter is calculated.  The correlation is
  1020. calculated based on the algorithm, described in the previous section.
  1021.  
  1022.  
  1023.                2.4.4.13  VIEW PROFILE ON 3D STRUCTURE
  1024.  
  1025. Each profile calculated in this program can be displayed on protein 3D
  1026. structure. User need to input two numbers to differentiate amino acid
  1027. residues of the protein into three sets: one set - positions with high
  1028. values on the profile, second set - positions with low values on the
  1029. profile, third set - positions with intermediate values on the profile.
  1030. Then user can see protein 3D structure with three above mentioned amino
  1031. acid residues types marked by various colors (and lines width). It is
  1032. possible to define also only two sets of positions (for example to
  1033. discriminate only high profile values on the profile).
  1034.  
  1035. User can change easy the modes to display protein 3D structure
  1036. (see SPATIAL SITE in menu item VIEW 3D).
  1037.  
  1038.                   2.4.4.14  SAVE PROFILE
  1039.  
  1040. In this submenu user can save to the disc each profile calculated in the
  1041. program. 
  1042.  
  1043.  Command keys           Effect
  1044.  
  1045.    < Esc >              Abort.
  1046.    < F3 >               View file from the catalog.
  1047.    < F4 >               Editing the file.
  1048.    < F9 >               New mask.
  1049.    < New name >         Type new name in command line to save profile
  1050.                         to new file (in another case the profile will be
  1051.                         added to existing file).
  1052.    < Enter >            Save profile.
  1053.  
  1054.                    2.4.4.15 DISPERSIONS PROFILE
  1055.  
  1056. Physico-chemical or structural profiles are calculated for all
  1057. individual proteins (with the exception of proteins with group number
  1058. 0). The resulting dispersion profile is equal to variance of
  1059. values in each point of these profiles.
  1060.  
  1061.               2.4.5  MOTIFS SEARCH (IN CURRENT GROUP).
  1062.  
  1063. This menu item serves to find common motifs in current group of sequences
  1064. (in the fragment No 1). Minimal and maximal lengths of searching motifs
  1065. should be defined earlier in menu item OPTIONS (MIN FRAME, MAX FRAME).
  1066. The results of searching can be seen in menu item VIEW LAST RESULT. The
  1067. table has the motif frequency (number of proteins from the current group
  1068. possessing with this motif) and sequence.  Frequent motifs, that present
  1069. in the most of the sequences are placed in the upper part of the table.
  1070. Variable positions are shown by symbol "-".
  1071.  
  1072.                   2.4.6 SORT
  1073.  
  1074. To sort the protein set press "Alt S" in the main program window 
  1075. and select appropriate mode of sorting.
  1076.  
  1077.  By activity - sorting by protein activity,
  1078.  By groups   - sorting by protein group number,
  1079.  By motifs   - sorting by motifs number in the sequence.
  1080.  
  1081. Choose what you need, then press ENTER and return back.  You'll get
  1082. reordered list of proteins in multiple alignment.  Sorting by protein
  1083. group numbers is absolutely necessary step if you are preparing to
  1084. provide discriminant analysis.
  1085.  
  1086.                       2.4.7 SAVE LAST RESULT
  1087.  
  1088. Any result found in automatic mode can saved to the disc in this
  1089. submenu item (the file also may be edited here). 
  1090.  
  1091.   Command keys          Effect
  1092.  
  1093.    < Esc >              Abort.
  1094.    < F3 >               View file from the catalog.
  1095.    < F4 >               Edit the file.
  1096.    < F9 >               Select new mask for filename.
  1097.    < New name >         Type new name in command line to save result
  1098.                         to new file, in another case the result will be
  1099.                         added to existing file.
  1100.    < Enter >            Save result.
  1101.  
  1102.  
  1103.           2.4.8 VIEW LAST RESULT
  1104.  
  1105. Viewing the result found in automatic mode. The result is shown as short
  1106. table. Each line has brief description of the result of one calculation
  1107. (one hypothesis). To see detailed description move cursor to desired
  1108. line and press F3. Then you can see relative graph, if available. Also
  1109. you can mark (press ENTER) one hypothesis for further investigation in a
  1110. manual mode ("by hand").  After choosing a hypothesis the set of
  1111. initially selected factors (marked site(s), amino acid factors and
  1112. functions, see section 2.4.1) will be replaced by site(s) and factors
  1113. from selected hypothesis. User can analyze taken factors BY HAND (in
  1114. manual mode).  The window with the results of automatic search can be
  1115. shown in any time.
  1116.  
  1117.              2.5 VIEW 3D-STRUCTURE.
  1118.  
  1119.             2.5.1 SPATIAL SITE
  1120.  
  1121. This module assign for viewing 3D-structure of proteins and spatial
  1122. sites.  Protein sites marked in section PREPARE DATA (or VIEW LAST
  1123. RESULT) will be shown here in colors. The graphical module is highly
  1124. flexible: there are three types of residues in the protein, that may be
  1125. treated separately:
  1126.  
  1127. A (SITE CENTERS) - sites, marked earlier in the PREPARE DATA menu item
  1128. or just now in this window (press ENTER on desired position) or as the
  1129. result of selecting site in submenu VIEW RESULTS;
  1130.  
  1131. B (NEIGHBORS) - the residues that are close to the SITE CENTERS
  1132. (the cutoff radius is given in menu items OPTIONS, CALCULATION);
  1133.  
  1134. C (PROTEIN) - all other residues of protein.
  1135.  
  1136. The style to display residues of types A, B, C can be changed
  1137. independently (see help - lines at the top and the bottom of the
  1138. screen).  Amino acid sequence of the protein is shown on the screen (the
  1139. sequence is taken from PDB-file, but not from *.ali file). The colors of
  1140. the letters related to the colors of residues on the stereo picture.
  1141. This module can be used also independently to display protein structures
  1142. (without loading any protein family for analysis).
  1143.  
  1144. User has options to:
  1145.  
  1146. - display alternatively C-alpha or all-atom protein models;
  1147.  
  1148. - rotate the structure, change the dimensions of the picture, stereo
  1149. angle, distance between stereo pictures (even to display mono pictures,
  1150. when the distance is zero);
  1151.  
  1152. - change the width of the main chain and the backbone, the colors of
  1153. types A, B and C residues (the site, its neighbors and the rest of the 
  1154. molecule);
  1155.  
  1156. - change the size and colors of C-alpha atoms;
  1157.  
  1158. - create new spatial site (by moving cursor through backbone and
  1159. pressing ENTER);
  1160.  
  1161. - print picture to printer.
  1162.  
  1163. The following functional keys are used in the program (as shown on the
  1164. bottom line of the screen):
  1165.  
  1166. -----------------------------------------------------------------------------
  1167. F2-PROTEIN  F3-SITE CENTERS   F4-NEIGHBORS  F5-OPTIONS  F6-PRINT F10-QUIT 
  1168. -----------------------------------------------------------------------------
  1169.  
  1170. Command key     Effect
  1171.  
  1172. F2-PROTEIN      changes the modes to display the residues of the type C.
  1173.  
  1174. F3-SITE CENTERS changes the modes to display the residues that are
  1175.                 CENTERS OF THE SITES marked earlier in PREPARE DATA or 
  1176.                 here (type A).
  1177.  
  1178. F3-NEIGHBORS    changes the modes to display the residues that are
  1179.                 within cutoff radius from CENTERS OF THE SITES (type B).
  1180.  
  1181. F5-OPTIONS      changes the numeration, picture size, distance between the
  1182.                 stereo pictures, stereo angle.
  1183.  
  1184. F6-PRINT        prints the picture to printer (laser or matrix).
  1185.  
  1186. F10-QUIT        returns back.
  1187.  
  1188.  
  1189. After pressing F2, F3 or F4 the following submenu appears:
  1190.  
  1191. -----------------------------------------------------------------------------
  1192. COLOR:SIDE CH,CA,BACKBONE,BACKGRND; WIDTH: SIDE CH,BACKBONE,CA;CHANGE:Grey +,-
  1193. -----------------------------------------------------------------------------
  1194.  
  1195. The first part (COLORS) serves to change the colors of the lines in
  1196. chosen type of residues.  User can change the colors of side chains
  1197. (SIDE CH), of C-alpha atoms (CA) and of protein backbone (BACKBONE).
  1198. The color of the screen background can be changed also (BACKGRND).
  1199.  
  1200. The second part (WIDTH) serves to change the width of the lines in
  1201. chosen type of residues.  User can change the width of side chains (SIDE
  1202. CH), of protein backbone (BACKBONE) or of C-alpha atoms (CA).
  1203.  
  1204. To change any picture element it is necessary to move cursor to the
  1205. relative position (LEFT and RIGHT ARROW keys should be used) and press
  1206. keys <GREY-> or <GREY+>.  Pressing <GREY-> or <GREY+> several times you
  1207. can get desirable size, color, numeration and width of the lines and
  1208. C-alpha atoms.  The width of the lines have three meanings: heavy lines,
  1209. thin lines and the absence of lines (last case helps you to remove some
  1210. parts of the structure from the picture if necessary).
  1211.  
  1212. In submenu item OPTIONS (F5) the following submenu appears:
  1213.  
  1214. -----------------------------------------------------------------------------
  1215. NUMERATION SIZE DISTANCE-BETWEEN-PICTURES STEREO-ANGLE;CHANGE:GREY <-,->,+,- 
  1216. -----------------------------------------------------------------------------
  1217.  
  1218. To change picture element it is necessary to move cursor to the relative
  1219. position (LEFT and RIGHT ARROW keys should be used) and press key
  1220. <GREY-> or <GREY+>.  Pressing <GREY-> or <GREY+> some times you can set
  1221. desirable options: change the numeration, picture size, distance between
  1222. the stereo pictures and stereo angle. (Increasing stereo angle to
  1223. 90o, you'll get two pictures from the different sides of the protein).
  1224.  
  1225.                     2.5.2 SIMPLE MARKING
  1226.  
  1227. This module serves for marking different amino acid residues groups
  1228. without relation to window with the sequences and without automatic
  1229. marking spatial neighbors (as in SPATIAL SITE module).  All amino acid
  1230. residues are divided into three groups, that can be treated separately:
  1231. LOW GROUP, MEAN GROUP and HIGH GROUP. The status of current group is
  1232. displayed on the top left side of the screen. The style of displaying
  1233. residues of these three groups can be changed independently.
  1234.  
  1235. The mode of working in this module is the same as in module SPATIAL SITE.
  1236.  
  1237. The help-line on the bottom of the screen is:
  1238.  
  1239. -----------------------------------------------------------------------------
  1240.  F2-MEAN GROUP  F3-HIGH GROUP  F4-LOW GROUP  F5-OPTIONS  F6-PRINT  F10-QUIT
  1241. -----------------------------------------------------------------------------
  1242.  
  1243. To change the current group options you should press relatively F2, F3
  1244. or F4. The following submenu appears, that is the same as in module
  1245. SPATIAL SITE.
  1246.  
  1247. -----------------------------------------------------------------------------
  1248. COLOR:SIDE CH,CA,BACKBONE,BACKGRND; WIDTH: SIDE CH,BACKBONE,CA;CHANGE:Grey +,-
  1249. -----------------------------------------------------------------------------
  1250.  
  1251. To change only the current group status (mean, high, low) you should press
  1252. F2 and <Esc>, F3 and <Esc>, F4 and <Esc>.
  1253.  
  1254. The colors of groups in 3D picture coincide with the colors of letters in
  1255. the protein sequence on the bottom of the screen.
  1256.  
  1257.  
  1258.                           2.6 HELP.
  1259.  
  1260. Help information can be invoked by pushing F1 key in each submenu.  In
  1261. addition, the last line of screen has short help for each menu option.
  1262.  
  1263.                           2.7 QUIT.
  1264.  
  1265. To exit from the program go to menu option QUIT and press Enter.
  1266.  
  1267.                   3. GENERAL INFORMATION
  1268.  
  1269. The distribution diskette contains the following several necessary and
  1270. supplementary files.  All files should be in the same directory.  There
  1271. are files with the examples.
  1272.  
  1273.                    4.   REQUIREMENTS
  1274.  
  1275. PROANALYST runs on the IBM PC family of computers, including XT, AT.
  1276. PROANALYST requires DOS 3.3 or higher and at least 560K of RAM; it will run
  1277. on any 80-column monitor but graphics require EGA/VGA monitor.  A hard disk
  1278. is recommended for enhancing performance of the program.
  1279.  
  1280.  
  1281.                   5. STANDARD ERRORS LIST
  1282.  
  1283. ERROR=0 - successful finishing the program.
  1284.  
  1285. In case of some problems the program sends the following messages:
  1286.  
  1287. ERROR= -1 - file input/output error.  The program can not find the file
  1288. with the given filename.  Recommendation: check the filename and correct
  1289. it.
  1290.  
  1291. ERROR= -2 - there is not enough RAM (random access memory) in your computer
  1292. to execute the program.  Recommendations: unload resident programs, use
  1293. high memory or divide your protein sequences into two overlapping parts and
  1294. investigate them separately.
  1295.  
  1296. ERROR= -79 - errors in datafiles: 1.  The number of sequences is not
  1297. equaled to the number of data in activity file. 2.  There are lines without
  1298. data in the file with activities.  Recommendation: check the file with
  1299. activities and correct it (in case if activity is not known for any member
  1300. of the family, input some number like 9999, but do not use this protein in
  1301. structure-activity).
  1302.  
  1303.  
  1304.                     6. NOTE FROM AUTHORS
  1305.  
  1306. The program is constantly growing, so the manual may have some
  1307. differences with the current state of the program.
  1308.  
  1309. If you've found errors or have any proposals to improve PROANALYST
  1310. program please contact Ivanisenko V.A. or Eroshkin A.M., Research Institute
  1311. of the Molecular Biology, SRC VB "Vector", Koltsovo, Novosibirsk region,
  1312. 633159, Russia.
  1313.  
  1314. Tel.(3832)-64-77-74
  1315. Telex 133196 NPOSU
  1316. Fax: (3832) - 328831;
  1317. E.mail: salex@vector.nsk.su  (to Vladimir Ivanisenko),
  1318. eroshkin@vector.nsk.su (to Alexey Eroshkin)
  1319.  
  1320.  
  1321. FEEL FREE TO CALL US. We'll be very glad to hear from you anyway.
  1322.  
  1323.  
  1324.                       7. REFERENCES
  1325. Eroshkin A.M., Fomin V.I., Zhilkin P.A.,Ivanisenko V.V., Kondrachin Y.V.
  1326. PROANAL version 2: multifunctional program for analysis of multiple
  1327. protein sequence alignments and for studying the structure-activity
  1328. relationships in protein families.CABIOS,1995, V 11, N 1, pp 39-44.
  1329.  
  1330. Eroshkin A.M., Zhilkin P.A., Fomin V.I.  (1993) Algorithm and computer
  1331. program Pro_Anal for analysis of relationship between structure and
  1332. activity in a family of proteins or peptides.  CABIOS, v.9, n.  5, 491-
  1333. 497.
  1334.  
  1335. Crippen G.M. and Viswanadhan V.N. (1984) A potential function for
  1336. conformational analysis of proteins. Int. J.Pept. Prot. Res. 24, 279-296.
  1337.  
  1338. Bolshev,L.N. and Smirnov,N.B.  (1983) Tables of mathematics statistics
  1339. (in Russian), Moscow, Nauka, p.284.
  1340.  
  1341. Eisenberg,D., Schwarz,E., Komaromy M., Wall R.  (1984) Analysis of
  1342. membrane and surface protein sequences with the hydrophobic moment plot.
  1343. J. Mol. Biol., 189, p.125-142
  1344.  
  1345. Klecka W.R.  Discriminant analysis. Seventh Printing, 1986.
  1346.  
  1347. Kidera,A., Konishi,Y., Oka,M., Ooi,T., Sheraga,H.,A. (1985) Relation
  1348. between sequence similarity and structural similarity in proteins.  Role
  1349. of important properties of amino acids.  J. Prot. Chem., 4, 23-55.
  1350.  
  1351. Schultz,G.E.  and Schirmer,R.H.  (1979) The Principles of Protein
  1352. Structure, Springer-Verlag, New York.
  1353.  
  1354. Kendall,M. (1970) Rank correlation methods, Griffin London.
  1355.  
  1356.  
  1357.  
  1358.  
  1359.  
  1360.  
  1361.