home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / isoc / pub / isoc_news / 1-2 / n-1-2-005.10a.Z / n-1-2-005.10a
Text File  |  1994-03-26  |  10KB  |  187 lines

  1. 005.10 How Big is the Internet?
  2. by Michael F. Schwartz
  3. <schwartz@latour.cs.colorado.edu>
  4.  
  5.       The question often arises, "How big is the Internet?"  To answer this
  6.  question, we must first define what we wish to measure.  At one time,
  7.  connectivity via the IP protocol suite defined the Internet.  Since a
  8.  number of protocols now coexist on the Internet, some people have
  9.  suggested defining the Internet instead by a common name space (perhaps
  10.  the Domain Naming System or X.500).  This definition is counterintuitive,
  11.  since it elides differences between various types of physical
  12.  connectivity.  In particular, it does not distinguish the parts of the
  13.  network that can support interactive applications (like remote login) from
  14.  dialup-based, mail-only connections.  Given the advantages of interactive
  15.  connectivity and the growing popularity of IP, in this article I consider
  16.  only the interconnected IP Internet.
  17.  
  18.       M. Lottor recently published  in RFC 1296  the
  19.  results of a ten year study that counted
  20.  the number of hosts in domains that have IP addresses registered in the
  21.  DNS (as opposed to domains that register only "mail exchange" (MX) records
  22.  that allow mail to be forwarded to through an intermediary host).
  23.  In the early years the data were extracted from host tables
  24.  maintained by the DDN Network Information Center.  Later, measurements
  25.  were taken by a program that recursively descends the Domain Naming tree,
  26.  retrieving information about all domains that allow "zone transfers".
  27.  
  28.       Many of the hosts counted by Lotor's study are hidden behind secure
  29.  gateways or otherwise not directly connected to the Internet.  Therefore,
  30.  Lottor's study really indicates the spread of IP and the Domain Naming
  31.  System at sites connected to the Internet.  A more meaningful
  32.  measure of Internet size is the number of domains at which common network
  33.  services can be contacted, since it is through such services that a site
  34.  gains the advantages of connectivity.
  35.  
  36.       A study that tracks changes in service-level reachability in the Internet
  37.  is now underway.
  38.  While the measurements will not be complete until the end of 1992,
  39.  the first set of measurements that have been collected can be used to
  40.  characterize the current size of the interconnected IP Internet.  The
  41.  final study will provide much more information than just Internet size.
  42.  It will indicate relative growth rates among different countries, trends
  43.  in the types of services to which sites limit access, how sites limit
  44.  access to these services, and the types and geographical distribution of
  45.  sites that distance themselves from the Internet.
  46.  
  47.       Starting with a large list of domains, my study attempts to
  48.  connect to the following TCP/IP services at each domain:
  49.  
  50.  __________________________________________________________________
  51.   Port Number         Service          Port Number      Service
  52.  ------------------------------------------------------------------
  53.       13              daytime              111        Sun portmap
  54.       15              netstat              513          rlogin
  55.       21                FTP                514            rsh
  56.       23               telnet              540           UUCP
  57.       25                SMTP               543          klogin
  58.       53        Domain Naming System       544       krcmd, kshell
  59.       79               finger
  60.  __________________________________________________________________
  61.  
  62.  
  63.  This list was chosen to span a representative range of service types,
  64.  each of which can be expected to be found on any machine in a site (so
  65.  that probing random machines is meaningful).  The one exception is the
  66.  Domain Naming System, for which the machines to probe are selected from
  67.  information obtained from the Domain system itself.  Only TCP services
  68.  are tested, since the TCP connection mechanism allows one to determine
  69.  if a server is running in an application-independent fashion.
  70.  
  71.       From a list of approximately 12,700 Internet domains worldwide
  72.  (generated from Lottor's January 1991 data plus a number of other
  73.  sources), successful connections were recorded to at least one of the
  74.  above services in 4,455 domains, broken down by top-level domain as
  75.  follows:
  76.  
  77.  _________________________________________________________________
  78.    Top-level      Description      Number of Domains Reachable by
  79.   Domain Name                        Measured Internet Services
  80. ------------------------------------------------------------------
  81.   edu           U.S. Educational                2048
  82.   com           U.S. Commercial                  494
  83.   ca            Canadian                         299
  84.   au            Australian                       278
  85.   de            German                           174
  86.   se            Swedish                          167
  87.   gov           U.S. Government                  128
  88.   mil           U.S. Military                    115
  89.   jp            Japanese                         106
  90.   net           Named by network                  96
  91.   nl            Dutch                             84
  92.   org           Non-profit                        56
  93.   fr            French                            55
  94.   no            Norwegian                         55
  95.   fi            Finnish                           45
  96.   uk            British                           44
  97.   it            Italian                           39
  98.   dk            Danish                            38
  99.   at            Austrian                          21
  100.   nz            New Zealand                       21
  101.   ch            Swiss                             20
  102.   il            Israeli                           16
  103.   is            Icelandic                          8
  104.   es            Spanish                            8
  105.   kr            Korean                             5
  106.   be            Belgian                            4
  107.   gr            Greek                              4
  108.   za            South African                      4
  109.   br            Brazil                             3
  110.   ie            Irish                              3
  111.   tw            Taiwanese                          3
  112.   us            Other U.S.                         3
  113.   arpa          ARPANET names                      2
  114.   mx            Mexican                            2
  115.   sg            Singapore                          2
  116.   hk            Honk Kong                          1
  117.   in            Indian                             1
  118.   int           International                      1
  119.   pt            Portuguese                         1
  120.   tn            Tunisian                           1
  121.   ------------------------------------------------------
  122.  
  123.  
  124.       This list is a lower bound, since it depends on the span of the
  125.  initial list of domains.  Nonetheless, the measurements provide an
  126.  interesting point of comparison.  For example, it is clear that the
  127.  number of USA sites is much larger than the number of sites in any
  128.  other country in the world.  In fact, there are nearly twice as many
  129.  USA sites as sites in all other countries combined.  However, given
  130.  the rapid growth rate of IP connectivity in other countries, within one
  131.  to two years there will be more sites internationally than in
  132.  the USA.
  133.  
  134.       To help underscore the distinction between service-level
  135.  connectivity and IP host count at Internet sites, it was found that 7,242
  136.  domains in Lottor's January 1991 list (out of 11,194 in that list) were
  137.  not reachable by the above Internet services.  The ratio of service
  138.  reachable to all IP domains may continue to decrease, as security
  139.  problems garner increasing concern.  The results of the study will help
  140.  uncover the trend here.
  141.  
  142.       The services reached by my measurement software were as follows:
  143.  
  144.               ___________________________________
  145.                   Service      Number of Domains
  146.                telnet                4170
  147.                FTP                   4027
  148.                SMTP                  3952
  149.                rlogin                3811
  150.                rsh                   3777
  151.                finger                3637
  152.                daytime               3492
  153.                Sun portmap           3421
  154.                UUCP                  2217
  155.                Domain                1803
  156.                netstat                294
  157.                klogin                  95
  158.                krcmd, kshell           93
  159.                ----------------------------
  160.  
  161.  
  162.       From this list it is clear that the "Big Three" applications
  163.  (remote login, file transfer, and mail) are the main services in use.
  164.  Interestingly, UUCP appears in more domains than DNS, even though TCP
  165.  based UUCP (as opposed to dialup UUCP) is being phased out of
  166.  existence, as NNTP gains popularity.  The reason for this is probably
  167.  two fold.  First, most domains contract DNS service from other domains,
  168.  to avoid the administrative effort required to run a Domain server.
  169.  Second, many computers probably come with UUCP configured in by the
  170.  manufacturer.
  171.  
  172. For additional information and metrics, other recent work is now available.
  173. The size of the set of computer networks interconnected for at least 
  174. mail or news service referred to as "The Matrix" is discussed by John
  175. Quarterman in his book and newsletters by the same name.  The diameter 
  176. of the interpersonal communication graph enabled by electronic mail is
  177. discussed in the paper "Discovering Shared Interests Among People Using 
  178. Graph Analysis of Global Electronic Mail Traffic" prepared by Schwartz
  179. and Wood at the Univsity of Colorado Department of Computer Science.
  180. Anyone who is considering performing measurement studies of the Internet
  181. is urged to read Vint Cerf's "Guidelines for Internet Measurement
  182. Activities" in RFC 1262, Oct. 1991.
  183.  
  184.  
  185. * Assistant Professor, Dept of Computer Science, Univ. of Colorado
  186. Boulder, Colorado, USA
  187.