home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / idmr / idmr-minutes-95dec.txt < prev    next >
Text File  |  1996-06-03  |  13KB  |  256 lines

  1. CURRENT MEETING REPORT
  2.  
  3.  
  4. Minutes of the Inter-Domain Multicast Routing Working Group (idmr)
  5.  
  6. Reported by Bill Fenner, Xerox PARC and Tony Ballardie, University 
  7. College London
  8.  
  9.  
  10. First Session
  11.  
  12. Deborah Estrin spoke first about interoperability mechanisms between 
  13. PIM sparse mode and a multicast backbone, whether it be level two or 
  14. current DVMRP.  All groups use local RP's, and the border routers join 
  15. towards the local RPs in order to inject traffic into the backbone.  A 
  16. single designated border router registers externally-sourced packets to 
  17. the internal RP.  Internal RPs advertise themselves on a special 
  18. bootstrap group whose RP is elected via PIM Query messages.  Open 
  19. issues here include whether to explicitly notify the designated border 
  20. router of group memberships inside the domain or to do "flood and 
  21. prune," and how to use a domain of this type for transit traffic.
  22.  
  23. Deborah then spoke about how to connect such domains with a PIM-SM 
  24. backbone.  The changes in this case are limited to the local RPs.  When 
  25. there is a PIM-SM backbone, there is a hierarchy of RPs; it is not yet 
  26. clear if two levels of hierarchy are enough or if we need more.  Join 
  27. messages are modified to include a hierarchy level and crossing tree 
  28. branches are handled by having the highest level branch "win."  If a 
  29. level one Join message meets a level 2 tree branch, it doesn't change the 
  30. incoming interface.  The local RPs join to the next level RPs.  Candidate 
  31. RP lists are distributed using the same bootstrap mechanism as in the 
  32. local domain.
  33.  
  34. Mark Handley then spoke about Hierarchical PIM, or HPIM.  HPIM is 
  35. similar to Deborah's scheme (and Deborah's scheme was derived from 
  36. Mark's proposal), but Mark expects HPIM to have five to six levels of 
  37. hierarchy.  Each RP knows its own level and knows the candidate RP 
  38. list for the next level up.  The group address can be hashed into the list 
  39. of RP's to determine the RP for that group.  This gets rid of the 
  40. requirement of storing RP/group mappings.  The candidate-RP list is not 
  41. meant to change often, but when it does, the old RP joins to the new RP 
  42. to keep the tree intact and initiates transfers of its receivers to the new 
  43. RP.
  44.  
  45. HPIM also makes the following "gratuitous" changes to PIM, which are 
  46. not directly related to the hierarchy of RPs.  Join messages establish bi-
  47. directional forwarding state, not unidirectional, and they get ACK'd.  
  48. RP failure is determined by timeouts and is handled by using an 
  49. alternate hash function to determine a fallback RP.  If there are local 
  50. receivers to a domain, a sender in the same domain uses their (bi-
  51. directional) state; if not then it sends a "sender join" hop-by-hop 
  52. towards the RP until it hits the tree; "sender join" state is 
  53. unidirectional.  The loop avoidance mechanism can result in 
  54. unnecessary traffic flow but is relatively simple.
  55.  
  56. Outstanding issues include that there is potentially too much 
  57. configuration of the hierarchy and RPs; however, there may be a way 
  58. to automatically configure such things.  The hash function can lead to a 
  59. sub-optimal top level RP, but since tree links are bidirectional you can 
  60. potentially prune off the top-level RP.  More thinking needs to be done 
  61. on the topics of changing RP's dynamically based on traffic load, and on 
  62. RP selection algorithms.
  63.  
  64. The second half of the meeting was on providers' experiences with 
  65. deploying PIM in their networks.  First, Matt Crawford from Fermilab 
  66. spoke about his experiences with PIM and High Energy Physics.  HEP 
  67. generally has large collaborations, and these collaborations meet 
  68. several times per week using multicast conferencing tools.  In addition, 
  69. there are accelerator controllers which can multicast their readings, 
  70. allowing multiple users to see results at once.
  71.  
  72. Matt said that he liked PIM because all he had to do was turn it on in 
  73. his routers and it "just worked," and because he owns many routers but 
  74. few workstations.  Steve Deering stood up and commented that Matt 
  75. would probably have the same experience with any multicast routing 
  76. protocol implemented in a router, and that the choice of PIM was 
  77. simply predicated by the brand of router.  Matt more or less agreed.
  78.  
  79. Petri Helenius from Santa Monica Software spoke about MBONE 
  80. deployment in Finland.  PIM Dense Mode is deployed throughout 
  81. Finland, and DVMRP pruning is implemented at DVMRP 
  82. interoperability points, meaning that multicast should prune all the 
  83. way back to Sweden.  The emphasis was again that they had country-
  84. wide multicast reachability without requiring "kernel hackers" at 
  85. each site.
  86.  
  87. The issues that Petri brought up included that PIM-DM is wasteful on 
  88. state on sparse-membership groups, NBMA issues have not yet been 
  89. resolved, and the need for configuration guidelines for DVMRP 
  90. interoperation and for suggested topologies.
  91.  
  92. David Meyer from University of Oregon then spoke about having a 
  93. multi-homed campus.  He wanted to have ubiquitous multicast 
  94. integrated with the existing infrastructure, as well as redundant 
  95. external connectivity and integration, with Internet service providers.  
  96. His network uses sparse mode PIM, but has the problem that his unicast 
  97. topology is too rich, and PIM can't (yet?) RPF over a multipath link, so 
  98. even if he has multiple T1's between two sites he can only use one.  He 
  99. glues sparse mode domains together with dense mode domains to work 
  100. around policy and RP placement issues.  He is providing multicast to 200 
  101. subnets, and it is nearly ubiquitous in his network.
  102.  
  103.  
  104. Second Session
  105.  
  106. Day two began with a presentation on multicast traceroute, released 
  107. recently as an IDMR Internet-Draft.  All MBONE users were strongly 
  108. encouraged to implement mtrace since it makes debugging problems so 
  109. much easier. Currently, it is estimated 58% of the MBONE implements 
  110. 'mtrace.'
  111.  
  112. 'mtrace' has been designed to operate with the assumption that the  
  113. underlying multicast routing protocol is based on RPF.  Hence, a call was 
  114. made to the designers of shared tree protocols (CBT, PIM-SM) for 
  115. feedback on whether/how 'mtrace' can work with shared trees.
  116.  
  117. A call was made requesting that IGMPv2 be moved forward to proposed 
  118. standard. There were no objections. However, it is currently unclear 
  119. whether this will actually move forward to proposed standard, or be 
  120. published as an informational RFC. The Routing Area Director should 
  121. decide on the best course of action, given that the group voiced no 
  122. objections regarding its standardization.
  123.  
  124. A CBT protocol update was given. The protocol has been considerably 
  125. streamlined since the previous draft release (June 1995).  A new draft 
  126. indicating the very latest proposed changes should be submitted within 
  127. the next week. At this stage, the CBT designers consider the protocol to 
  128. remain stable (as far as the functional spec is concerned). However, it 
  129. remains to be fully specified how CBT interoperates with DVMRP (and 
  130. other protocols for that matter).  The CBT designers are working on this 
  131. and expect to announce an interoperability document shortly.
  132.  
  133. The following is a summary of the CBT protocol updates:
  134.  
  135. o  Multi-access LAN designated router (DR) election has been re-
  136. invented.  The CBT default DR is the same router as the IGMP 
  137. querier. Hence, no protocol is required for CBT DR election.
  138.  
  139. This assumes that any CBT-capable subnetwork has only the CBT 
  140. multicast protocol running over it. If this assumption is not made, then 
  141. the IGMP querier could be a multicast router of another scheme. For this 
  142. scenario, interoperability between CBT and all other protocols needs to 
  143. be defined. The working group is currently trying to establish a 
  144. protocol-independent mechanism for interoperability to avoid each 
  145. protocol having to define interoperability mechanisms between each 
  146. other protocol.  For the moment then, it is safe to assume that any one 
  147. subnetwork is running only a single multicast routing protocol.
  148.  
  149. o  The core tree (the part of the CBT tree linking all cores together) is 
  150. now built "on-demand."  This requires that all group members and 
  151. potential new members to agree on the identity of only the 
  152. primary core router. The primary core, together with a list of 
  153. alternate (secondary) cores is distributed throughout the network 
  154. by some T.B.D. mechanism (e.g. hpim, <core,grp> advertisements, 
  155. etc.).
  156.  
  157. The on-demand core tree building works as follows: any secondary core 
  158. that receives a join, first acks the join, then sends a join-request, code 
  159. rejoin, to the primary core so the tree becomes fully connected.  The 
  160. primary core only ever listens for incoming joins; it never need join any 
  161. entity itself.
  162.  
  163. o  Native mode.
  164.  
  165. This assumes CBT routers operate in a CBT-only "cloud", i.e. 
  166. multicast routers of other schemes are not active within the same 
  167. cloud. This allows for much faster packet switching times, also 
  168. helped by the fact that no RPF check is necessary.
  169.  
  170. o  Maintenance message "aggregates."
  171.  
  172. Rather than have a CBT-ECHO-REQUEST/REPLY sent for each 
  173. child/parent on a per group basis, the protocol now aggregates 
  174. these messages so that only a single request/response pair is sent 
  175. for any child-parent pair. This is especially attractive in those 
  176. parts of the network where links are likely to be shared across 
  177. groups. Considerable bandwidth savings are possible with this 
  178. mechanism.
  179.  
  180. o  Rejoins and loop-detection.
  181.  
  182. The dual mechanisms of rejoining and loop detection has been 
  183. made simpler and more straightforward.  The new scheme means 
  184. that a rejoining node first receives an ack before it (rather than 
  185. the node sending the ack) generates a rejoin-nactive (loop 
  186. detection packet). This new technique avoids the router sending 
  187. the ack performing any packet 'translation'.
  188.  
  189. o  Proxy-ack.
  190.  
  191. Although discussed in the draft (spec) released immediately prior 
  192. to IDMR Dallas, it was discussed in a meeting of the CBT 
  193. designers immediately prior to the IDMR meetings, and decided 
  194. that there was a case where proxy-acks should not be used.  They 
  195. are no longer present in the protocol.
  196.  
  197. Overall, the CBT protocol has been streamlined considerably.  There 
  198. are now far fewer control messages, resulting in a further simplified 
  199. protocol engine.  An aggregated join mechanism is currently being 
  200. worked through such that, subsequent to a router/link failure, groups 
  201. with overlapping core(s) can send a single 'aggregated' join to re-
  202. establish connectivity, rather than have each group generate a join 
  203. individually.
  204.  
  205. One approach to how multi-protocol interoperability can be achieved 
  206. at the L1/L2 hierarchical boundary was presented. The technique 
  207. involves a L2 encapsulation, but does not require any exchange of routing 
  208. information between L1 and L2.  This contributes significantly to the 
  209. simplicity of the approach. However, ideally, it is considered very 
  210. desirable to have an L1/L2 interface that requires no encapsulation, 
  211. and therefore the group is rethinking it╒s (previously announced) 
  212. approach to hierarchical multicast. Nevertheless, the encapsulation 
  213. approach will be released as an IDMR Internet-Draft.
  214.  
  215. Finally, a pragmatic approach to bi-level multicast in the DIS 
  216. environment was presented. This work has been conducted at BBN under 
  217. ARPA's "Real-time Information Transfer and Networking" program in 
  218. support of distributed simulation. 
  219.  
  220. DIS applications are not like teleconferencing applications; DIS 
  221. assumes very large numbers of groups (10^4 or more), and requires very 
  222. low join latency (< 0.5 secs or less).
  223.  
  224. The bi-level environment consists of a "constructed multicast service 
  225. (CMS)" built on top of an "underlying multicast service (UMS)."  The 
  226. CMS provides control traffic which is data to the UMS. Bi-level 
  227. routers peer directly with each other. Bi-level routers (BLRs) use IGMP 
  228. to determine CMS groups. This state is sent to all other BLRs so each 
  229. BLR knows where group members are located. UMS groups are used to 
  230. distribute data for CMS groups-BLRs join both UMS groups and CMS 
  231. groups.
  232.  
  233. The communication between BLRs about BLR group memberships needs 
  234. to have a high degree of reliability. Joins/leaves use sequence 
  235. numbering and timestamps. Each BLR sends MD5 hash messages to 
  236. upstream neighbour summarizing its current state. Rather than "hard 
  237. state" or "soft state", the state is said to be "firm"; it is like soft-state 
  238. in that it is sent periodically; it is like hard state in that deltas are 
  239. sent.  However, unlike soft state, the information sent is a 
  240. cryptographically strong checksum of the desired state, rather than 
  241. the entire state.
  242.  
  243. A bi-level multicast prototype has been implemented and tested.  The 
  244. UMS was provided by Bay Networks routers using DVMRP connected by 
  245. ATM, linking six sites in the DC area. A simulation exercise was 
  246. carried out using ca. 700 multicast groups. Some sites had 2000 join 
  247. events over ca. 30 mins, which averages out at about one join per second.
  248.  
  249. Official documentation from BBN (gdt@bbn.com) should be 
  250. forthcoming  shortly, describing the concepts and protocol of bi-level 
  251. multicasting in detail. 
  252.  
  253. Once again, the DIS demonstrated the reality of the need for a  next-
  254. generation multicast protocol that can better support its requirements.
  255.  
  256.