将出台的超五类线标准,所以只要不是施工工艺上的明显问题,链路参数都会合格;理由之二是:实际执行的测试程序在一段时间内大多数工程商都是事实上选用五类系统现场认证测试标准进行测试。因此本工程在上述背景下也无例外地选用了五类线标准进行现场认证测试。在与用户签订的验收测试程序中不指明使用何种具体标准进行现场认证测试。本项工程结束后,用户在验收全部合格后才“偶然”发现检测报告的标准是北美五类线标准,与选用的超五类线的电缆系统不相符,遂提出异议,并要求工程商按超五类线标准进行验收测试。我们知道,北美超五类线现场认证测试标准是二零零零年一月二十七日正式发布的,而工程是在此之前开工的,因此工程商仍决定使用北美五类线标准进行验收测试,检测结果当然100%合格。如果工程商在电缆系统中全部采用标准的超五类线元件,即电缆、接插模块均选用合格的超五类产品,则当用户要求重新测试时,测试结果合格率应该还是会接近100%。遗憾的是,工程商对超五类线系统的理解出现偏差,在选用的超五类线链路中有意无意地使用的是五类连接模块,因此当业主提出按超五类线标准重新进行现场认证测试时约有24%的链路出现问题。
为什么不是100%的链路出现问题呢?这是因为,“五类线连接模块”+“超五类线”构成的链路原理上应该比“纯五类线系统”稍好些,加上五类模块在设计和生产上参数留有一定余量,所以本工程仍然有76%的链路通过了超五类线标准的现场认证测试。9%的链路实在无法达到链路参数要求,15%的链路参数在“边沿”灰色区域。
[诊断建议]我们不去追究究竟是何种原因使得工程商选用了五类连接模块进行工程安装而不是按照设计规范选用超五类连接模块进行施工。从现场测试的结果来看,由此造成的返工将是不可避免的了。好在该电缆系统使用的电缆是合格的超五类线产品,返工涉及到的部分一般仅限于水平电缆两端的连接器件。 建议集成商责成工程商将全部五类线模块更换为合格的超五类模块,即便是先前测试合格的76%链路和处在边沿附近的15%也要更换,这样才能确保该超五类线电缆系统在相当长的时间内保持合格水平(比如十五年质保期内)。
[后记]三周后集成商来电告知,所有模块全部更换并按北美超五类线现场认证测试标准进行了验收,全部合格,还算是个圆满的结果。不过,集成商因此而付出的代价也不菲:不算更换模块造成的损失,光支付业主索赔款就有12万(平均每条链路8元)。
[案例十八]六类线作跳线,打线错误造成100M链路高额碰撞,速度缓慢,验收余量达不到合同规定的40%
[症状]周末,某著名系统集成商今日“报案”,他们为一家银行集成的新大楼在进行网络验收时达不到合同要求的40%余量指标,经多方检查仍原因不明。整个系统采用超五类线布线,系统的其它问题都已全部解决,只剩下服务器验收这一项,报告说明全部不合格。下周三就是工程验收最后期限,如果不能在周二以前解决问题,将影响用户的实际使用。集成商的声誉也将受到不利影响。集成商负责系统集成总包,布线工程由另一家信誉良好的专业布线工程商承担,布线系统全部经过超五类线现场认证测试。集成商负责网络的验收测试系统平台的开通测试。网络验收测试中的一项测试内容是通道性能测试,对包括服务器在内的关键设备进行联通性和通道能力测试。合同要求服务器留出40%的可用余量,测试方法是对服务器加上60%背景流量,然后进行联通速度测试,Ping测试在整个网段内小于2ms为优,下载20M字节的文件小于10秒为优。实际测试时Ping测试值为5ms,60%流量背景时下载速度为80秒。主观感觉服务器访问速度缓慢,原因不明。若将背景流量降为15%,测试结果则能达到要求的参数值。要求网络医院帮助查找原因。
[诊断过程]服务器通道测试速度慢的原因有很多,象网络设置错误,网卡驱动程序版本不匹配,网卡协议邦定不良或有冲突,网络设备如网关、桥、交换机、路由器等设置错误或不良,链路故障或次生垃圾过多,干扰信号进入系统,系统平台设置有误,开发的应用系统程序设计优化度差,平台和终端设备不协调/匹配,服务器和网络的协议不匹配等等等等,我们需要确定具体的故障原因。一般来说,定位故障可以先从联通性和协议匹配性入手比较简单和快速。从工程人员哪里了解到,平台已经安装了三遍,网络设置和网卡驱动程序也调整过多次,鉴于网络Ping测试可以通过,因此他们倾向于故障存在于服务器与网络协议
的匹配性不良。我们将网络测试仪接入网络,重复上述测试内容,证明其先前的测试数据基本属实。问题是几乎所有的服务器都出现类似的问题,所以我们必须查找与此相关的公共参数。首先,将服务器从网络上摘下,抽查14台服务中的任意4台,将网络测试仪串入链路进行“专家级”测试,检测服务器与网络的连接关系和性能。先对其网卡接口用网络测试仪的NIC测试功能进行测试,全部显示正常,然后观察网络的工作参数和工作协议,全部正常。这表明网络和服务器的网络设置、协议设置、物理工作参数、协议匹配性等是基本合格的。但因此时的网络流量是比较低(1%),许多网络性能方面的问题都是在流量比较高的条件下才暴露出来。所以,采用如下方法选中任意一条服务器链路进行测试:用“网络测试仪”在离服务器最近的交换机端口上对被监测的服务器模拟发送流量,用网络故障一点通或网络万用表监测通道数据。当模拟链路流量曾家至3%时,被选中的链路碰撞指标开始超过5%健康底线,当流量曾至40%,碰撞率达到98%,流量60%时,碰撞率99.8%。很显然,网络的链路性能存在较大问题,对另外4条链路进行同样的测试,结果类似。在交换机紧邻的接口直接对网络故障一点通做上述类似测试,显示正常。这说明链路存在严重问题的可能性极大。与网络设备设置关系不大。询问工程人员,声称布线系统经过了严格的超五类线测试,布线工程商并信誓旦旦地保证链路不会有问题。查看布线系统认证测试报告,BasicLink超五类线认证测试全部通过。服务器是由服务器供应商指定的分销商负责安装调试的,他们当时也在场,自称安装过上百台服务器,也从来没有出现过类似问题。各方似乎都有道理,但链路存在问题是很显然的,所以我们决定对链路重新进行现场认证测试。测试刚才抽查过的链路,结果是全部都不合格,电缆测试仪提示“打线错误”。且电缆测试仪的HDTDX分析功能启动后定位出近端串扰在整个链路的远端约2~3米长的线段内超差。为分清责任,改对BasicLink测试,水平电缆测试全部通过,这说明布线工程商的施工参数确实是合格的,问题很可能出在服务器安装服务商身上。试着更换服务器链路跳线,故障现象立即消失。随即对全部服务器跳线进行更换,之后对网络重新进行验证测试,参数全部通过。
[诊断评点]故障是由服务器连接跳线打线错误造成的,我们知道,打线标准中规定了568A和568B两种格式,这两种格式原理上是完全等效的,区别仅在线序不同而已。常见的打线错误是被称作“串绕”的一种,特点是将线序按1-2、3-4、5-6、7-8的自然顺序排列。这样将会造成近端串扰严重超标,一般来说会令服务器无法与网络实现100Mbps的网络连接。本案中由于跳线的线序错误按理应该导致服务器不能上网,但实际的情况确是服务器能上网,只不过碰撞率严重超标而已。由此看来其中必有蹊跷。我们专门对服务器安装商提供的电缆进行测试,近端串扰超差,重新打线后再测试,通过,近端串扰参数的富余量很高。遂怀疑服务器跳线是用六类线制作的,查看电缆标记,确实是朗讯的六类线产品。改用六类线标准专门设计一条六类线BasicLink基本链路进行三接点(串入被测跳线)验证测试,不通过。电缆测试仪故障信息屏幕提示接头不合格,为六类以下器件。重新进行通道性能测试,加载60%Ping测试小于1ms,20M字节文件拷贝8秒以内全部服务器链路都能完成。
[诊断建议]服务器安装商误用朗讯的六类线来制作超五类线跳线,使得原本根本不能上网的服务器能够勉强上网,并同时造成其它参数健康指标不合格。一般来讲,采用六类线制作的跳线其性能会优于五类线。所以建议用户可以保留六类线制作的超五类链路跳线,只需将打线顺序改正即可。
[后记]下周二集成商来电告知,他们最终没有保留原服务器跳线,而是全部更换合格的超五类跳线。集成商由于没有自备电缆测试仪才造成如此被动,为此他们于今天专门配备了一整套布线系统认证测试工具和网络验收测试工具,希望能从此无忧少忧,并且希望能更好地进行网络的性能测试和维护,帮助快速方便地进行网络的验收测试。
[案例十九]六类线工艺要求高,一次验收合格率仅80%
[症状]某著名布线工程商及系统集成商,采用六类线为某市新建的电信大厦布线,点数虽然不多,只有
共1,800点,很快就完工,但在验收测试时遇到一些小麻烦:合格率一次性测试通过值只有80%,其余的20%近360条链路不合格。布线商采用的都是某电缆生产商的正规产品,包括全套的电缆和连接模块,其质量在施工前进行过验收,抽查过其中三卷产品,均合格。承担施工的队伍也是有近四年工程经验的下属布线工程公司,曾经有10万条链路的成功施工经验。此次工程项目为第一个六类线试点工程,对公司的布线施工队伍也是一次考验,结果却不尽人意。如果360条链路全部返工,计算下来也是一笔不小的损失。因此公司决定先对剩余的六类线再行进行抽查,以确定是否是产品的问题;然后再安排如何更换或修复这些不合格链路。
抽测结果如下,抽测的10卷产品,每卷产品截下90米,按90米六类线“Basic Link”基本链路连接后进行现场认证测试,结果有7卷产品不合格。由于该工程商同时也是厂商的产品代理尚,厂商的销售代表也无法解释测试结果。接着再进行了第二次抽查,结果10卷产品的90米模拟链路仍有6卷不合格,遂请“网络医院”帮助确认原因。
[诊断过程]到达现场后计划部分测试不合格的链路,共抽测了20条,结果全部不合格。打开电缆测试仪DSP4000中保存的参数,查看主要不合格的参数有回波损耗“RL”,“PSACR”综合衰减串绕比等,比例占80%,其次是“PSELFEXT”综合等效远端串扰、“PSNEXT”综合近端串扰等。对工程商原来抽测过的链路进行复检,结果与上述结果基本一致。仅靠生产商提供的产品证明和合格证书似乎已不足以证明其产品是否满足工程施工现场认证测试的要求。为了确认是否是厂家电缆产品和接插件、连接模块等本身的问题,我们建议布线工程商将他们代理的另外一家电缆生产商供应的产品拿来与本项工程采用的电缆进行对比。对比方法如下:同样制作10条链路,测试条件与上述抽查时的测试条件相同,然后统计测试结果,与前面的测试结果进行对比,以便验证是否是产品本身的问题。一小时后,工程商依此建议制作了两组共20条用另外两家电缆生产商提供的电缆产品“加工”成的90米基本链路,每家10条链路。我们分别对这些链路进行测试,结果如下:链路合格率为A产品80%,B产品70%;且各有20%合格的参数比较靠近测试标准的边缘,一般只有0.5~1.3左右的参数富余量。
由此看来,各电缆生产商提供的产品都有相近的合格率,这岂不等于说各电缆生产商提供的产品都有问题?根据逻辑分析只能有以下几种可能:一是产品质量确实有问题,但有问题的比例为何如此一致呢?似乎可能性不大;二是测试仪器或测试环境有问题,比如仪器误差偏差或损坏,测试环境有大量电磁干扰源或干扰信号,但施工现场和试验测试地相距达400米,电磁环境相异甚多,且周围没有其它使用特殊电磁设备的邻居和大型用电设备、强功率辐射源等,这条原因似乎也不象;三是施工方法、施工工具和测试的方法有问题,但工程商承担施工人员的都是有至少一年施工经历的员工,且为试验链路打线的人员已经为该公司工作了两年半,技术上应该没有问题。打线工具经过目测检验没有问题,并且工程施工中的打线工具不是刚才试验链路制作时的同一个工具。
我们暂时假定产品没有问题,采用另一台自身携带的DSP4000电缆测试仪和工程商自备的同一型号的电缆测试仪进行对比测试,各测试结果一致性相当好,说明测试仪没有问题。为了定位故障位置,使用DSP4000电缆测试仪中的“HDTDX”高精度时域串扰分析功能和“HDTDR”高精度时域反射分析功能进行故障图谱分析,结果发现不合格参数的“突出位置”都在接插件和连接模块的位置,这说明要么接插件和连接模块有质量问题,要么就是施工工艺存在问题。接下来将不合格链路中的接插件和连接模块重新更换一遍以后进行测试,结果三家产品各自10条链路中有一家全部合格,两家只有一条不合格。将不合格的链路再“回炉”一次,进行第三次测试,结果全部通过测试。对20%参数靠近边沿的链路认真“回炉”进行测试,结果全部合格。这说明,接插件和连接模块的施工工艺可能是链路认证测试不合格的重要原因。下一步,为了验证是否是电磁干扰等可能原因,回到工程现场,选取20条原来测试不合格的链路也如法炮制,重新“回炉”,将接插件和连接模块重新“认认真真”制作一遍,结果一次重新测试就全部通过!!
[诊断评点]综合布线的施工工艺看似简单实则要求不低。在三类线的施工过程中,大量的布线商采用临时性的施工人员,经过两小时培训后就上岗工作,工程验收合格率仍比较高。在五类线和超五类的施工过程中,工艺问题开始被工程商重视,但一般不足以形成如此大面积高达20%的链路不合格的严重后果。而
在六类线的施工过程中,施工工艺问题被推到了非常重要的位置,在打线和安装时稍有不慎就会使整条链路认证测试不合格,这是工程商始料不及的。其实,诊断具体的故障位置方法很简单,使用电缆测试仪的高精度时域串扰分析技术“HDTDX”和高精度时域反射分析技术“HDTDR”两项故障诊断功能就可以非常方便地显示出故障的实际位置。施工人员可以据此立即采取修复措施,而不会等到认证测试和验收时“去丢人现眼”“出洋相”了。六类电缆频带由100MHz增加到250MHz,对特性阻抗机器连续性的要求提高了很多,另外对近端串扰、等效远端串扰、衰减串绕比等参数的要求随着频率增加的平方数成正比。上述参数的Power Sum (功率和)参数也被提高到非常严格的程度,表现在施工工艺中比较突出问题就是接插件和连接模块的制作工艺对整条链路的影响变得非常突出。所以严格的施工工艺要求需要引起布线工程商的高度重视,只有这样才能避免造成影响工期的大面积返工和资源的浪费。否则,一次性验收测试一般会停留在80%左右。
[诊断建议]将不合格的360条链路重新严格制作一遍,并对参数靠近边沿2dB以内的的360条链路也采取同样改进措施,以确保工程品质。另外,施工队伍的严格培训和强调施工工艺的严格性也必须认真对待之。
[后记]一周后,工程商告知,经过“回炉”后,1800个链路全部验收合格。除了重新处理不合格的360条链路外,对边沿值的360条链路也进行了重新制作,参数测试富余量全部都在2dB以上,他们准备把这项工程作为该公司的样板工程。
[案例二十] 服务器网卡损坏引起广播风暴
[症状]今天是周末,某银行向医院求助,其西城区整个网络瘫痪,与电脑中心的联络基本中断,只偶尔有部分交易能达成,但速度很慢,不知何故。由于电脑中心的网管系统也陷于瘫痪状态,无法观察任何网上设备的情况。
[诊断过程]从火车站匆忙告别家人和朋友直奔该行电脑中心,途中与中心主任继续联络了解情况。系统故障是凌晨4:30左右出现的(约4小时前),值班员当时发现网管系统有报警信号,20秒钟后网管机就基本上处于死机状态了,想进一步了解故障,遂将系统重新启动过三次,每次网管机都在20秒钟左右失效,而主服务器和网管机脱机自检均正常。
询问各营业所网络内部工作情况,回答正常,只是交易动作无法实现。可以基本断定故障就在中心的计算机系统中。中心除了配置有HP公司的网管软件OpenView外,没有再配备其它任何网络维护工具。所以一旦网管系统不能正常工作,运行维护人员也就无从下手。东城区和西城区的网络主服务器分别在两个不同的网段中,之间用交换器连接起来。全城结算主机与东城区主服务器在同一网段。用F683网络测试仪接入东城区正常工作的网段观察,发现Cisco5500交换机的Plot3Port4(第3插槽的第4端口)有异常流量,而该端口连接的正是西城区主服务器和网管系统所在的网段。为更仔细地观察此网段的工作情况,将F683网络测试仪和协议诊断器PI接入该网段,测得网络持续流量为97%,其中错误帧占98%。错误类型为短帧40%,帧常50~60字节不等,长帧58%,帧长3000~5200字节不等,并报告了出错机器的Mac地址。依此地址查找对应的机器,遗憾的是该电脑中心没有Mac地址备份表(只有IP地址和符号名对应表)。试着用ICMP的Ping查找网管机和服务器,显示Mac地址对应的是服务器的IP地址。重装服务器网卡驱动程序,无效,用F683测试服务器端口,协议显示Unknown,更换服务器网卡,重装驱动程序并设置响应参数,重启系统即恢复正常。
[诊断评点]服务器网卡已经损坏,发出的数据帧错误率为98%,只有不足1%的数据正常。所以网络偶尔还有交易可以达成。我们知道,超长帧有封闭网络的作用,主要是引起网络速度变慢或网络瘫痪,而短帧达到一定流量则会对网络设备的工作协议造成一定程度的破坏,引起设备死机(实际测试中发现工作站对此更敏感些)。网管机上网时在收到高错误流量帧后约20秒钟即被破坏死机,无法观测参数。
许多设备在自检时只检查部分参数(有些参数尤其是某些物理参数无法仅靠自检来测试),此案例中网管机和主服务器自检表现正常,而实际上主服务器的网卡物理功能已经失效,但在自检时与操作系统的通信协议能正常工作,靠1%左右的正常帧可以维持极低的网络活性。其它网站会在高流量错误帧的“轰炸”中陆续丧生。
[诊断建议]交换机用来隔离网段和网络故障有较好的作用,主服务器、网管机等重要网络设备应以独享交换机端口为佳,不宜再用共享式集线器连接上其它设备,这样可以迅速孤立出故障设备,减少因网络停运造成的损失。如果恰好遇到交换器故障,那么根据网络拓扑结构图就可以迅速定位交换机的问题,提高维护工作的时效性。另外,Mac地址是文档备案的最重要内容之一,除了用于排除网络设备故障有极大方便外,对于迅速查找我们称之为“恶意用户”的非合法上网成员也有很大帮助。
[案例二十一]交换机软故障:电路板接触不良
[症状]今天的“病人”是某大型证券公司,在全市有近11个营业网络。以下是该公司信息中心工程师对故障现象的描述:一段时间以来,整个网络交易时常中断,有时一天内会出现2~3次。起初每次持续的时间很短,没有引起我们的足够重视;我们做过简单的测试,约几秒钟至十几秒钟不等,规律性不太明显,一般开市时都正常。随后一段时间“病情”不断加重,发病频率不断增加。好几个“资深”用户曾向老总抱怨,近来碰到几次原本估计十拿九稳的网上交易不能及时成交:“当我按下交易确认键时,计算机对此却没有任何响应,也不知道成交了没有,只好再等上一会儿。我给伙伴们介绍的绝招是,过半分钟再试,计算机就会显示成交。不是每次都这样灵光,但以前极少遇到这种事,而最近一周已经遇到好几次了,好象一天比一天厉害,搞得我们的神经紧张兮兮的。”昨天15:26,临近下午闭市时,故障现象再次出现:行情数据的显示和更新都正常,就是普遍不响应交易命令(但不是绝对不响应,其中仍有少数交易能成交),11个子交易网络均反映受阻。网管人员初步判断是中心网络的问题,立即在电脑科计算中心检查交易服务器,CPU利用率、协议交换及包交换等指示正常,试验重新登录服务器和Ping测试也正常。时间到,转为休市状态。休市后保持交易网络继续运行,启动模拟交易功能模块,进入故障诊断作业程序。在计算中心LAN内连续作了40笔模拟交易均成功。同时在3个子交易网处作对内和对外的模拟交易,对内100%,对外成功率约15%左右。基本上可以肯定故障在网络本身。保持模拟交易连续工作状态,启用计算中心的网管系统查看网络,服务器工作状况指示正常。检查与其它11个营业网络的联系的交换器端口,有流量指示,但时有停顿。对其作Ping测试,偶尔会有中断(约有3%Ping测试不响应)。用DSP-100电缆分析仪检查与交换机连接的端口电缆链路(服务器、网管机均在此网段内),没有问题。这说明服务器所在网段是正常的,怀疑是交换机端口损坏。将与服务器网段的电缆改插在别的交换器端口并作相应设置,网络恢复正常工作,故障消失,确认为交换机端口损坏,心想总算可以松一口气了。不料,今日开市后不久故障依旧如期“光临”。
[诊断过程]晚上19:50我们赶到该证券公司所在地,立即启动系统,自检显示正常。然后启动模拟交易系统,观察与子交易网络的通信情况,表现正常。网络拓扑图上显示各子交易网络是用DDN专线通过路由器与计算中心本地网段的交换器联系起来。打开各Router的工作表Mib检查,无异常和错误记录。逐个检
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库网络故障汇编(5)在线全文阅读。
相关推荐: