A Python implementation of the Rapid Automatic Keyword Extraction (RAKE) algorithm as described in: Rose, S., Engel, D., Cramer, N., & Cowley, W. (2010). Automatic Keyword Extraction from Individual Documents. In M. W. Berry & J. Kogan (Eds.), Text Mining: Theory and Applications: John Wiley & Sons.
The source code is released under the MIT License.
22.5.29 edit by Staler2019
import jieba
stopwords = [] # your stopwords
rake = rake.Rake(stopwords, max_words_length=1) # chinese keyword might be just one word
text = "【第四期阶层调研】东南沿海某省工地调研,【第四期阶层调研】东南沿海某省工地调研 工地概况 工地位于该市郊区,分为施工工地、管理人员居住区两大部分。施工工地旁有少量活动板房,约有20个房间,供特种作业人员居住。管理人员居住区与施工工地相邻,活动板房有十余个房间,用作会议室、项目经理办公室、办公室以及管理人员居住房间。值得一提的是,管理人员居住区有门禁,需要脸部识别才能进入,这意味普通的工人无法进入管理人员居住区。 该项工程建设项目的开发商为该地的城市投资公司,设计、勘察、监理、施工分别委托了不同的公司,目前这片工地主要由施工方负责,而接下来的内容将围绕这家施工公司展开。 工地人员组成 工地的人员分为管理人员和建筑工人。 管理人员有30余个,架构如下: 其中项目部对工地的所有方面负责,主要管理人员有项目经理、技术负责人、生产经理。 安全部门负责监督工地上的安全管理,一个安全主管,下面有几个安全员;生产部门负责制定生产计划和监督生产计划的执行;预算部门负责监督进度、调整预算和审计材料花费;资料室掌管和印刷各类资料,由一个资料主管和多个办事员组成;劳务部门负责工人上班的考勤与工资的发放;防疫部门在疫情后依据政府规定而设立,由一个防疫专员负责,然而由于工人从事的是重体力劳动,戴口罩会严重影响工作效率,实际工作中并不会使用口罩,防疫专员的工作形式意义大于实际意义。 建筑工人的人数没有一个定数,平时有三百余人,最多时可达四五百人。工人的基本组织单位为班组,如钢筋班组、模板班组、泥水班组、钢结构班组、塔吊班组等。每个班组大约10个人,由一个班组长负责。班组长并不是纯粹的管理人员,而是承担着一定管理任务的建筑工人,如塔吊班组的班组长也需要去开塔吊,他们与班组中其他成员的区别是工作稍微轻松一些,工资稍高一些。班组长是管理人员与工人沟通的桥梁,每次的生产工作会议都有班组长参加,生产部门制定生产进度,由班组长负责,确定他所在的班组在规定时间内完成生产计划,在工程质量出现问题和工程进度不及预期时,管理者也会直接找班组长,由班组长负责具体的落实工作。 此外,工地上工作的工人中还包括一批小工和帮工。小工是负责打扫工地的工人,工资也最低;帮工是工程建设需要人手较多时额外雇佣的,并没有纳入常规的管理。 包工制度 建筑工地是层层分包制度:首先,开发商拍下建设用地,然而它们并不负责具体的开发工作,而是将工程外包出去。以我调研的这个项目为例,设计、勘察、施工都外包出去,由不同公司负责。其中最重要的环节是施工,因为施工的周期最长、责任最大,需要的资金也最多。对于一般的建设项目,开发商会把整个建设工程外包给总包,由总包工负责筹集部分资金、自行寻找施工单位、监督建设进度,开发商一般下浮几个点收取管理费。 近些年,因建筑工地拖欠工资现象非常普遍,为了解决农民工工资拖欠,法律和政策层面,出台了一些列的规定,比如工资托收、总包方责任连带等,但并不意味着工人的工资不会被拖欠。 2021年底,广东省中建二局总包的黄埔南岗万达广场项目就出现了拖欠农民工工资的情况,砌筑班组的林先生称总共拖欠137个建筑工人工资,大概三百七八十万,在向项目经理交涉时,项目经理竟称“来搞嘛,跟二局玩你玩得过吗?”。在受舆论压力支付一部分工资后,项目经理还表示若不撤下媒体的视频就不发剩下的钱。在广东省的这起讨薪事件中,工资也是由项目部发放,但工人的工资依旧被拖欠了。 员工情况 年龄及家乡 在工地上工作的人中,中年人占绝大多数,二十多岁的年轻人很少。建筑工人的家乡分布不一,各个省份广泛存在,但在分布上有一定特点,四川、江西、河南、云南等内陆人口大省居多。 工作来由 访谈中很多的建筑工人来自农村,离开农村来城市打工的理由非常统一——种田赚不了钱。一位木工和钢筋工向我提供了更详细的阐释:一家人只有四五亩田,如果全部种上水稻,喂活自己就不错了,如果拿去出售,一年下来可能就赚几千块钱;把土地拿去流转更是糟糕,一是种田大户会对土地进行挑选,选择平整的、连片的土地,自己家的土地不一定会被流转;即使土地成功承包给他人,一年得到的补偿只有几百块,聊胜于无。 农村的低收入并不意味着农村的花费少,访谈的一位木工激动地向我表示,现在的农村喝水要钱(装了自来水管道)、用电要钱、取暖和做饭也要钱(不让使用柴火,只能使用煤气)。此外。孩子的教育、进行危房改造的花费都是不小的支出,需要外出打工才能勉力支撑。当然,并不是所有的建筑工人都来自农村。一位塔吊女司机之前经营着一家小吃店,在前几年与丈夫离婚后,行业的不景气与自己精力的不足使她转去学习了开塔吊的技术,成为一名塔吊司机。 也有人在学生时代一结束就走进了工地:一名年轻的电工表示,自己高中一毕业就从事这个行当,总共干了十几年的建筑电工。 工作时间 在工地工作非常辛苦,首先是劳动时间长,冰冷的作息时间表时刻提醒着所有人:工程的进度不等人。即使是工作相对轻松的管理人员,七点之前就要完成洗漱以及早饭,一直工作到晚上六点。建筑工人则更为辛苦,五点半就需要起床,在六点半之前从所租住处赶往工地,接着一直工作到上午11点,经过短暂的午休后于下午一点重新上工,干到下午五点。如果一个工人想要多挣些钱,晚间的加班需要他工作到晚上十点。即使按正常的下班时间,放工也不代表放松时段的到来,工人在放工后需要回住所、做晚饭、吃晚饭、洗澡、洗衣服。一系列的琐事做完时已是晚上九点,躺在床上,短暂地刷刷手机,倒头睡去又是新的一天。 工作收入 网上一直炒作建筑工人的工资很高,既对又不全对。首先,工地上不同岗位的工资不同,一般来说,技术含量高的工种对应着高的工资。一般的工种,如木工、钢筋工,一天300-500元,若晚上加班三个半小时可再算半天工资;较低级的工作,如小工,一天只有一两百块;而技术含量较高的工种,如塔吊工、高级电工(掌握PLC编程)会比一般工种稍高一些。相比工厂的普工,这个工资水平不低。 但工地根据考勤记录发放工资,也就是干一天活拿一天工资,工人并不是每天都在工作,一个月里总有几天进行休息。工程进度的不确定性或者天气原因,都会导致窝工,当然也就没有工资。总的算下来,一般的工种一个月收入为5-7千元,技术工种如塔吊司机一个月收入为8千元,若加班多一些,可达一万多。 此外,建筑工地的工作时间长、劳动强度大,对比下来,建筑工人的工资其实不高。 花费 建筑工人们的花费主要为房租、吃饭、娱乐花费(如抽烟喝酒),下面我按这几个方面分别进行考察。 房租:据访谈了解,在若干年前,建筑工人都住工地上的活动板房。免费或者收取较低住宿费用,上下班方便,但活动板房冬冷夏热,隔音、卫生也不理想,且存在较大的安全隐患,因此近些年来一般不允许工人住在活动板房里(仅限于我调研的地点,其他省份的情况可能不尽相同)。根据调研的情况,工人一般在附近的村庄中租房,条件差点的单间租金500-700元 月,好点的单间租金1000元 月。特种作业建筑工人(如塔吊司机、电工)由于应急处置各类突发情况,会统一安排住在工地活动板房,也省去了每个月在租房上的花费。 吃饭:由于该工地的食堂只向管理人员开放,工人一日三餐需要自理。工人们的饮食都很简单,早上吃包子馒头,花费5、6块,午饭和晚饭吃廉价的快餐(晚饭有的也自己做),每餐约15元(这个花费并不高,按照工人的说法,低于这个消费标准的饮食吃不饱,干活没力气)。若按35元 天的标准计算,一个月在吃饭上的花费为1050元。 娱乐花费:建筑工人花费最多的是烟酒,一天繁重的劳动后,烟酒可以适当解压。根据访谈的情况,这项花费可被估计为500-1000元 月。 攒钱以及未来打算:除去必要的花费外,工人们生活非常节俭,一般一个月能攒五六千元(小工除外)。至于这笔钱将怎么用,工人们有不同的想法,大体可分为四类:供家里人生活、攒钱老家建房、供子女读书、存钱给自己。工地上的很多建筑工人都是中年人,上有老下有小,家庭压力很重,一个工人说自己是“一人挣钱五人花”——供养两个孩子、两个老人以及自己的妻子。对于这类家人都在农村的工人,他们最大的愿望就是攒够了钱,在农村建个新房,到时候自己干不动了,也就回农村养老享福去了。较为年轻的工人,他们的家庭负担也稍微轻一些,对未来的想法尚不明确,只想也想多干点活,多攒点钱,为将来的发展做准备。 工厂与工地 中国被称为“世界工厂”,有着规模庞大的工人队伍。这批建筑工人为什么不选择在工厂里工作?我做了一些访谈,了解到:十几年前,在梁师傅来工地做钢筋工以前,他曾在工厂打过工,但没持续多久。最困扰他的是夜班,在顶着浓烈的睡意开了一夜的染布机后,梁师傅和其他人又被厂长训了一个早上,而自那以后,他就离开了工厂,在工地一干就是十几年。 梁师傅这么总结两者的差别:工地上虽然身体上更辛苦些,但更为自由,假设今天身体不舒服,就可以不去上班(当然挣不到这天的工资),工作的节奏由自己把握。工厂里虽然身体上轻松一些,但压力是很大的,每天都得出勤,工作也很无聊,活的像个没有生命的机器。总而言之,工人们都会用“工地更自由”这句话来描述两者之间的差别。 工地上的辛苦生活 网上总有人开玩笑,说工作是去“搬砖”,但工地生活的辛苦却难体会。以塔吊司机为例,每天都需要爬上塔吊,为了减少爬上爬下次数,塔吊司机都要有意控制自己的饮水量,甚至带上塑料瓶以解决内急。在几年之前,大部分塔吊甚至没有装空调,如果施工方不自行安装空调的话,他们就要在夏天忍受酷热、冬天忍受寒冷。 我们再来看看一位电工的生活,他不需要像塔吊司机一样爬上高耸的塔吊,也不需要像钢筋工、泥水工一样从事重体力劳动,他的工作是否就很惬意?答案是否定的。电工需要奔波于工地的各处角落,解决各式各样的问题,还需要时刻待命,以应对各类突发情况。访谈的一位电工向我表示,他每天要走两万八九千步,最多时走了三万八千步(微信运动记录),有时处理突发情况会忙到晚上十点多,在工程繁忙的时候还会被当小工用,去搬各种东西。一天下来,精疲力竭是常态。 工人的“组织”——微信群 工人之间的沟通联系,大部分是通过微信群,往往也是以老乡或一个班组为单位,如钢筋工的微信群、资料员的微信群。群的作用很大,相互之间推荐介绍工作,暂时维护小团体利益的工资水平,保障经济利益方面,都可以发挥一些作用。但工地用工模式决定了,这种联系是脆弱的,随着工期结束或者项目的变迁,彼此的联系就减弱了。 总结: 随着中国快速城市化,一栋栋高楼大厦拔地而起。工地成为城市中既常见又易被大家忽略的景象。每到开春,一个个工地在机器的轰鸣声中开工,及至岁末,一个个工地又在一片静寂中完工,留下的是一栋栋或宏伟或精美的建筑,而工地上的板房、工人的汗水与难熬的日与夜则消失得无影无踪。工人们的生活被工地的围墙挡住,即使从网络世界也不能窥得全貌。 工地见证了以地产和建筑资本为代表的资产阶级迅速膨胀,也见证了建筑工人艰难挣扎求生存的历程。在苦难的背后,共同的艰难打工生活将他们逐渐凝聚起来,打造钢筋水泥世界的他们,也是改天换地新世界的建造者。 5 条评论"
text = " ".join(list(jieba.cut_for_search(text))) # use jieba to tokenize input-text first
keywords = rake_object.run(text)
print("Keywords:", keywords)
import spacy
nlp = spacy.load("zh_core_web_sm")
stopwords = spacy.lang.zh.stop_words.STOP_WORDS
stopword
and input-text
cannot contain |
because code use this operator to split sentences